Dữ liệu đầu vào là các file âm thanh có độ dài 1 giây, được xử lý bằng cửa sổ trượt để trích xuất 98 đặc trưng MFCC, mỗi đặc trưng là vector 40 chiều.
Công trình so sánh hiệu quả của ba mô hình: mạng nơ-ron đơn giản (Vanilla NN), mạng nơ-ron sâu (DNN) và mạng CNN. Thực nghiệm được tiến hành trên bộ dữ liệu Speech Commands của Google với khoảng 65.000 mẫu thuộc 30 lớp.
Kết quả cho thấy mô hình CNN đạt độ chính xác cao nhất (94,5%) trong phân loại lệnh điều khiển bằng giọng nói, vượt trội so với các mô hình còn lại. Nghiên cứu khẳng định tiềm năng ứng dụng của CNN trong các hệ thống điều khiển bằng giọng nói, đặc biệt trong thiết bị thông minh và hỗ trợ người khuyết tật.


Thêm đánh giá của bạn
Xếp hạng
Không có bài đánh giá nào!