Nhận dạng tiếng nói điều khiển với Convolutional Neural Network (CNN)

Tác giả: Phạm Tấn Phúc
Định dạng tài liệu: Đề tài - Dự án

Nghiên cứu này đề xuất phương pháp nhận dạng tiếng nói điều khiển sử dụng đặc trưng MFCC kết hợp với các mô hình học sâu, đặc biệt là mạng nơ-ron tích chập (CNN).

Phí Download:
Miễn phí

Dữ liệu đầu vào là các file âm thanh có độ dài 1 giây, được xử lý bằng cửa sổ trượt để trích xuất 98 đặc trưng MFCC, mỗi đặc trưng là vector 40 chiều.

Công trình so sánh hiệu quả của ba mô hình: mạng nơ-ron đơn giản (Vanilla NN), mạng nơ-ron sâu (DNN) và mạng CNN. Thực nghiệm được tiến hành trên bộ dữ liệu Speech Commands của Google với khoảng 65.000 mẫu thuộc 30 lớp.

Kết quả cho thấy mô hình CNN đạt độ chính xác cao nhất (94,5%) trong phân loại lệnh điều khiển bằng giọng nói, vượt trội so với các mô hình còn lại. Nghiên cứu khẳng định tiềm năng ứng dụng của CNN trong các hệ thống điều khiển bằng giọng nói, đặc biệt trong thiết bị thông minh và hỗ trợ người khuyết tật.

Thêm đánh giá của bạn

Vui lòng đăng nhập để viết đánh giá!

Tải ảnh lên
Bạn có thể tải lên tối đa 6 ảnh, kích thước tối đa của mỗi ảnh là 2048 kilobyte

Xếp hạng

(0.00 trên 5)
5 sao
0%
4 sao
0%
3 sao
0%
2 sao
0%
1 sao
0%

Không có bài đánh giá nào!