Name: Nhận dạng tiếng nói điều khiển với Convolutional Neural Network (CNN)
Brand: Đề tài - Dự án
SKU: WW-2443-TXNNE
Availability: InStock

Nhận dạng tiếng nói điều khiển với Convolutional Neural Network (CNN)

Tác giả: Phạm Tấn Phúc

Định dạng tài liệu: Đề tài - Dự án

Nghiên cứu này đề xuất phương pháp nhận dạng tiếng nói điều khiển sử dụng đặc trưng MFCC kết hợp với các mô hình học sâu, đặc biệt là mạng nơ-ron tích chập (CNN).

Phí Download:

Miễn phí

Tổng quan về tài liệu
Đánh giá

Dữ liệu đầu vào là các file âm thanh có độ dài 1 giây, được xử lý bằng cửa sổ trượt để trích xuất 98 đặc trưng MFCC, mỗi đặc trưng là vector 40 chiều.

Công trình so sánh hiệu quả của ba mô hình: mạng nơ-ron đơn giản (Vanilla NN), mạng nơ-ron sâu (DNN) và mạng CNN. Thực nghiệm được tiến hành trên bộ dữ liệu Speech Commands của Google với khoảng 65.000 mẫu thuộc 30 lớp.

Kết quả cho thấy mô hình CNN đạt độ chính xác cao nhất (94,5%) trong phân loại lệnh điều khiển bằng giọng nói, vượt trội so với các mô hình còn lại. Nghiên cứu khẳng định tiềm năng ứng dụng của CNN trong các hệ thống điều khiển bằng giọng nói, đặc biệt trong thiết bị thông minh và hỗ trợ người khuyết tật.