Mô hình chú ý ngữ cảnh đa tầm nhìn cải tiến cho bài toán trả lời câu hỏi dựa trên hình ảnh bằng tiếng Việt

Tác giả: Nguyễn Thị Tường Vy
Định dạng tài liệu: Đề tài - Dự án

Nghiên cứu tập trung vào bài toán trả lời câu hỏi dựa trên hình ảnh, một hướng nghiên cứu tiêu biểu ở giao thoa giữa thị giác máy tính và xử lý ngôn ngữ tự nhiên, có ý nghĩa khoa học và giá trị ứng dụng cao trong thực tiễn.

Phí Download:
Miễn phí

Nội dung nghiên cứu phân tích hạn chế của các phương pháp hiện hành khi chỉ khai thác đặc trưng cục bộ hoặc toàn cục của hình ảnh, dẫn đến khả năng suy luận và tổng hợp thông tin chưa tối ưu. Trên cơ sở đó, nghiên cứu đề xuất một mô hình cải tiến dựa trên cơ chế chú ý ngữ cảnh đa tầm nhìn, kết hợp hiệu quả giữa thông tin hình ảnh và ngôn ngữ nhằm nâng cao khả năng hiểu ngữ cảnh và tập trung vào các đặc trưng quan trọng. Mô hình được xây dựng trên nền tảng Multi-vision Contextual Attention, tích hợp các kiến trúc học sâu hiện đại như Vision Transformer và cơ chế chú ý đa phương thức để tăng cường khả năng liên kết giữa hình ảnh và câu hỏi. Kết quả thực nghiệm trên bộ dữ liệu ViVQA cho thấy mô hình đề xuất đạt độ chính xác 62,41%, cao hơn đáng kể so với mô hình gốc, qua đó khẳng định tính hiệu quả và tiềm năng ứng dụng của phương pháp trong các hệ thống trả lời câu hỏi bằng tiếng Việt dựa trên hình ảnh.

Thêm một bài đánh giá

Vui lòng đăng nhập để viết đánh giá!

Tải ảnh lên
Bạn có thể tải lên tối đa 6 ảnh, kích thước tối đa của mỗi ảnh là 2048 kilobyte

Xếp hạng

(0.00 trên 5)
5 sao
0%
4 sao
0%
3 sao
0%
2 sao
0%
1 sao
0%

Không có bài đánh giá nào!