Nội dung nghiên cứu phân tích hạn chế của các phương pháp hiện hành khi chỉ khai thác đặc trưng cục bộ hoặc toàn cục của hình ảnh, dẫn đến khả năng suy luận và tổng hợp thông tin chưa tối ưu. Trên cơ sở đó, nghiên cứu đề xuất một mô hình cải tiến dựa trên cơ chế chú ý ngữ cảnh đa tầm nhìn, kết hợp hiệu quả giữa thông tin hình ảnh và ngôn ngữ nhằm nâng cao khả năng hiểu ngữ cảnh và tập trung vào các đặc trưng quan trọng. Mô hình được xây dựng trên nền tảng Multi-vision Contextual Attention, tích hợp các kiến trúc học sâu hiện đại như Vision Transformer và cơ chế chú ý đa phương thức để tăng cường khả năng liên kết giữa hình ảnh và câu hỏi. Kết quả thực nghiệm trên bộ dữ liệu ViVQA cho thấy mô hình đề xuất đạt độ chính xác 62,41%, cao hơn đáng kể so với mô hình gốc, qua đó khẳng định tính hiệu quả và tiềm năng ứng dụng của phương pháp trong các hệ thống trả lời câu hỏi bằng tiếng Việt dựa trên hình ảnh.


Thêm một bài đánh giá
Xếp hạng
Không có bài đánh giá nào!