Thực nghiệm đánh giá YOLOX cho bài toán phát hiện đối tượng tài liệu

Tác giả: Châu Thiện Ngọc
Định dạng tài liệu: Đề tài - Dự án

Nghiên cứu này tập trung đánh giá hiệu quả của mô hình YOLOX trong bài toán phát hiện đối tượng trên tài liệu số hóa (Page Object Detection – POD), một hướng nghiên cứu quan trọng trong lĩnh vực phân tích tài liệu hiện đại khi nhu cầu số hóa và trích xuất thông tin tự động từ tài liệu hình ảnh ngày càng gia tăng mạnh mẽ.

Phí Download:
Miễn phí

Trong bối cảnh các hệ thống xử lý tài liệu truyền thống chủ yếu dựa vào phân loại theo thành phần hoặc cấu trúc trang, công trình này hướng đến việc xác định chính xác các đối tượng xuất hiện trực tiếp trên trang tài liệu như văn bản, bảng biểu, hình ảnh, tiêu đề hoặc các thành phần bố cục khác bằng cách ứng dụng phương pháp phát hiện đối tượng tiên tiến không dùng anchor (anchor-free). Nghiên cứu sử dụng YOLOX – một mô hình one-stage detector hiện đại – để đánh giá trên hai bộ dữ liệu tiêu biểu gồm IIIT-AR-13K và UIT-DODV, đại diện cho các bài toán phát hiện đối tượng tài liệu tổng quát và tài liệu tiếng Việt. Kết quả thực nghiệm cho thấy YOLOX đạt độ chính xác trung bình (mAP) 69,0% trên bộ dữ liệu UIT-DODV và 66,9% trên bộ dữ liệu IIIT-AR-13K. Đặc biệt, trên UIT-DODV, YOLOX vượt qua mô hình one-stage tốt nhất trước đó là YOLOv4x-mish với mức cải thiện 2,90% mAP, chứng minh khả năng mạnh mẽ của kiến trúc YOLOX trong môi trường tài liệu tiếng Việt. Tuy nhiên, trên bộ IIIT-AR-13K, YOLOX vẫn thấp hơn một số phương pháp two-stage detector đã công bố trước đó, cho thấy các kiến trúc hai giai đoạn vẫn có ưu thế nhất định ở các tập dữ liệu phức tạp hơn về bố cục. Nghiên cứu không chỉ dừng ở việc so sánh hiệu năng mà còn cung cấp phân tích sâu về tính hiệu quả của YOLOX như một phương pháp state-of-the-art trong bài toán POD, từ đó góp phần làm rõ tiềm năng ứng dụng thực tế của các mô hình phát hiện nhanh trong hệ thống số hóa tài liệu. Công trình có ý nghĩa lớn trong việc phát triển các hệ thống nhận diện tài liệu thông minh, hỗ trợ thư viện số, OCR nâng cao, lưu trữ dữ liệu tự động và các nền tảng xử lý tài liệu tiếng Việt. Đây cũng là tiền đề quan trọng cho các nghiên cứu tiếp theo về tối ưu hóa mô hình phát hiện đối tượng tài liệu, đặc biệt trong các ứng dụng liên quan đến tài liệu hành chính, giáo dục và doanh nghiệp tại Việt Nam.

Thêm đánh giá của bạn

Vui lòng đăng nhập để viết đánh giá!

Tải ảnh lên
Bạn có thể tải lên tối đa 6 ảnh, kích thước tối đa của mỗi ảnh là 2048 kilobyte

Xếp hạng

(0.00 trên 5)
5 sao
0%
4 sao
0%
3 sao
0%
2 sao
0%
1 sao
0%

Không có bài đánh giá nào!