Trong bối cảnh các hệ thống xử lý tài liệu truyền thống chủ yếu dựa vào phân loại theo thành phần hoặc cấu trúc trang, công trình này hướng đến việc xác định chính xác các đối tượng xuất hiện trực tiếp trên trang tài liệu như văn bản, bảng biểu, hình ảnh, tiêu đề hoặc các thành phần bố cục khác bằng cách ứng dụng phương pháp phát hiện đối tượng tiên tiến không dùng anchor (anchor-free). Nghiên cứu sử dụng YOLOX – một mô hình one-stage detector hiện đại – để đánh giá trên hai bộ dữ liệu tiêu biểu gồm IIIT-AR-13K và UIT-DODV, đại diện cho các bài toán phát hiện đối tượng tài liệu tổng quát và tài liệu tiếng Việt. Kết quả thực nghiệm cho thấy YOLOX đạt độ chính xác trung bình (mAP) 69,0% trên bộ dữ liệu UIT-DODV và 66,9% trên bộ dữ liệu IIIT-AR-13K. Đặc biệt, trên UIT-DODV, YOLOX vượt qua mô hình one-stage tốt nhất trước đó là YOLOv4x-mish với mức cải thiện 2,90% mAP, chứng minh khả năng mạnh mẽ của kiến trúc YOLOX trong môi trường tài liệu tiếng Việt. Tuy nhiên, trên bộ IIIT-AR-13K, YOLOX vẫn thấp hơn một số phương pháp two-stage detector đã công bố trước đó, cho thấy các kiến trúc hai giai đoạn vẫn có ưu thế nhất định ở các tập dữ liệu phức tạp hơn về bố cục. Nghiên cứu không chỉ dừng ở việc so sánh hiệu năng mà còn cung cấp phân tích sâu về tính hiệu quả của YOLOX như một phương pháp state-of-the-art trong bài toán POD, từ đó góp phần làm rõ tiềm năng ứng dụng thực tế của các mô hình phát hiện nhanh trong hệ thống số hóa tài liệu. Công trình có ý nghĩa lớn trong việc phát triển các hệ thống nhận diện tài liệu thông minh, hỗ trợ thư viện số, OCR nâng cao, lưu trữ dữ liệu tự động và các nền tảng xử lý tài liệu tiếng Việt. Đây cũng là tiền đề quan trọng cho các nghiên cứu tiếp theo về tối ưu hóa mô hình phát hiện đối tượng tài liệu, đặc biệt trong các ứng dụng liên quan đến tài liệu hành chính, giáo dục và doanh nghiệp tại Việt Nam.


Thêm đánh giá của bạn
Xếp hạng
Không có bài đánh giá nào!