Ứng dụng mô hình bert cho bài toán phân loại hồ sơ theo thời hạn bảo quản

 0 Người đánh giá. Xếp hạng trung bình 0

Tác giả: Tôn Nữ Thị Sáu, Trần Quốc Toanh

Ngôn ngữ: Vie

Ký hiệu phân loại:

Thông tin xuất bản: Khoa học và Công nghệ - Đại học Thái Nguyên, 2021

Mô tả vật lý: 41-49

Bộ sưu tập: Metadata

ID: 418335

Công tác lưu trữ hồ sơ tại các cơ quan, tổ chức có thẩm quyền là một vấn đề cần thiết trong việc quản lý và tổ chức bảo quản tài liệu. Tuy nhiên, hiện nay với số lượng hồ sơ lưu trữ ngày càng nhiều và có nhiều loại văn bản quy định lưu trữ khác nhau dẫn đến việc tình trạng quá tải tài liệu trong quá trình lưu trữ. Do đó, việc phân loại hồ sơ theo thời hạn bảo quản là một công đoạn rất quan trọng trong việc bảo quản, góp phần tối ưu hóa thành phần trong các phòng lưu trữ, tiết kiệm chi phí bảo quản tài liệu. Để góp phần giải quyết được vấn đề trên, trong bài báo này, chúng tôi trình bày nghiên cứu đánh giá sự hiệu quả của mô hình BERT so sánh với các thuật toán máy học truyền thống và mô hình học sâu trên các bộ dữ liệu thực tế hồ sơ lưu trữ theo thời hạn bảo quản ở các cơ quan. Kết quả nghiên cứu cho thấy rằng, mô hình BERT đạt kết quả tốt nhất với độ chính xác là 93,10%, độ phủ là 90,68% và độ đo F1 là 91,49%. Kết quả này cho thấy rằng, mô hình BERT có thể được áp dụng để xây dựng các hệ thống hỗ trợ phân loại hồ sơ theo thời hạn bảo quản là hoàn toàn khả thi., Tóm tắt tiếng anh, Record storage at the competent agencies and organizations is an essential problem in the management and organization of document preservation. However, with the increasing number of archives and many different types of documents, leading to overloading documents during the archiving process. Therefore, the classification of records according to the preservation period is a very important step in preservation, contributing to optimize the composition of the archive fonts, and save the cost of document Therefore, in this paper, we present a study evaluating the effectiveness of the BERT model compared with traditional machine learning and deep learning algorithms on a real-world dataset to solve this task automatically. Experimental results show that the BERT model achieved the best results with 93.10% of precision, 90.68% of recall and 91.49% of F1-score. This result shows that the BERT model can be applied to build systems to support record classification in the real-world application is completely feasible.
Tạo bộ sưu tập với mã QR

THƯ VIỆN - TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM

ĐT: (028) 71010608 | Email: tt.thuvien@hutech.edu.vn

Copyright @2024 THƯ VIỆN HUTECH