Tập dữ liệu tiếng Việt cho bài toán tìm câu hỏi tương đồng

 0 Người đánh giá. Xếp hạng trung bình 0

Tác giả: Thị Thanh Hà, Thị Oanh Nguyễn

Ngôn ngữ: Vie

Ký hiệu phân loại: 004 Data processing || Computer science

Thông tin xuất bản: Khoa học (Đại học Hạ Long) 2022

Mô tả vật lý: 32-36

Bộ sưu tập: Metadata

ID: 396352

Bài toán tìm kiếm câu hỏi tương đồng là bài toán phổ biến và quan trọng trong xử lý ngôn ngữ tự nhiên. Tuy nhiên, có rất ít nghiên cứu về bài toán này trên tập dữ liệu tiếng Việt. Nguyên nhân của hiện tượng trên là do chưa có tập dữ liệu tiếng Việt chuẩn cho bài toán tìm kiếm câu hỏi. Trong bài báo này, chúng tôi trình bày một phương pháp xây dựng tập dữ liệu tiếng Việt cho bài toán tìm kiếm câu hỏi tương đồng. Chúng tôi xây dựng được 7911 cặp câu hỏi được gán nhãn. Đồng thời, tập dữ liệu này cũng được thử nghiệm đánh giá trên một số mô hình học máy cơ bản., Tóm tắt tiếng anh, Finding similar questions is a common problem in natural language processing. However, little research has been conducted on the question retrieval problem for Vietnamese. The reason for this is that there is no standard Vietnamese dataset for the finding question problem. In this paper, we created a method to build a Vietnamese dataset for the problem of finding similar questions. As a result, we built 7911 pairs of labeled questions. This dataset was evaluated on some basic machine learning models.
Tạo bộ sưu tập với mã QR

THƯ VIỆN - TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM

ĐT: (028) 71010608 | Email: tt.thuvien@hutech.edu.vn

Copyright @2024 THƯ VIỆN HUTECH