Xây dựng ngữ liệu gán nhãn ngữ nghĩa y sinh bằng hướng tiếp cận bán tự động

 0 Người đánh giá. Xếp hạng trung bình 0

Tác giả: Văn Thức Hoàng, Hữu Sang Phạm, Nguyên Hoài Đức Tuấn

Ngôn ngữ: vie

Ký hiệu phân loại:

Thông tin xuất bản: Phát triển Khoa học và Công nghệ: Khoa học Tự nhiên (ĐHQG TP. Hồ Chí Minh), 2022

Mô tả vật lý: 2083-2094

Bộ sưu tập: Metadata

ID: 444615

Bài viết trình bày một giải pháp bán tự động để xây dựng bộ ngữ liệu gán nhãn ngữ nghĩa Y sinh mang tên PASBio+. Bộ ngữ liệu PASBio+ chứa nhãn Cấu trúc Đối số Vị ngữ, một dữ kiện quan trọng bao quát toàn bộ nội dung chính của câu. Do hơn 86% đối số trong Y sinh khác biệt đáng kể so với đối số trong lĩnh vực tổng quát nên ngữ liệu được gán nhãn theo PASBio, một bộ khung đối số được soạn chuyên biệt dành riêng cho Y sinh. Tiền đề của PASBio+ là 317 câu đã gán nhãn của PASBio. Từ đó, với giải pháp bán tự động này, các chuyên gia chỉ cần gán nhãn thủ công 87 câu để cuối cùng có ngữ liệu gồm 2.500 câu đã gán nhãn đầy đủ. Điều này đạt được nhờ Phương Pháp Ví Dụ Ảo, một kỹ thuật tăng cường dữ liệu mạnh mẽ đầy linh hoạt được áp dụng thành công trong hàng loạt tác vụ khác nhau. Ngữ liệu sinh ra bởi Phương Pháp Ví Dụ Ảo được qui định bằng hai quy tắc tuần tự để đảm bảo tri thức Y sinh luôn được giữ đúng đắn (quy tắc Trao đổi và quy tắc Thay thế). PASBio+ cũng được tăng cường độ phong phú mẫu câu bằng biến thể ngữ pháp của các câu gốc, giúp ngữ liệu có độ phủ rộng trên các cách hành văn tự nhiên đa dạng. Ngoài ra, ngay từ đầu, bộ câu gốc của PASBio cũng được làm giàu bằng nguồn văn bản ngoài, là bộ câu bổ sung được chọn lọc từ ngữ liệu Y sinh GREC. Bên cạnh đó, PASBio+ đạt độ phân bố tần suất rất đồng đều giữa các vị ngữ, nhờ đó loại bỏ vấn đề dữ liệu thưa (data sparsity), giúp hạn chế lỗi quá khớp (overfitting) trong học máy. Kết quả đánh giá thực nghiệm cho thấy bộ ngữ liệu đề nghị này, với vai trò là ngữ liệu huấn luyện, đã giúp mô hình học sâu tăng điểm F thêm 52,2% và 22,5% khi so sánh lần lượt với mô hình huấn luyện bằng ngữ liệu gốc chưa tăng cường và ngữ liệu của lĩnh vực tổng quát.
Tạo bộ sưu tập với mã QR

THƯ VIỆN - TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM

ĐT: (028) 71010608 | Email: tt.thuvien@hutech.edu.vn

Copyright @2024 THƯ VIỆN HUTECH