Mô hình học sâu cho bài toán gán nhãn ngữ nghĩa trên văn bản y sinh

 0 Người đánh giá. Xếp hạng trung bình 0

Tác giả: Đình Việt Huy Lê, Tiền Lợi Long Tứ Trần, Nguyên Hoài Đức Tuấn

Ngôn ngữ: vie

Ký hiệu phân loại: 004 Data processing || Computer science

Thông tin xuất bản: Phát triển Khoa học và Công nghệ: Khoa học Tự nhiên (ĐHQG TP. Hồ Chí Minh), 2021

Mô tả vật lý: 1032-1039

Bộ sưu tập: Metadata

ID: 440113

Chúng tôi xây dựng một mô hình gán nhãn Cấu trúc Đối số Vị ngữ cho văn bản Y Sinh. Cấu trúc Đối số Vị ngữ là thông tin ngữ nghĩa quan trọng của văn bản, do nó chuyển tải sự kiện chính được nói đến trong mỗi câu. Rút trích được Cấu trúc Đối số Vị ngữ trong câu là tiền đề quan trọng để máy tính có thể giải quyết được hàng loạt bài toán khác liên quan đến ngữ nghĩa của văn bản như rút trích sự kiện, rút trích thực thể, hệ hỏi đáp... Cấu trúc Đối số Vị ngữ phụ thuộc vào lĩnh vực của văn bản. Do đó, trong lĩnh vực Y Sinh, văn bản cần xác định khung Đối số Vị ngữ hoàn toàn mới so với lĩnh vực tổng quát. Với đặc thù phải xử lý trên một khung đối số mới, việc xác định bộ đặc trưng cho học máy là khó và đòi hỏi nhiều công sức chuyên gia. Để giải quyết thách thức này, chúng tôi chọn huấn luyện mô hình của mình bằng phương pháp Học sâu (Deep learning) với Mạng nơ ron bộ nhớ ngắn dài hai chiều (Bi-directional Long Short Term Memory). Học sâu là phương pháp học máy không đòi hỏi con người phải xác định bộ đặc trưng một cách thủ công. Ngoài ra, chúng tôi cũng tích hợp kết nối cao tốc (Highway Connection) giữa những tầng nơ ron ẩn không liên tiếp để hạn chế mất mát đạo hàm. Bên cạnh đó, để khắc phục vấn đề ngữ liệu huấn luyện ít, chúng tôi tích hợp Học sâu với kỹ thuật Học đa tác vụ. Học Đa tác vụ giúp cho tác vụ chính (bài toán gán nhãn Cấu trúc Đối số Vị ngữ) được bổ trợ tri thức từ một tác vụ phụ có liên quan mật thiết là bài toán rút trích Thực thể. Mô hình của chúng tôi đạt F1 = 72% mà không cần chuyên gia thiết kế bất kỳ đặc trưng nào, qua đó cho thấy triển vọng của Học sâu trong bài toán này. Ngoài ra, kết quả thực nghiệm cũng cho thấy Học đa tác vụ là kỹ thuật phù hợp để khắc phục vấn đề ngữ liệu huấn luyện ít trong lĩnh vực Y Sinh vì nó cải thiện được độ đo F1.
Tạo bộ sưu tập với mã QR

THƯ VIỆN - TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM

ĐT: (028) 71010608 | Email: tt.thuvien@hutech.edu.vn

Copyright @2024 THƯ VIỆN HUTECH