Kỹ thuật làm tăng dữ liệu trong phân tích cảm xúc trên ngôn ngữ tiếng Việt

 0 Người đánh giá. Xếp hạng trung bình 0

Tác giả: Thiên Hồ Hướng

Ngôn ngữ: vie

Ký hiệu phân loại:

Thông tin xuất bản: Tạp chí khoa học Đại học Mở Thành phố Hồ Chí Minh - Kỹ thuật và Công nghệ, 2022

Mô tả vật lý: tr.20-27

Bộ sưu tập: Metadata

ID: 334178

Comments from online system are used as a data source that exist in relevant information about customer sentiment. These include sentiments toward a product or service. This is useful for making a specific decision for customers and management. In order to building a high accuracy prediction model, it requires much more labeled data. In this paper, we have investigated a simple approach for augmenting text data based on Vietnamese language comments. Four basic techniques are used to generate more new sentences such as random insertion, random swap, word replacement, word deletion. The results of experimental shows that the proposed approach is efficient.Những bình luận phản hồi trong các hệ thống trực tuyến là một nguồn dữ liệu mang nhiều thông tin, cảm xúc của khách hàng về những sản phẩm hoặc dịch vụ. Những thông tin này được khai thác nhằm đem lại những ích lợi trong việc hoạch định chiến lược, quản trị khách hàng. Để đạt được những kết quả tốt đối với mô hình phân tích cảm xúc, đòi hỏi một lượng lớn dữ liệu được gán nhãn. Chi phí cho việc gán nhãn dữ liệu huấn luyện bởi con người là rất lớn. Trong nghiên cứu này chúng tôi đề xuất một mô hình làm tăng dữ liệu văn bản dựa trên các câu bình luận áp dụng cho ngôn ngữ tiếng Việt. Một số kỹ thuật cơ bản được sử dụng nhằm sinh thêm số lượng bình luận như chèn từ, thay thế từ, xóa từ. Kết quả thực nghiệm đã cho thấy hiệu quả của mô hình này.
Tạo bộ sưu tập với mã QR

THƯ VIỆN - TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM

ĐT: (028) 36225755 | Email: tt.thuvien@hutech.edu.vn

Copyright @2024 THƯ VIỆN HUTECH