Nâng cao độ chính xác trong nhận dạng chữ Việt đứt, dính

 0 Người đánh giá. Xếp hạng trung bình 0

Tác giả: Thị Thanh Tân Nguyễn

Ngôn ngữ: vie

Ký hiệu phân loại: 495.92 Languages of East and Southeast Asia Sino-Tibetan languages

Thông tin xuất bản: Khoa học và Công nghệ (Đại học Thái Nguyên), 2018

Mô tả vật lý: 109-114

Bộ sưu tập: Metadata

ID: 491493

 Đề xuất giải pháp nhằm nâng cao độ chính xác nhận dạng các văn bản tiếng Việt chứa nhiều ký tự bị đứt, dính. Ý tưởng cơ bản của phương pháp đề xuất dựa trên việc tối ưu quá trình nhận dạng trên từng dòng văn bản, trong đó tập trung vào 3 công đoạn chính bao gồm tăng cường độ chính xác nhận dạng ký tự, xây dựng tập lát cắt ứng cử viên rút gọn và tối ưu hóa quá trình tìm kiếm lời giải tốt từ tập ứng cử viên. Phương pháp này đã được thử nghiệm trên ba tập dữ liệu tiếng Việt được thu thập từ thực tế với tổng số 15270 dòng văn bản, đa dạng về số lượng, chất lượng và kiểu font chữ. Kết quả cho thấy phương pháp này có độ chính xác cao và ổn định trên các tập dữ liệu thử nghiệm và hoàn toàn có khả năng ứng dụng để nhận dạng những văn bản đầu vào có chất lượng xấu.This paper propose an efficient method for improving the accuracy of Vietnamese optical touching and breaking character recognition. Basically, the propose method focus on three main step: i) improving the accuracy of character classification algorithm
  ii) Determining the optimal set of the cut candidate
  iii) Optimizing the searching the best result from cut candidate. The performance of this method has been verified on three Vietnamese data sets, collected from reality with a total of 15270 lines of text, diverse in number, quality and font type. Experimental results show that this method has high accuracy and stability on experiment data sets and is fully capable of recognize poor quality input texts.
Tạo bộ sưu tập với mã QR

THƯ VIỆN - TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM

ĐT: (028) 71010608 | Email: tt.thuvien@hutech.edu.vn

Copyright @2024 THƯ VIỆN HUTECH