Đề xuất giải pháp nhằm nâng cao độ chính xác nhận dạng các văn bản tiếng Việt chứa nhiều ký tự bị đứt, dính. Ý tưởng cơ bản của phương pháp đề xuất dựa trên việc tối ưu quá trình nhận dạng trên từng dòng văn bản, trong đó tập trung vào 3 công đoạn chính bao gồm tăng cường độ chính xác nhận dạng ký tự, xây dựng tập lát cắt ứng cử viên rút gọn và tối ưu hóa quá trình tìm kiếm lời giải tốt từ tập ứng cử viên. Phương pháp này đã được thử nghiệm trên ba tập dữ liệu tiếng Việt được thu thập từ thực tế với tổng số 15270 dòng văn bản, đa dạng về số lượng, chất lượng và kiểu font chữ. Kết quả cho thấy phương pháp này có độ chính xác cao và ổn định trên các tập dữ liệu thử nghiệm và hoàn toàn có khả năng ứng dụng để nhận dạng những văn bản đầu vào có chất lượng xấu.This paper propose an efficient method for improving the accuracy of Vietnamese optical touching and breaking character recognition. Basically, the propose method focus on three main step: i) improving the accuracy of character classification algorithm
ii) Determining the optimal set of the cut candidate
iii) Optimizing the searching the best result from cut candidate. The performance of this method has been verified on three Vietnamese data sets, collected from reality with a total of 15270 lines of text, diverse in number, quality and font type. Experimental results show that this method has high accuracy and stability on experiment data sets and is fully capable of recognize poor quality input texts.