Đi cùng với quá trình phát triển các hệ thống nhận dạng đó là việc xây dựng những bộ dữ liệu huấn luyện không những cần thể hiện tốt về đối tượng được quan tâm mà còn cần hiệu quả, phù hợp với mô hình học máy được lựa chọn. Bài báo này trình bày một kỹ thuật xử lý lựa chọn tập dữ liệu theo tiếp cận gom cụm nhằm loại bỏ bớtnhững mẫu rất giống nhau. Kỹ thuật được cài đặt thử nghiệm để xây dựng tập dữ liệu đầu vào cho mô hình K-láng giềng gần nhất và đã chứng tỏ sự hiệu quả với nhiều bộ dữ liệu, cụ thể là dữ liệu sinh ngẫu nhiên theo phân phối chuẩn, bộ dữ liệu chữ số viết tay MNIST và bộ dữ liệu mặt YawDD., Tóm tắt tiếng anh, Along with the development of recognition systems, buiding training data sets not only needs to express well on the object of interest but also needs to be effective, consistent with the selected machine learning model. This article presents a processing technique for selecting data sets basing on clustering approach to reduce the verysimilar samples. This technology was installed, tested on trial to select input data for K-nearest neighbors model and proved its effectiveness with many data sets, namely the data generated randomly in standard distribution, MNIST database- data sets of handwritten digits and YawDD face data sets.