Nghiên cứu này kế thừa các số liệu đã công bố trên trang https://data.mendeley.com/ datasets/46htwnp833/2 về dữ liệu phổ vùng khả kiến - hồng ngoại gần (Vis-NIR) ở khoảng bước sóng từ 309 nm đến 1149 nm của 11691 quả xoài tại Úc, lấy từ 10 giống xoài, thuộc 2 vùng trồng. Nghiên cứu đã phát triển các mô hình học máy với mã nguồn mở Python như: phân tích thành phần chính (PCA) kết hợp với máy vector hỗ trợ (SVM), cây quyết định (DT), rừng ngẫu nhiên (RF) và mạng thần kinh nhân tạo (ANN)
mô hình bình phương tối thiểu từng phần kết hợp với phân tích biệt thức (PLS-DA), cùng với mô hình học sâu mạng thần kinh tích chập 1 chiều (1D-CNN) với các bước tiền xử lý dữ liệu phổ toàn phần bao gồm đạo hàm bậc hai và làm mịn bằng thuật toán Savitzky-Golay, cân bằng dữ liệu thông qua kỹ thuật tạo mẫu tổng hợp mới cho mẫu thiểu số (SMOTE). Kết quả cho thấy sử dụng thêm kĩ thuật tiền xử lý số liệu SMOTE trước khi chạy các mô hình học máy đã làm tăng đáng kể khả năng phân loại. Ngoài ra, mô hình 1D-CNN cho hiệu quả phân loại cao hơn so với các mô hình học máy thông thường với độ chính xác (qua phần trăm số mẫu nhận dạng đúng) của mô hình 1D-CNN trong phân loại độ chín của xoài, giống xoài, và địa điểm trồng lần lượt là 99,40%, 94,35% và 96,92%. Mô hình học sâu 1D-CNN thích hợp cho việc phân loại đối tượng khi có lượng lớn hàng chục nghìn mẫu dựa trên dữ liệu phổ.This study utilizes the data published on the website https://data.mendeley.com/ datasets/46htwnp833/2, which includes visible-near-infrared (Vis-NIR) spectral data at wavelengths ranging from 309 nm to 1149 nm for 11691 mangoes in Australia, collected from 10 mango varieties across 2 different growing regions. The research developed machine learning models with open-source programming language Python such as: principal component analysis (PCA) combined with support vector machines (SVM), decision trees (DT), random forests (RF), and artificial neural networks (ANN)
partial least squares model combined with discriminant analysis (PLS-DA)
and a deep learning model 1-dimensional convolutional neural network (1D-CNN). The preprocessing steps were caried out based on the full spectral data with second derivative, smoothing using the Savitzky-Golay algorithm, and data balancing via a new Synthetic Minority Oversampling Technique (SMOTE). The results demonstrated that applying the SMOTE data preprocessing technique before running the machine learning models significantly enhanced classification accuracy. Furthermore, using a 1D-CNN model with a complex structure provided higher classification efficiency than conventional machine learning models. The accuracy of the 1D-CNN model in classifying mango ripeness, mango variety, and growing location was 99.40%, 94.35%, and 96.92%, respectively. The 1D-CNN deep learning model is well-suited for sample classification when dealing with large datasets containing tens of thousands of samples based on spectral data.