Chất lượng nước mặt vùng BĐCM đang bị ô nhiễm do ảnh hưởng của xả thải không đạt yêu cầu vào nguồn nước. Nguồn nước mặt trong vùng bị ô nhiễm phổ biến là hữu cơ và vi sinh với các thông số DO, BOD5, COD, NH4+, tổng Coliform,… Trong vùng nghiên cứu, các địa phương thường dùng chỉ số chất lượng nước (WQI) để đánh giá chất lượng nước mặt và khả năng sử dụng của nguồn nước đối với từng mục đích khác nhau. Tuy nhiên, việc tính toán WQI từ các thông số quan trắc chất lượng nước còn gặp nhiều hạn chế do cần nhiều thông số quan trắc và tính toán còn tương đối phức tạp. Việc tìm phương pháp tính toán hiệu quả WQI là rất quan trọng và cần thiết nhằm phục vụ tốt hơn cho công tác đánh giá chất lượng nước mặt cho vùng nghiên cứu. Nghiên cứu này sẽ ứng dụng thuật toán (mô hình) học máy để tính toán WQI dựa vào số liệu đầu vào (thông số chất lượng nước tối thiểu) để giảm chi phí quan trắc chất lượng nước mặt. Nghiên cứu đã áp dụng phương pháp Bayes (BMA) để lựa chọn các thông số chất lượng nước tối ưu (pH, BOD5, PO4 và Coliform) để tính toán WQI. Kết quả cho thấy các mô hình học máy đã tính toán (dự báo) WQI dựa vào các thông số (tối tiểu) với độ chính xác cao. Theo đó mô hình Tăng cường độ dốc có kết quả dự báo chính xác nhất vì có hệ số xác định R2 cao nhất (0,973), giá trị các sai số MAE, MSE và RMSE thấp nhất (3,24
22,54
4,75). Tiếp đến là mô hình Tăng cường độ dốc cực đại có R2 là 0,966 và giá trị các sai số tương ứng (3,15
28,95
5,38). Mô hình Cây quyết định có R2 là 0,944
giá trị các sai số là 4,46
49,67
7,04
Mô hình Tăng cường độ dốc nhẹ có R2 là 0,928
giá trị các sai số là 5,95
63,30
7,95.Surface water quality in the Ca Mau peninsula is being polluted due to the influence of unsatisfactory discharge into water sources. Surface water sources in polluted areas are organic and microbiological with parameters of DO, BOD5, COD, NH4+, total Coliform, etc. In the study area, localities often use water quality index (WQI). to assess surface water quality and usability of water sources for different purposes. However, the calculation of WQI from water quality monitoring parameters still faces many limitations because it requires many monitoring parameters and is relatively complicated. Finding an effective WQI calculation method is very important and necessary to better serve the assessment of surface water quality for the study area. This study will apply a machine learning algorithm (model) to calculate the WQI based on the minimum input data (water quality parameters) to reduce the cost of surface water quality monitoring. The study applied Bayesian method (BMA) to select optimal water quality parameters (pH, BOD5, PO4 and Coliform) to calculate WQI. The results show that the machine learning models have calculated (predicted) WQI based on (minimum) parameters with high accuracy. Accordingly, Gradient Boosting model has the most accurate prediction results because it has the highest coefficient of determination R2 (0.973), the lowest error values of MAE, MSE and RMSE (3.24
22.54
4.75). XGBoost model with R2 of 0.966 and the corresponding error values (3.15
28.95
5.38). The Decision Tree model has an R2 of 0.944
the lowest error values is 4.46
49.67
7.04)
The LightGBM model has an R2 of 0.928
false value value is 5.95
63.30
7.95.