Trong nghiên cứu này, hệ số cố kết (Cv) của đất yếu tại một số khu vực ven biển Quảng Ninh, Hải Phòng và Thái Bình được dự báo bằng phương pháp học máy - kỹ thuật trí tuệ nhân tạo thông qua 3 mô hình học máy hỗ trợ hồi quy véc tơ - Support Vector Regression (SVR)
mạng thần kinh nhân tạo đa lớp tri giác - Artificial Neural Network Mutilayer Perceptron (ANN MLP)
hồi quy sườn bên - Ridge Regression (RR). Các mô hình này được xây dựng trên ngôn ngữ lập trình Python và thư viện hỗ trợ Scikit-learn. Số liệu sử dụng gồm 133 mẫu đất yếu thu thập từ các công trình thực tế, được lấy từ những độ sâu khác nhau (m) và được phân tích trong phòng thí nghiệm nhằm xác định các thông số hàm lượng sét (%), hàm lượng bụi (%), giới hạn chảy (%), giới hạn dẻo (%), chỉ số dẻo (%), độ sệt, độ ẩm (%), khối lượng thể tích tự nhiên (g/cm3), khối lượng thể tích khô (g/cm3), khối lượng riêng (g/cm3), độ rỗng (%), độ bão hòa (%), hệ số rỗng. Để dự báo Cv, 15 thông số đầu vào được phân tích tương quan. Sau khi loại bỏ các thông số không có quan hệ chặt với Cv, 6 thông số có quan hệ chặt được xác định gồm giới hạn chảy, độ ẩm, khối lượng thể tích tự nhiên, khối lượng thể tích khô, độ rỗng, hệ số rỗng. Để dự báo và cho máy học, tiến hành xây dựng mô hình chung với 70% dữ liệu học và 30% dữ liệu kiểm tra. Hiệu suất của các mô hình được kiểm tra bằng các hệ số giá trị trung bình của tổng các trị tuyệt đối của sai số - Mean Absolute Error (MAE)
độ lệch tiêu chuẩn các sai số - Root Mean Square Error (RMSE)
hệ số tương quan R - Correlation coefficient (R)
và hệ số xác định - Coefficient of determination (R2). Kết quả các mô hình nghiên cứu thể hiện hiệu suất của các mô hình học máy khác nhau với R2 biến thiên từ 0,7899 đến 0,8737, đảm bảo quan hệ chặt. Nghiên cứu đã chỉ ra hiệu suất của mô hình ANN MLP là tốt nhất với kết quả các hệ số R2=0,8737, MAE=0,2196, RMSE=0,2678 và R=0,9367 tốt nhất trong 3 mô hình sử dụng.