Hiện nay, việc sử dụng robot tự hành ngày càng phổ biến trong các ngành công nghiệp. Một trong những bài toán quan trọng về điều khiển chuyển động robot tự hành là điều khiển bám quỹ đạo chuyển động tham chiếu. Tuy nhiên, robot tự hành có cấu trúc điều khiển tầng bao gồm bộ điều khiển động lực học ở vòng trong và bộ điều khiển động học ở vòng ngoài. Để giải quyết bài toán thiết kế không cần chia tách bộ điều khiển riêng biệt, bài báo trình bày phương pháp sử dụng kỹ thuật học tăng cường quy hoạch động thích nghi trực tuyến với cấu trúc chỉ sử dụng một mạng nơ ron xấp xỉ hàm (Online adaptive dynamic programming with one neural network - OADP1NN). Thuật toán có thể xấp xỉ trực tuyến nghiệm tối ưu (nghiệm phương trình Hamilton Jacobi Bellman - HJB) đồng thời với luật điều khiển tối ưu. Thực hiện mô phỏng trên phần mềm Matlab, các kết quả cho thấy thuật toán OADP1NN đã đáp ứng đầy đủ được hai tiêu chí điều khiển robot tự hành đó là bám quỹ đạo tham chiếu và tối thiểu hóa hàm chi phí liên quan đến sai số bám và năng lượng điều khiển.