Trích xuất ngữ nghĩa cho hình ảnh là một bài toán mang tính thời sự và được ứng dụng trong nhiều hệ thống tra cứu ngữ nghĩa khác nhau. Trong bài báo này, một tiếp cận tra cứu ngữ nghĩa hình ảnh được đề xuất dựa trên tập ảnh tương tự với ảnh đầu vào
từ đó, ngữ nghĩa của hình ảnh được tra cứu trên ontology qua tập từ vựng thị giác. Các đối tượng trên mỗi hình ảnh được trích xuất và phân lớp dựa trên mạng nơ-ron tích chập nhằm trích xuất ngữ nghĩa cho hình ảnh. Sau đó, câu lệnh SPARQL được tự động tạo ra từ các phân lớp ảnh và thực hiện truy vấn trên ontology đã được xây dựng nhằm truy xuất tập ảnh tương tự và ngữ nghĩa tương ứng. Trên cơ sở phương pháp đã đề xuất, một thực nghiệm được xây dựng và đánh giá trên các bộ ảnh Caltech-256. Kết quả thực nghiệm được so sánh với các công trình công bố gần đây trên cùng một bộ dữ liệu nhằm minh chứng tính hiệu quả của phương pháp đề xuất. Theo kết quả thực nghiệm, phương pháp tra cứu ngữ nghĩa hình ảnh trong bài báo này đã nâng độ chính xác lên 88,7% đối với bộ dữ liệu ảnh Caltech-256