Tìm kiếm phương tiện dựa trên văn bản là hệ thống mà người dùng có thể tìm phương tiện hoặc thông tin tuyến đường bằng cách nhập truy vấn dựa trên văn bản. Mục tiêu chính của tìm kiếm phương tiện dựa trên văn bản là xác định phương tiện có liên quan nhất trong một tập dữ liệu nhất định bằng cách sử dụng mô tả ngôn ngữ tự nhiên làm truy vấn. Phương pháp này tận dụng xử lý ngôn ngữ tự nhiên (NLP) để hiểu và diễn giải các truy vấn mô tả và cung cấp kết quả có liên quan. Mặc dù đã có tiến bộ đáng kể, nhiệm vụ này vẫn phải đối mặt với một số thách thức do tính phức tạp và đa dạng của ngôn ngữ tự nhiên, cũng như những khó khăn cố hữu trong phạm vi thị giác. Hơn nữa, một số ít nghiên cứu tập trung vào việc truy xuất phương tiện có bánh xích, trong đó các vệt bánh xe được xem xét thay vì các hình ảnh đơn lẻ. Trong bài báo này, chúng tôi đề xuất một khuôn khổ mới để truy xuất phương tiện có bánh xích dựa trên ngôn ngữ tự nhiên dựa trên mô hình CLIP, một trong những mô hình hiệu quả nhất cho nhiệm vụ khớp hình ảnh-văn bản. Khuôn khổ này tận dụng cả thông tin về hình thức và chuyển động để tăng cường độ chính xác khớp của việc truy xuất vệt bánh xe. Một số thí nghiệm được tiến hành trên tập dữ liệu CityFlow-NL, do AI City Challenge lần thứ 6 cung cấp, một cuộc thi thường niên. Kết quả tương đương với các phương pháp hiện đại, đạt điểm MRR là 46,63%, Rank@5 là 67,02% và Rank@10 là 81,82%.