Giao diện người - máy sẽ trực quan hơn nếu con người có thể điều khiển máy tính bằng giọng nói hay cử chì mà không cần dùng các thiết bị điều khiển như chuột hay bàn phím. Đặc biệt, hệ thống thị giác sẽ thích hợp hơn trong môi trường ồn ào hoặc có âm thanh bị nhiễu. Bên cạnh đó, mạng nơ-ron chập được áp dụng khá nhiều ưong các bài toán nhận dạng với độ chính xác cao như nhận dạng gương mặt, nhận dạng số viết tay, xử lý ngôn ngữ tự nhiên. Bài báo này thiết lập một mạng nơ-ron chập với 14 lớp và ứng dụng vào hệ thống nhận dạng 6 cử chỉ bàn tay phải, với đối tượng đầu vào là các ảnh tĩnh thu được từ camera điện thoại. Tập dữ liệu huấn luyện được tạo ra từ các cử chỉ tay của 7 người. Kết quả mô phỏng trên matlab cho thấy hệ thống có tỷ lệ chính xác 98,6% đối với các ảnh bàn tay được chụp chính diện, có độ sáng và độ mở của các ngón tay thích hợp.