Mục đích của bài báo là xây dựng một thuật toán nhận diện cử chỉ tay trong các khung hình thu trực tiếp từ camera theo thời gian thực. Thuật toán đề xuất sử dụng mô hình túi từ (bagof-features, bag-of-words), bộ mô tả đối tượng SURF, phương pháp phân cụm k-means, kết hợp với phương pháp phân lớp bằng mạng nơron. Trong đó, mô hình túi từ kết hợp với SURF và kmeans được sử dụng để tạo ra các vectơ đặc trưng làm dữ liệu đầu vào cho mạng nơron. Thuật toán được huấn luyện và thử nghiệm với các bộ dữ liệu ảnh tự tạo. Các thí nghiệm cho thấy, thuật toán đề xuất đảm bảo được tốc độ xử lý cao (dưới 40 ms cho mỗi khung hình) để có thể thực hiện trong thời gian thực với dữ liệu thu trực tiếp từ một camera, có tính bền vững với một số dạng biến đổi của đối tượng (xoay hình, thay đổi kích thước và vị trí trong khung hình), đồng thời đảm bảo độ chính xác nhận diện cao (~ 90%)., Tóm tắt tiếng anh, The purpose of the project is to create an algorithm for real-time hand gesture recognition in video frames captured directly from the camera. The proposed algorithm is based on the bagof-features (or bag-of-words) model, SURF-descriptor, k-means clustering, and neural network classification method. The bag-of-words model combined with SURF and k-means is used to create feature vectors, which then are fed as input data for the neural network. The algorithm is trained and tested with a self-made image data set. Experiments with various testing data sets demonstrate that the proposed algorithm ensures a high processing speed (less than 40 ms for each frame) to be able to perform in real time with data captured directly from a camera, keeps being invariant to transformations of the object in the video frame (including rotation, scaling and affine transition), and provides high recognition accuracy (~ 90%).