In this study, the main contribution is to solve the task of pedestrian detection and adult / kid classification by using two approaches. In the first one, the task is divided into two sub-tasks: pedestrian detection and adult / kid classification. Pedestrian image regions are cropped from input images and passed through a classifier to determine if they are adult images or kid images. Specifically, the pedestrian detection task is studied by using an object detection model YOLO while the classification task is studied by using typical deep models: VGG, Inception, ResNet and EfficientNet. In the second approach, only one object detection model, YOLO is used to detect and classify pedestrians. The obtained results are quite good for both approaches. The first one has a good mean average precision of the pedestrian detection task at 0.797 and the classification accuracy is 0.955. However, the second approach has much better results with a higher mean average precision 0.851 and a much better performing time compared to the first approach.Trong nghiên cứu này, đóng góp chính của nhóm tác giả tập trung vào giải quyết bài toán phát hiện và phân loại người đi bộ (người trưởng thành hay trẻ em) trong hình ảnh dựa trên phương pháp học sâu theo hai hướng tiếp cận. Ở hướng thứ nhất, bài toán được chia thành hai bài toán thành phần: phát hiện người đi bộ và phân loại người đi bộ. Hình ảnh người đi bộ sẽ được tách ra từ hình ảnh đầu vào và đưa qua bộ phân loại để xác định người đi bộ đó là người lớn hay trẻ em. Cụ thể, bài toán phát hiện người đi bộ được nghiên cứu dựa trên mô hình phát hiện đối tượng YOLO trong khi bài toán phân loại hình ảnh người đi bộ được nghiên cứu trên mô hình VGG, Inception, ResNet và EfficientNet. Ở hướng tiếp cận thứ hai, bài toán được nghiên cứu theo hướng phát hiện và phân loại người đi bộ sử dụng duy nhất một mô hình cụ thể là mô hình phát hiện đối tượng YOLO. Kết quả thu được của nghiên cứu tương đối tốt với cả hai hướng tiếp cận. Hướng tiếp cận thứ nhất cho độ chính xác trung bình phát hiện người đi bộ đạt 0.797 và độ chính xác phân loại người đi bộ đạt 0.955. Tuy nhiên hướng tiếp cận thứ hai thể hiện sự vượt trội khi cho độ chính xác cao hơn đạt 0.851 đồng thời có thời gian thực thi tốt hơn nhiều so với hướng tiếp cận thứ nhất.