Các dạng mạng neuron đa lớp đã gặt hái được nhiều kết quả đáng ghi nhận trong lĩnh vực phân lớp ảnh, đặc biệt là mạng PRN (Pyramidal Residual Network). Tuy nhiên, ở thời điểm viết báo cáo này, chưa có một công trình chính thức nào áp dụng mạng PRN cho tác vụ phân lớp tín hiệu chuỗi. Chúng tôi đề xuất phương pháp mở rộng kiến trúc PRN, chuyển biến thành một dạng mạng mới với tên gọi DPRN (Dilated Pyramidal Residual Network), đồng thời tiến hành lượng giá hiệu năng của nó trong lĩnh vực nhận dạng tiếng nói và nhận dạng chữ in. Đây là hai tiền tố cần thiết phục vụ cho một ứng dụng trong ngữ cảnh lớn hơn truy vấn video đa thể thức. Thực nghiệm được tiến hành trên kho ngữ liệu thu thập từ chương trình thời sự của kênh VTV đài truyền hình Việt Nam. Kết quả cho thấy DPRN không chỉ áp dụng được cho tác vụ nhận dạng chuỗi tín hiệu theo thời gian, mà còn cho kết quả vượt trội hơn các giải pháp truyền thống.Pyramidal Residual Network achieved high accuracy in image classification tasks. However, there is no previous work on sequence recognition tasks using this model. We presented how to extend its architecture to form Dilated Pyramidal Residual Network (DPRN), for this long-standing research topic and evaluate it on the problems of automatic speech recognition and optical character recognition. Together, they formed a multi-modal video retrieval framework for Vietnamese Broadcast News. Experiments were conducted on caption images and speech frames extracted from VTV broadcast videos. Results showed that DPRN was not only end-to-end trainable but also performed well in sequence recognition tasks.