Các mạng nơ-ron tích chập (CNN) đóng vai trò rất quan trọng trong nhiều ứng dụng thị giác máy tính như phân loại, nhận dạng đối tượng. Để đạt được hiệu quả nhận dạng cao, thông thường các mạng nơ-ron này cần được thực thi trên các nền tảng tính toán có hiệu năng cao với tốc độ xử lý nhanh và không gian bộ nhớ lớn. Điều này là một trở ngại rất lớn đối với ứng dụng chạy trên các thiết bị tính toán có tài nguyên phần cứng bị giới hạn như các máy tính nhúng. Ở các lớp tích chập, để có thể trích xuất được đặc trưng của đối tượng ngõ vào cần thiết phải thực thi một lượng lớn các phép nhân và cộng dồn. Bên cạnh đó, hoạt động nhân trên các số có dấu chấm động yêu cầu thời gian tính toán lớn cũng như phần cứng phức tạp. Nghiên cứu này phân tích và chỉ rõ những nguyên nhân làm giới hạn hiệu năng tính toán của mạng CNN. Từ đó, trình bày phương pháp để thực thi các mạng tích chập trên phần cứng có tài nguyên giới hạn. Việc đánh giá hiệu năng về mặt công suất, thời gian thực thi cũng như tỉ lệ nhận dạng được trình bày chi tiết thông qua mô phỏng và thực thi trên phần cứng. Các kết quả thực nghiệm trên cả hai nền tảng FPGA và bộ xử lý nhúng ARM Cortex-A chỉ ra rằng mạng CNN sử dụng phương pháp XNOR-popcount có thể được tối ưu để đạt hiệu năng tính toán tăng 1000 lần và công suất tiêu thụ giảm xấp xỉ 24 lần khi so sánh với mạng CNN thông thường trên các bộ xử lý nhúng.