Phân loại ảnh đa nhãn với đối tượng mới từ tập dữ liệu đơn nhãn dựa trên mô hình Conformer mặt nạ

 0 Người đánh giá. Xếp hạng trung bình 0

Tác giả: Văn Triệu Nghiêm, Quốc Tạo Ngô

Ngôn ngữ: Vie

Ký hiệu phân loại: 020 Library and information sciences

Thông tin xuất bản: Khoa học (Đại học Hạ Long) 2023

Mô tả vật lý: 81-89

Bộ sưu tập: Metadata

ID: 400810

Mô hình Convolutional Neural Network và gần đây là Transformer đã chứng minh hiệu quả trong phân loại ảnh đơn nhãn dựa trên các tập dữ liệu đơn nhãn. Khi mở rộng ra bài toán phân loại ảnh đa nhãn, một rào cản lớn là không đủ các tập dữ liệu đa nhãn cho huấn luyện mô hình. Kết hợp trực tiếp tập ảnh đa nhãn và đơn nhãn (cho đối tượng mới) chưa mang lại kết quả phân loại đa nhãn. Trong bài báo này, chúng tôi đề xuất mô hình Conformer và phương pháp mặt nạ tựa BERT cho phân loại ảnh đa nhãn dựa trên tập dữ liệu đơn nhãn ImageNet và tập dữ liệu đa nhãn Coco. ImageNet được sử dụng đế huấn luyện nhận dạng đối tượng "chính" trong ảnh (đối tượng ImageNet) và Coco để nhận dạng các đối tượng "phụ" khác trong ảnh. Kết hợp một lượng nhỏ dữ liệu ngữ cảnh đa nhãn là sự "lai ghép" đối tượng từ Coco và ImageNet để kết nối các tập dữ liệu khác nhau, mô hình đề xuất có thể nhận dạng đối tượng "chính" trong ảnh và các đối tượng thông thường khác. Ngoài ra, mô hình có thể áp dụng cho gán lại đa nhãn tập dữ liệu ImageNet với thông tin ngữ cảnh đặc trưng.
Tạo bộ sưu tập với mã QR

THƯ VIỆN - TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM

ĐT: (028) 71010608 | Email: tt.thuvien@hutech.edu.vn

Copyright @2024 THƯ VIỆN HUTECH