VẤN ĐỀ VANISHING GRADIENT VÀ CÁC PHƯƠNG PHÁP XỬ LÝ KHI LAN TRUYỀN NGƯỢC TRONG HUẤN LUYỆN MÔ HÌNH HỌC SÂU

 0 Người đánh giá. Xếp hạng trung bình 0

Tác giả: Ngọc Giàu Phạm, Lê Thanh Hải Tống

Ngôn ngữ: vie

Ký hiệu phân loại:

Thông tin xuất bản: Tạp chí Khoa học & Công nghệ - Trường Đại học Công nghiệp Hà Nội, 2023

Mô tả vật lý: tr.36

Bộ sưu tập: Metadata

ID: 379427

In supervised deep learning, gradients are information to update weights during training, if the gradient is too small or zero, the weights are almost unchanged, leading to the model not learning anything from the data. The article providing solutions to the problem of vanishing gradients in Multi Layer Perceptrons (MLP) neural networks when performing train models that are too deep (with many hidden layers). There are six different methods that affect the model, train tactics, etc. to help minimize vanishing gradients featured in the article on the FashionMNIST dataset. In addition, we also introduced and built the MyNormalization() function, a custom function similar to Pytorch's BatchNorm. The purpose of this function is to control variance and reduce the volatility of characteristics across layers. The ultimate goal is to optimize the deep MLP model so that it can learn efficiently from data without being affected by the gradient vanishing problem.Trong học sâu có giám sát, gradient là thông tin quan trọng để cập nhật các trọng số (weights) trong quá trình huấn luyện. Nếu gradient quá nhỏ hoặc bằng 0, trọng số sẽ gần như không thay đổi, khiến mô hình không thể học hỏi từ dữ liệu. Bài báo đưa ra các biện pháp khắc phục vấn đề suy giảm đạo hàm (vanishing gradient) trong mạng nơron Multi Layer Perceptrons (MLP) khi thực hiện huấn luyện mô hình quá sâu (có nhiều hidden layer). Có sáu phương pháp khác nhau tác động vào model, chiến thuật train,... để giúp giảm thiểu vanishing gradients được giới thiệu trong bài viết trên bộ dữ liệu FashionMNIST. Ngoài ra, chúng tôi cũng giới thiệu và xây dựng hàm MyNormalization(), một hàm tuỳ chỉnh tương tựnhư BatchNorm của Pytorch. Mục đích của hàm này là kiểm soát phương sai và giảm biến động của đặc trưng qua các lớp. Mục tiêu cuối cùng là tối ưu hoá mô hình MLP sâu để nó có thể học hiệu quả từ dữ liệu mà không bị ảnh hưởng bởi vấn đề vanishing gradient.
Tạo bộ sưu tập với mã QR

THƯ VIỆN - TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM

ĐT: (028) 36225755 | Email: tt.thuvien@hutech.edu.vn

Copyright @2024 THƯ VIỆN HUTECH