So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều

 0 Người đánh giá. Xếp hạng trung bình 0

Tác giả: Thị Thu Hồng Phan

Ngôn ngữ: Vie

Ký hiệu phân loại: 510 Mathematics

Thông tin xuất bản: Khoa học nông nghiệp Việt Nam 2021

Mô tả vật lý: 452-461

Bộ sưu tập: Metadata

ID: 393930

Chuỗi thời gian chứa các giá trị thiếu xảy ra trong hầu hết mọi lĩnh vực khoa học ứng dụng. Bỏ qua các giá trị thiếu có thể dẫn đến giảm hiệu năng của hệ thống và kết quả không đáng tin cậy, đặc biệt là khi dữ liệu mất theo khoảng lớn. Do đó, xử lý dữ liệu thiếu là một bước rất quan trọng để thực hiện các công việc tiếp như phân lớp, phân tích dữ liệu... Bài viết này trước tiên nhằm giới thiệu các phương pháp xử lý dữ liệu thiếu. Tiếp theo một framework cho phép điền đầy dữ liệu mất mát cho chuỗi thời gian đơn biến được xây dựng. Cuối cùng, chúng tôi thực hiện so sánh hiệu suất của các phương pháp ước lượng giá trị thiếu trên ba chuỗi dữ liệu thời gian thực sử dụng bốn chỉ số đánh giá. Thông qua kết quả thử nghiệm, phương pháp DTWBI và eDTWBI đạt được kết quả vượt trội hơn các phương pháp khác khi dữ liệu có tính chất mùa vụ và không có thành phần xu hướng, trong khi đó thì na.interp tốt hơn các phương pháp khi dữ liệu có cả hai tính chất mùa vụ và xu hướng., Tóm tắt tiếng anh, Time series with missing values occur in almost areas of applied science. Ignoring missing values can lead to a reduction of system performance and unreliable results, especially in case of large missing values. Therefore, handling missing data is an important task to effectively perform further purposes such as classification, data analysis, etc. This article aims first to introduce approaches for dealing with missing data. Next a framework is built to fill the incomplete data in univariate time series and then to compare the performance of various imputation methods. Four indices are used to evaluate the ability of imputation methods on 3 different real-time data series. Through experimental results, the DTWBI and eDTWBI methods achieve better results with data having seasonality component and without trend factor, while na.interp is more superior as the data have both seasonality and trend components.
Tạo bộ sưu tập với mã QR

THƯ VIỆN - TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM

ĐT: (028) 71010608 | Email: tt.thuvien@hutech.edu.vn

Copyright @2024 THƯ VIỆN HUTECH