MÔ HÌNH CHẨN ĐOÁN BỆNH COVID-19 TỪ DỮ LIỆU LÂM SÀNG BẰNG PHƯƠNG PHÁP XGBOOST

 0 Người đánh giá. Xếp hạng trung bình 0

Tác giả: Dương Thị Kim Chi

Ngôn ngữ: vie

Ký hiệu phân loại:

Thông tin xuất bản: Tạp chí Khoa học - Đại học Thủ Dầu Một, 2023

Mô tả vật lý: tr.39-50

Bộ sưu tập: Metadata

ID: 339713

 Clinical data are results from blood count tests, urinalysis, which is also a medical procedure that is very commonly performed during examination, treatment and disease monitoring. For doctors directly treating, the results of subclinical tests are considered an effective way to support, especially in the case of functional symptoms, the patient's symptoms are unclear or non-specific. Currently, COVID-19 disease is also an asymptomatic disease or with unclear symptoms that can easily be confused with influenza or hemorrhagic numbers. Using modern machine learning methods to support the screening process of infectious diseases from clinical data samples will help to quickly and accurately identify diseases that can be applied simultaneously to a large number of samples. This has made the disease screening process fast, accurate and cost-effective. This study proposes an automatic model of clinical data processing and combines the Gradient Boosting classification model to predict COVID-19 disease, the proposed model can learn directly from the raw data as a result of the test. clinical trials without deleting blank data. The proposed model from this study includes two phases: the first phase will evaluate and process data
  Phase two will build a disease classification model based on XGBoost (Extreme Gradient Boosting) method. To build a successful model, the study was carried out based on a dataset from the Israelita Albert Einstein hospital in Brazil, which is a dataset compiled by Teich from patients hospitalized April to May 2020 and published publicly in the journal einstein_journal. The results from this study show that combining the automated data processing technique and the XGBoost model to generate a COVID-19 disease classifier from clinical data has good results and performance obtained from the model. is superior to studies on the same topic on the same dataset, with overall accuracy above 0.998. To confirm the accuracy and performance of the proposed model, we compared it with other authors' studies for the same predictive function, and found that the model gave better results in terms of accuracy and sensitivity. Recall, Specificity, F1 score, ROC, Results were all at 0.99. In the future, the model from this study will help make the patient's diagnosis simple and accurate. At the same time, it will help the medical system to automatically diagnose diseases, bring more opportunities for timely treatment to patients and help prevent disease outbreaks.Dữ liệu lâm sàng là các kết quả từ xét nghiệm công thức máu, xét nghiệm nước tiểu, đây cũng là phương thức y tế được thực hiện rất phổ biến trong quá trình thăm khám, điều trị và theo dõi bệnh tật. Đối với bác sĩ trực tiếp điều trị, kết quả xét nghiệm cận lâm sàng được xem là cách thức hỗ trợ đắc lực, nhất là trong các bệnh cảnh triệu chứng cơ năng, triệu chứng của bệnh nhân không rõ ràng hoặc không đặc hiệu. Hiện nay bệnh COVID-19 cũng là một dạng bệnh không triệu chứng hoặc triệu chứng không rõ ràng dễ gây nhầm lẫm với các cúm hay số xuất huyết. Sử dụng phương pháp học máy hiện đại để hỗ trợ cho quá trình chẩn đoán sàn lọc bệnh truyền nhiễm từ các mẫu dữ liệu lâm sàng sẽ giúp việc xác định bệnh nhanh chóng, chính xác có thể áp dụng đồng thời cho số lượng mẫu lớn. Điều này đã làm cho quá trình sàng lọc bệnh diễn ra nhanh, chính xác và tiết kiệm kinh phí điều trị. Nghiên cứu này đề xuất mô hình tự động xử lý dữ liệu lâm sàn và kết hợp mô hình phân loại Gradient Boosting để dự đoán bệnh COVID-19, mô hình đề xuất có thể học trực tiếp từ dữ liệu thô là kết quả của xét nghiệm lâm sàn mà không cần phải xóa bỏ dữ liệu trống. Mô hình đề xuất từ nghiên cứu này bao gồm hai giai đoạn: giai đoạn đầu sẽ đánh giá, xử lý dữ liệu
  giai đoạn hai sẽ xây dựng mô hình phân loại bệnh dựa trên phương pháp XGBoost (Extreme Gradient Boosting). Để xây dựng mô hình thành công, nghiên cứu được thực hiện dựa trên bộ dữ liệu từ bệnh viện Israelita Albert Einstein ở Brazil đây là bộ dữ liệu do Teich tổng hợp từ các các bệnh nhân nhập viện tháng 4 đến tháng 5 năm 2020 và được xuất bản công khai trên tạp chí einstein_journal. Các kết quả từ nghiên cứu này cho thấy việc kết hợp kỹ thuật xử lý dữ liệu tự động và mô hình XGBoost tạo ra bộ phân loại bệnh COVID-19 từ dữ liệu lâm sàng có kết quả tốt và hiệu suất thu được từ mô hình là vượt trội hơn so với các nghiên cứu cùng chủ đề trên cùng bô dữ liệu, với chính xác tổng thể đạt trên 0,998. Để khẳng định tính chính xác cũng như hiệu năng của mô hình đề xuất đã tiến hành so sánh với nghiên cứu của các tác giả khác cho cùng chức năng dự đoán, nhận thấy mô hình cho kết quả tốt hơn về độ chính xác độ nhạy Recall, Độ đặc hiệu (Specificity), F1 score, ROC, Các kết quả đều đạt ở mức là 0,99. Trong tương lai, mô hình từ nghiên cứu này sẽ giúp cho việc chẩn đoán bệnh của bệnh nhân trở đơn giản và chính xác. Đồng thời nó sẽ giúp hệ thống y tế tự động chẩn đoán bệnh mang lại nhiều cơ hội chữa bệnh kịp thời cho bệnh nhân và hỗ trợ ngăn chặn bùng phát dịch bệnh.
Tạo bộ sưu tập với mã QR

THƯ VIỆN - TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM

ĐT: (028) 36225755 | Email: tt.thuvien@hutech.edu.vn

Copyright @2024 THƯ VIỆN HUTECH