การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรอิสระในตัวแบบการถดถอยลอจิสติกที่ข้อมูลมีความสัมพันธ์เชิงเส้นพหุ
วิทยาศาสตรมหาบัณฑิต (สถิติประยุกต์), 2566
Saved in:
Main Author: | |
---|---|
Other Authors: | |
Format: | Theses and Dissertations |
Language: | Thai |
Published: |
มหาวิทยาลัยสงขลานครินทร์
2024
|
Subjects: | |
Online Access: | http://kb.psu.ac.th/psukb/handle/2016/19428 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Institution: | Prince of Songkhla University |
Language: | Thai |
id |
th-psu.2016-19428 |
---|---|
record_format |
dspace |
spelling |
th-psu.2016-194282024-06-04T06:42:35Z การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรอิสระในตัวแบบการถดถอยลอจิสติกที่ข้อมูลมีความสัมพันธ์เชิงเส้นพหุ Comparison of Missing Data Imputation Methods for Independent Variables in Logistic Regression Model with Multicollinearity Data ธัญพิชชา ฤทธิ์เทวา ใกล้รุ่ง สามารถ Faculty of Science (Mathemetics and Statistics) คณะวิทยาศาสตร์ ภาควิชาคณิตศาสตร์และสถิติ Imputation การวิเคราะห์การถดถอยลอจิสติก (Logistic regression analysis) ข้อมูลสูญหาย (Missing data) ความสัมพันธ์เชิงเส้นพหุ (Multicollinearity) โรคเบาหวาน (Diabetes) วิทยาศาสตรมหาบัณฑิต (สถิติประยุกต์), 2566 Logistic regression analysis is a technique for predicting the probability of an occurrence of a particular event when the dependent variable is qualitative. Data from both quantitative and qualitative sources can be used as the independent variable. It has been used in a wide range of sciences. In particular, in the case of medical data, missing data can lead to a loss of trust in patient evaluation and make it impossible to classify people according to their level of health or disease. Furthermore, multicollinearity between independent variables can lead to misleading results. Therefore, the objective of this research is to study the efficiency of missing data imputation methods for logistic regression when multicollinearity occurs. The missing data imputation methods considered in this research were : mean imputation (MEAN), multiple imputation (MI), k-nearest neighbor imputation (KNN), random forest imputation (RF), stochastic regression imputation (SRI), and bayesian linear regression imputation (BRI). In this study, the simulation was done with sample sizes of 20, 50, 100, 150, 200, 500, and 1000, and the percentages of missing data were 10%, 20%, 30%, and 40%. The estimated mean square error (EMSE) was used to compare efficiency. The results showed that when the sample size is large and there is a high percentage of missing data, the RF method is most effective. The EMSE rises when the percentage of missing data rises and falls when the sample size decreases. การวิเคราะห์การถดถอยลอจิสติก (Logistic regression analysis) เป็นเทคนิควิธีการที่ใช้พยากรณ์ความน่าจะเป็นที่จะเกิดหรือไม่เกิดเหตุการณ์ที่สนใจ ที่ตัวแปรตามเป็นตัวแปรเชิงคุณภาพ ส่วนตัวแปรอิสระเป็นได้ทั้งข้อมูลเชิงปริมาณและคุณภาพ ซึ่งได้นำมาประยุกต์หลากหลายศาสตร์ โดยเฉพาะอย่างยิ่งในกรณีของข้อมูลทางการแพทย์ ข้อมูลที่สูญหายอาจส่งผลต่อความน่าเชื่อถือในการประเมินผู้ป่วย และทำให้ไม่สามารถจำแนกบุคคลตามระดับของสุขภาพหรือการเป็นโรคได้ นอกจากนี้ ลักษณะของข้อมูลอาจเกิดความสัมพันธ์เชิงเส้นพหุ (Multicollinearity) ระหว่างตัวแปรอิสระ ทำให้ผลลัพธ์ที่ได้ไม่สอดคล้องกับความเป็นจริง ดังนั้นในงานวิจัยนี้จึงสนใจเปรียบเทียบวิธีการประมาณค่าสูญหายของข้อมูลเมื่อมีการสูญหายบนตัวแปรอิสระที่มีความสัมพันธ์เชิงเส้นพหุ (Multicollinearity) 6 วิธี ได้แก่ วิธี Mean imputation (Mean), Multiple imputation (MI), K-nearest neighbor imputation (KNN), Random forest imputation (RF), Stochastic regression imputation (SRI) และ วิธี Bayesian linear regression imputation (BRI) ที่มีระดับเปอร์เซ็นต์การสูญหายที่ระดับ 10%, 20%, 30% และ 40% โดยมีรูปแบบการสูญหายของข้อมูล 3 แบบ คือ การสูญหายแบบสุ่มสมบูรณ์ (Missing completely at random: MCAR), การสูญหายแบบสุ่ม (Missing at random: MAR) และการสูญหายแบบไม่สุ่ม (Missing not at random: MNAR) เกณฑ์ในการเปรียบเทียบประสิทธิภาพพิจารณาจาก ค่า Estimated mean square error: EMSE โดยวิธีที่ให้ค่า EMSE ต่ำที่สุดคือวิธีที่มีประสิทธิภาพมากที่สุด ผลการวิจัยพบว่าเมื่อตัวอย่างมีขนาดใหญ่ ทุกระดับเปอร์เซ็นต์การสูญหาย วิธี RF มีประสิทธิภาพมากที่สุด นอกจากนี้พบว่า ค่า EMSE เพิ่มขึ้น เมื่อเปอร์เซ็นต์การสูญหายเพิ่มขึ้น และลดลงเมื่อขนาดตัวอย่างเพิ่มขึ้น 2024-06-04T06:41:34Z 2024-06-04T06:41:34Z 2023 Thesis http://kb.psu.ac.th/psukb/handle/2016/19428 th Attribution-NonCommercial-NoDerivs 3.0 Thailand http://creativecommons.org/licenses/by-nc-nd/3.0/th/ application/pdf มหาวิทยาลัยสงขลานครินทร์ |
institution |
Prince of Songkhla University |
building |
Khunying Long Athakravi Sunthorn Learning Resources Center |
continent |
Asia |
country |
Thailand Thailand |
content_provider |
Khunying Long Athakravi Sunthorn Learning Resources Center |
collection |
PSU Knowledge Bank |
language |
Thai |
topic |
Imputation การวิเคราะห์การถดถอยลอจิสติก (Logistic regression analysis) ข้อมูลสูญหาย (Missing data) ความสัมพันธ์เชิงเส้นพหุ (Multicollinearity) โรคเบาหวาน (Diabetes) |
spellingShingle |
Imputation การวิเคราะห์การถดถอยลอจิสติก (Logistic regression analysis) ข้อมูลสูญหาย (Missing data) ความสัมพันธ์เชิงเส้นพหุ (Multicollinearity) โรคเบาหวาน (Diabetes) ธัญพิชชา ฤทธิ์เทวา การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรอิสระในตัวแบบการถดถอยลอจิสติกที่ข้อมูลมีความสัมพันธ์เชิงเส้นพหุ |
description |
วิทยาศาสตรมหาบัณฑิต (สถิติประยุกต์), 2566 |
author2 |
ใกล้รุ่ง สามารถ |
author_facet |
ใกล้รุ่ง สามารถ ธัญพิชชา ฤทธิ์เทวา |
format |
Theses and Dissertations |
author |
ธัญพิชชา ฤทธิ์เทวา |
author_sort |
ธัญพิชชา ฤทธิ์เทวา |
title |
การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรอิสระในตัวแบบการถดถอยลอจิสติกที่ข้อมูลมีความสัมพันธ์เชิงเส้นพหุ |
title_short |
การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรอิสระในตัวแบบการถดถอยลอจิสติกที่ข้อมูลมีความสัมพันธ์เชิงเส้นพหุ |
title_full |
การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรอิสระในตัวแบบการถดถอยลอจิสติกที่ข้อมูลมีความสัมพันธ์เชิงเส้นพหุ |
title_fullStr |
การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรอิสระในตัวแบบการถดถอยลอจิสติกที่ข้อมูลมีความสัมพันธ์เชิงเส้นพหุ |
title_full_unstemmed |
การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรอิสระในตัวแบบการถดถอยลอจิสติกที่ข้อมูลมีความสัมพันธ์เชิงเส้นพหุ |
title_sort |
การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรอิสระในตัวแบบการถดถอยลอจิสติกที่ข้อมูลมีความสัมพันธ์เชิงเส้นพหุ |
publisher |
มหาวิทยาลัยสงขลานครินทร์ |
publishDate |
2024 |
url |
http://kb.psu.ac.th/psukb/handle/2016/19428 |
_version_ |
1802995669246410752 |