การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรตามในตัวแบบการถดถอยลอจิสติก
วิทยานิพนธ์ (วท.ม. (สถิติประยุกต์))--มหาวิทยาลัยสงขลานครินทร์, 2566
Saved in:
Main Author: | |
---|---|
Other Authors: | |
Format: | Theses and Dissertations |
Language: | Thai |
Published: |
มหาวิทยาลัยสงขลานครินทร์
2024
|
Subjects: | |
Online Access: | http://kb.psu.ac.th/psukb/handle/2016/19607 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Institution: | Prince of Songkhla University |
Language: | Thai |
id |
th-psu.2016-19607 |
---|---|
record_format |
dspace |
spelling |
th-psu.2016-196072024-11-06T08:16:16Z การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรตามในตัวแบบการถดถอยลอจิสติก Comparison of Missing Data Imputation Methods for Dependent Variable in Logistic Regression Model ธิดารัตน์ ธรรมโชโต ใกล้รุ่ง สามารถ Faculty of Science (Mathemetics and Statistics) คณะวิทยาศาสตร์ ภาควิชาคณิตศาสตร์และสถิติ Missing data Imputation method Logistic regression EMSE การถดถอยริดจ์ วิทยานิพนธ์ (วท.ม. (สถิติประยุกต์))--มหาวิทยาลัยสงขลานครินทร์, 2566 Missing data is an important issue affecting data analysis. It can lead to erroneous conclusions. The objective of this study is to compare and develop the performances of missing data imputation methods applied to binary logistic regression analysis. Seven imputation methods were applied: mode imputation (Mode), hot deck imputation (HD), multiple imputation (MI), k-nearest neighbor imputation (KNN), random forest imputation (RF), logistic regression imputation (LR), and modified logistic regression imputation (MLR), a method developed from the LR method by modifying the cutoff point from 0.5 to an optimal cutoff point for that dataset. In this study, missing data were simulated under three types of mechanisms: missing completely at random (MCAR), missing at random (MAR), and missing not at random (MNAR). The simulation was run using sample sizes of 20, 50, 100, 150, 200, 500, and 1,000 and missing percentages of 10%, 20%, 30%, and 40%. The estimated mean square error (EMSE) was used to compare performances. The results revealed that the developed MLR method had the best performance with small sample sizes but the MI method had the best performance with large sample sizes. The performances of the imputation methods decreased when the percentage of missing data increased. However, when the sample size increased, performances increased. ข้อมูลสูญหายถือเป็นปัญหาที่สำคัญที่มีผลต่อการวิเคราะห์ข้อมูล ซึ่งจะนำไปสู่การสรุปผลที่มีความผิดพลาด การศึกษานี้มีวัตถุประสงค์เพื่อพัฒนาและเปรียบเทียบประสิทธิภาพของวิธีการประมาณค่าสูญหายสำหรับการวิเคราะห์การถดถอยลอจิสติกทวิภาค เมื่อเกิดการสูญหายบนตัวแปรตาม 7 วิธี ได้แก่ Mode imputation (Mode), Hot deck imputation (HD), Multiple imputation (MI), K-nearest neighbor imputation (KNN), Random forest imputation (RF), Logistic regression imputation (LR) และ Modified logistic regression imputation (MLR) ซึ่งเป็นวิธีประมาณค่าสูญหายที่พัฒนามาจากวิธี LR โดยการเปลี่ยนจากจุดตัดที่เท่ากับ 0.5 เป็นจุดตัดที่เหมาะสมสำหรับชุดข้อมูลนั้น ในการศึกษานี้จำลองให้มีการสูญหายแบบ Missing completely at random (MCAR), Missing at random (MAR), Missing not at random (MNAR) โดยกำหนด ขนาดตัวอย่าง 20, 50, 100, 150, 200, 500 และ 1,000 มีเปอร์เซ็นต์การสูญหายที่ระดับ 10%, 20%, 30% และ 40% เกณฑ์ที่ใช้ในการเปรียบเทียบประสิทธิภาพ คือ ค่าประมาณความคลาดเคลื่อน กำลังสองเฉลี่ย (Estimated mean square error: EMSE) ผลการวิจัยพบว่า เมื่อข้อมูลมีขนาดเล็กวิธี MLR ที่ได้พัฒนาขึ้นมาจะมีประสิทธิภาพดีที่สุด แต่เมื่อข้อมูลมีขนาดใหญ่วิธี MI จะมีประสิทธิภาพดีที่สุด นอกจากนี้ยังพบว่า เมื่อขนาดตัวอย่างเพิ่มขึ้นจะทำให้ค่า EMSE ลดลง และเมื่อเปอร์เซ็นต์การ สูญหายเพิ่มจะทำให้ค่า EMSE เพิ่มขึ้น 2024-11-06T08:14:47Z 2024-11-06T08:14:47Z 2023 Thesis http://kb.psu.ac.th/psukb/handle/2016/19607 th Attribution-NonCommercial-NoDerivs 3.0 Thailand http://creativecommons.org/licenses/by-nc-nd/3.0/th/ application/pdf มหาวิทยาลัยสงขลานครินทร์ |
institution |
Prince of Songkhla University |
building |
Khunying Long Athakravi Sunthorn Learning Resources Center |
continent |
Asia |
country |
Thailand Thailand |
content_provider |
Khunying Long Athakravi Sunthorn Learning Resources Center |
collection |
PSU Knowledge Bank |
language |
Thai |
topic |
Missing data Imputation method Logistic regression EMSE การถดถอยริดจ์ |
spellingShingle |
Missing data Imputation method Logistic regression EMSE การถดถอยริดจ์ ธิดารัตน์ ธรรมโชโต การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรตามในตัวแบบการถดถอยลอจิสติก |
description |
วิทยานิพนธ์ (วท.ม. (สถิติประยุกต์))--มหาวิทยาลัยสงขลานครินทร์, 2566 |
author2 |
ใกล้รุ่ง สามารถ |
author_facet |
ใกล้รุ่ง สามารถ ธิดารัตน์ ธรรมโชโต |
format |
Theses and Dissertations |
author |
ธิดารัตน์ ธรรมโชโต |
author_sort |
ธิดารัตน์ ธรรมโชโต |
title |
การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรตามในตัวแบบการถดถอยลอจิสติก |
title_short |
การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรตามในตัวแบบการถดถอยลอจิสติก |
title_full |
การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรตามในตัวแบบการถดถอยลอจิสติก |
title_fullStr |
การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรตามในตัวแบบการถดถอยลอจิสติก |
title_full_unstemmed |
การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรตามในตัวแบบการถดถอยลอจิสติก |
title_sort |
การเปรียบเทียบวิธีการประมาณค่าสูญหายของตัวแปรตามในตัวแบบการถดถอยลอจิสติก |
publisher |
มหาวิทยาลัยสงขลานครินทร์ |
publishDate |
2024 |
url |
http://kb.psu.ac.th/psukb/handle/2016/19607 |
_version_ |
1816860174383579136 |