Development of Data Imputation Methods for the Multiple Linear Regression

Master of Science (Applied Statistics),2022

Saved in:
Bibliographic Details
Main Author: Thidarat Thongsri
Other Authors: Klairung Samart
Format: Theses and Dissertations
Language:English
Published: Prince of Songkla University 2023
Subjects:
Online Access:http://kb.psu.ac.th/psukb/handle/2016/18991
Tags: Add Tag
No Tags, Be the first to tag this record!
Institution: Prince of Songkhla University
Language: English
id th-psu.2016-18991
record_format dspace
institution Prince of Songkhla University
building Khunying Long Athakravi Sunthorn Learning Resources Center
continent Asia
country Thailand
Thailand
content_provider Khunying Long Athakravi Sunthorn Learning Resources Center
collection PSU Knowledge Bank
language English
topic missing data
imputation method
composite method
multiple linear regression
spellingShingle missing data
imputation method
composite method
multiple linear regression
Thidarat Thongsri
Development of Data Imputation Methods for the Multiple Linear Regression
description Master of Science (Applied Statistics),2022
author2 Klairung Samart
author_facet Klairung Samart
Thidarat Thongsri
format Theses and Dissertations
author Thidarat Thongsri
author_sort Thidarat Thongsri
title Development of Data Imputation Methods for the Multiple Linear Regression
title_short Development of Data Imputation Methods for the Multiple Linear Regression
title_full Development of Data Imputation Methods for the Multiple Linear Regression
title_fullStr Development of Data Imputation Methods for the Multiple Linear Regression
title_full_unstemmed Development of Data Imputation Methods for the Multiple Linear Regression
title_sort development of data imputation methods for the multiple linear regression
publisher Prince of Songkla University
publishDate 2023
url http://kb.psu.ac.th/psukb/handle/2016/18991
_version_ 1781416884029095936
spelling th-psu.2016-189912023-10-24T04:02:32Z Development of Data Imputation Methods for the Multiple Linear Regression การพัฒนาวิธีการประมาณค่าสูญหายในตัวแบบการถดถอยเชิงเส้นพหุคูณ Thidarat Thongsri Klairung Samart Faculty of Science (Applied Science) คณะวิทยาศาสตร์ ภาควิชาวิทยาศาสตร์ประยุกต์ missing data imputation method composite method multiple linear regression Master of Science (Applied Statistics),2022 Multiple linear regression is a statistical study that investigates the relationship between the response and the independent variables and may be used to predict or estimate the response values. Missing data is a serious issue that regularly occurs and impacts data analysis, resulting in the loss of information in certain critical areas and data analysis outcomes that differ greatly from reality. This research is divided into two sections. The first project study’s objective is to develop and compare the efficiency of eight imputation methods: hot deck imputation (HD), k-nearest neighbors imputation (KNN), stochastic regression imputation (SR), predictive mean matching imputation (PMM), random forest imputation (RF), stochastic regression random forest with equivalent weight imputation (SREW), k-nearest random forest with equivalent weight imputation (KREW), and k-nearest stochastic regression and random forest with equivalent weight imputation (KSREW). The simulation was done in this study with sample sizes of 30, 60, 100, and 150 with missing percentages of 10%, 20%, 30%, and 40% on both independent and response variables. The average mean square error (AMSE) was used to compare efficiency. The results reveal that the proposed composite approaches outperformed the single ones, particularly a three-component method called KSREW. The second project is to create a function for analyzing multiple linear regressions using the RStudio software. The mlrpro package is an intuitive regression analysis tool that is suitable for novice users. It is a built-in package that can fit the regression model, select independent variables, validate the assumptions of multiple linear regression, transform data using the Box-Cox transformation, and determine which regression model is the most suited. The regression coefficients, residuals, fitted values, and statistics related to regression, such as residual standard error, multiple R-squared, F-statistic, and so on, may all be obtained through the use of our mlrpro package. In addition to this, it provides visualization tools of the residuals plot, the normal Q-Q plot, and the lambda interval plot derived from Box-Cox transformations. Graduate Fellowship (Bachelor – Master), Faculty of Science Research Fund, Prince of Songkla University. การวิเคราะห์การถดถอยเชิงเส้นพหุคูณเป็นการวิเคราะห์ทางสถิติที่เกี่ยวข้องกับตัวแปรตามที่มีความสัมพันธ์กับตัวแปรอิสระมากกว่าหนึ่งตัว โดยการวิเคราะห์การถดถอยเชิงเส้นพหุคูณสามารถใช้ในการทำนายหรือประมาณค่าของตัวแปรตามได้ แต่ปัญหาสำคัญที่มักเกิดขึ้นเสมอในการวิเคราะห์ข้อมูลคือ การเกิดข้อมูลสูญหาย ซึ่งอาจจะทำให้ผลการวิเคราะห์ข้อมูลมีความคลาดเคลื่อนไปจากความเป็นจริงและสูญเสียรายละเอียดในบางส่วนที่สำคัญไป งานวิจัยนี้แบ่งออกเป็น 2 ส่วน ส่วนแรกมีวัตถุประสงค์เพื่อพัฒนาและเปรียบเทียบประสิทธิภาพของวิธีการประมาณค่าสูญหาย 8 วิธี ได้แก่ Hot deck imputation (HD), K-nearest neighbors imputation (KNN), Stochastic regression, imputation (SR), Predictive mean matching imputation (PMM), Random forest imputation (RF), Stochastic regression random forest with equivalent weight imputation (SREW), K-nearest random forest with equivalent weight imputation (KREW), และ K-nearest stochastic regression and random forest with equivalent weight imputation (KSREW) ในการศึกษานี้ใช้ตัวอย่างขนาด 30, 60, 100 และ 150 โดยมีเปอร์เซ็นต์การสูญหายที่ระดับ 10%, 20%, 30% และ 40% บนตัวแปรอิสระและตัวแปรตอบสนอง ใช้ Average mean square error (AMSE) ในการเปรียบเทียบประสิทธิภาพของวิธีการประมาณค่าสูญหาย ผลการวิจัยพบว่า การนำวิธีการประมาณค่าสูญหายมาผสมผสานกันมีประสิทธิภาพมากกว่าวิธีการประมาณค่าสูญหายแบบเดี่ยว และวิธี KSREW มีประสิทธิภาพในการประมาณค่าสูญหายดีที่สุด งานวิจัยในส่วนที่ 2 มีวัตถุประสงค์เพื่อสร้างฟังก์ชันสำเร็จรูปในการวิเคราะห์การถดถอยเชิงเส้นพหุคูณแบบครบวงจร โดยใช้โปรแกรม RStudio ในชื่อของแพ็กเกจ mlrpro ซึ่งเป็นแพ็กเกจในการวิเคราะห์การถดถอยที่ใช้งานง่าย เหมาะสําหรับผู้เริ่มต้น เนื่องจากในตัวแพ็กเกจสามารถเลือกตัวแปรอิสระที่มีอิทธิพลต่อตัวแปรตาม สร้างตัวแบบการถดถอยที่ดีและเหมาะสมรวมถึง ตรวจสอบข้อสมมุติเบื้องต้นของการวิเคราะห์การถดถอยและแปลงข้อมูลโดยใช้การแปลง Box-Cox แบบครบวงจร นอกจากนี้ในตัวแพ็กเกจ mlrpro สามารถคำนวณค่าสัมประสิทธิ์การถดถอย ค่าส่วนเหลือ ค่าทำนายและค่าสถิติที่เกี่ยวข้องกับการวิเคราะห์การถดถอย อีกทั้งยังนําเสนอกราฟิกในรูปของกราฟต่าง ๆ ที่เกี่ยวข้องกับกับการวิเคราะห์การถดถอยเชิงเส้นพหุคูณ 2023-10-24T04:02:15Z 2023-10-24T04:02:15Z 2022 Thesis http://kb.psu.ac.th/psukb/handle/2016/18991 en Attribution-NonCommercial-NoDerivs 3.0 Thailand http://creativecommons.org/licenses/by-nc-nd/3.0/th/ application/pdf Prince of Songkla University