PENERAPAN METODE SQUASHING PADA DATA BERUKURAN BESAR YANG BERDISTRIBUSI PARETO TERGENERALISIR

Data warehouse (data yang berukuran sangat besar) merupakan hasil dari pesatnya perkembangan teknologi informasi akibat penggunaan database. Dengan jumlah data yang sangat besar maka baik analisis maupun visualisasi data dengan metode-metode tradisional sulit dikerjakan bahkan tidak bisa dilakukan....

Full description

Saved in:
Bibliographic Details
Main Authors: Rimulyo Hendradi, S.Si., MSi., Eto Wuryanto, Drs., DEA., Dyah Herawatie, Ir., M.Si.
Format: Other NonPeerReviewed
Language:Indonesian
Indonesian
Published: UNIVERSITAS AIRLANGGA 2005
Subjects:
Online Access:http://repository.unair.ac.id/42797/1/gdlhub-gdl-res-2008-hendradiri-7542-lp1060-k.pdf
http://repository.unair.ac.id/42797/13/gdlhub-gdl-res-2008-hendradiri-7412-lp10608-min.pdf
http://repository.unair.ac.id/42797/
http://lib.unair.ac.id
Tags: Add Tag
No Tags, Be the first to tag this record!
Institution: Universitas Airlangga
Language: Indonesian
Indonesian
Description
Summary:Data warehouse (data yang berukuran sangat besar) merupakan hasil dari pesatnya perkembangan teknologi informasi akibat penggunaan database. Dengan jumlah data yang sangat besar maka baik analisis maupun visualisasi data dengan metode-metode tradisional sulit dikerjakan bahkan tidak bisa dilakukan. Sehingga perlu dicarikan cara supaya dapat dilakukan pengolahan data yang berukuran besar tersebut. Cara paling sederhana adalah melakukan pengurangan jumlah data (reduksi data) dengan metode sampling tradisional (konvensional), misalkan metode sampling acak sederhana, sistematik dan stratifikasi. Tetapi cara ini masih diragukan apakah data hasil sampling tersebut sudah mewakili massive dataset yang merupakan data induknya. Penelitian terbaru yang dilakukan DuMouchel et al (1999) .mengusulkan suatu pendekatan baru yang disebut metode squashing, yang mereduksi massive dataset menjadi dataset yang lebih kecil dan dapat mempresentasikan data induk. Dalam reduksi data, sifat data dengan heavy tail merupakan hal yang sangat menarik karena sampel yang dihasilkan dari jenis data ini diperlukan jumlah yang besar supaya dapat mempresentasikan dataset induk. Salah satu data dengan heavy tail ini adalah data yang berdistribusi Pareto tergeneralisir yang diindikasikan oleh parameter tail-nya. Penelitian ini bertujuan mem; eroleh sampel dari data berukuran besar yang berdistribusi Pareto tergeneneralisir, yang dapat diolah secara statistik dengan mudah dan menghasilkan akurasi sesuai keinginan dalam proses pengambilan keputusan (inferensi). Untuk tujuan ini akan dibandingkan sampling hasil dari metode sampling tradisional (metode sampling acak sederhana, sistematik, dan stratifikasi) dan metode squashing, dengan menggunakan indikator nilai MSE. Untuk mencapai tujuan di atas digunakan metode penelitian berikut : penyusunan algoritma yang meliputi antara lain membangkitkan data yang berdistribusi Pareto tergeneralisir; penentuan sampel dengan menggunakan metode tradisional dan metode squashing; estimasi parameter dari Pareto tergeneralisir untuk data squashing dan non data squashing dengan menggunakan metode maksimum likelihood dan Newton-Raphson. Selanfutnya, algoritma tersebut disusun ke dalam program komputer (dengan software S-plus). Reduksi data atau pembuatan sampel dengan metode squashing dapat dilakukan dengan cara : Pertama, melakukan pengelompokkan terhadap data induk ke dalam beberapa partisi atau kelompok yang sama. Kedua, untuk per kelompok jumlah anggotanya berfungsi sebagai nilai pembobot dan nilai pseudo point-nya sama dengan rata-rata dari data di masing-masing kelompok. Penerapan metode squashing dalam penentuan sampel dari data induk yang beristribusi Pareto Tergeneralisir bisa dilakukan dengan cara : Pertama, melakukan pengelompokkan terhadap data induk ke dalam beberapa kelompok yang sama. Kedua, pada tiap kelompok dihitung secara acak r (r > 1) nilai pembobot dan r nilai pseudo point. Dan data basil simulasi, untuk metode tradisional yang cenderung memberikan hasil estimasi yang lebih balk adalah metode sampling sistematik dan metode stratifikasi. Jika dibandingkan dengan metode tradisional, metode squashing menunjukkan basil yang lebih balk. Hal ini diindikasikan dengan nilai MSE yang lebih kecil untuk estimator dari #945; dan #946; APPLICATION OF SQUASHING METHODS TO THE LARGE DATA FROM GENERALIZED PARETO DISTRIBUTION The database use in information technology that growth very fast effect the presentation of data warehouse (the very large data). Either data analysis or visualization is difficult to be worked using traditional method for the data warehouse even cannot be done. So it is necessary to obtain the methods that can analyse this data type. The simplest way is to reduce the number of data (data reduction) using the traditional (conventional) sampling method : simple random sampling, systematic and stratification. But this way is doubt what the data sampling have represented the massive dataset that is the main data. The newest research that is done by Dumouchel et al (1999) propose a new approach so-called squashing method. This methods reduce the massive dataset become the smaller dataset and can present the main data. In data reduction context, heavy tailed data are interesting because the sample that is yielded from this data type need a large size so can present the main dataset. One of heavy tailed data is data from generalized Pareto distribution which indication by its tail parameter. This research aim to obtain the sample from the large data of generalized Pareto distributed that can be processed statistically easily and yield the certain accuration in decision making. The purpose will be reach by compare a sample of traditional sampling method (simple random sampling, systematic and stratification) and one of squashing method using indicator MSE. The following is the research method that is used are construct any algorithm : generate data from generalized Pareto distribution; determination of either a sample of traditional method or one of squashing method; estimate the parameter of generalized Pareto distribution for squashing data and non squashing data by applying maximum likelihood method and Newton-Raphson method. Then the algorithm is compiled into computer program (in S-Plus programming). In squashing method, data reduction or making sample can be done by : First, grouping the main data into some same partition. Second, each group the sum of member as a weighted value and the pseudo point equal to the mean of data. Application of squashing method in determination of sample from the main data of generalized Pareto distributed can be conducted by : First, cluster the main data into some same group. Second, each . group calculate randomly r (r > 1) weighted value and r pseudo point. By doing to simulation data can is obtained, for the traditional method, systematic sampling method and stratification method tend to give a better estimation. In fact squashing method have the result better than traditional method because the MSE value of the #945; and #946; estimator using squashing method is smaller.