Pembangunan taksonomi dari teks Melayu menggunakan algoritma kunang-kunang pembahagi dua sama
Taksonomi digunakan untuk menerangkan bahawa haiwan boleh dikelaskan kepada beberapa kategori seperti mamalia, reptilia dan buaya. Taksonomi biologi ini membolehkan persamaan, perbezaan malah hubungan antara haiwan ditakrifkan. Konsep dan fungsi taksonomi biologi ini ‘dipinjam’ oleh saintis dan j...
Saved in:
Main Authors: | , , , , |
---|---|
Format: | Article |
Language: | English |
Published: |
Penerbit Universiti Kebangsaan Malaysia
2018
|
Online Access: | http://journalarticle.ukm.my/13779/1/25314-76342-2-PB.pdf http://journalarticle.ukm.my/13779/ http://ejournal.ukm.my/gema/issue/view/1087 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Institution: | Universiti Kebangsaan Malaysia |
Language: | English |
Summary: | Taksonomi digunakan untuk menerangkan bahawa haiwan boleh dikelaskan kepada beberapa
kategori seperti mamalia, reptilia dan buaya. Taksonomi biologi ini membolehkan
persamaan, perbezaan malah hubungan antara haiwan ditakrifkan. Konsep dan fungsi
taksonomi biologi ini ‘dipinjam’ oleh saintis dan jurutera Internet dalam membangunkan
taksonomi untuk Internet. Seperti taksonomi biologi, membangunkan taksonomi untuk
Internet secara manual bukanlah suatu yang mudah dan murah. Tugas ini mengambil masa
dan memerlukan kepintaran dalam bidang. Justeru saintis komputer telah menggunakan
pendekatan kecerdasan buatan untuk membangunkan taksonomi secara automatik dari teks.
Algoritma pembelajaran mesin dicipta untuk membolehkan mesin ‘membaca’ teks dan
kemudiannya ‘belajar’ untuk membina taksonomi dari konteks yang diperolehi dari teks.
Objektif utama kajian ini adalah untuk membangunkan algoritma pembelajaran taksonomi
dari Bahasa Melayu yang lebih berkesan dari algoritma sedia ada menggunakan kaedah
penghibridan. Makalah ini menyiasat keberkesanan algoritma hibrid antara Algoritma
Kunang-Kunang (AKK) dengan Algoritma K-Min Pembahagi Dua Sama (PDS) yang
dipanggil Algoritma Kunang-Kunang Pembahagi Dua Sama (AKK-PD). Kajian empirikal ini
mengumpul data dari eksperimen yang dijalankan ke atas tiga teks Bahasa Melayu dari
bidang Fekah, Biokimia dan Teknologi Maklumat. Perbandingan data ketepatan berasaskan
ukuran-F menunjukkan algoritma hybrid AKK-PD membina taksonomi yang lebih tepat
berbanding menggunakan algoritma sedia ada. AKK-PD didapati lebih berkesan dan mantap
berbanding algoritma bandingan apabila mengendalikan masalah kejarangan data . Walau
bagaimanapun, kajian penerokaan ini perlu diteruskan kepada korpus Bahasa Melayu yang
lebih besar untuk menguji ketahanan algoritma ini apabila berhadapan dengan korpus yang lebih umum sifatnya berbanding korpus teks yang teknikal dan menjurus kepada suatu bidang
sahaja. Teknik pengekstrakan ciri berasakan kebergantungan sintaksis juga perlu
dipertingkatkan kerana jelas teknik telah menghasilkan konteks yang mengalami masalah
kejarangan data yang serius. Justeru memberi cabaran baharu untuk penyelidikan
pembelajaran taksonomi dari teks Melayu. |
---|