Malay part of speech tagger: a comparative study on tagging tools
Bahasa Melayu merupakan bahasa aglutinatif yang kaya dengan morfologi bagi menerbit perkataan dengan makna selain daripada kata akar yang memberi kesan kepada perubahan golongan katanya. Korpus beranotasi Bahasa Melayu sukar didapati lantas belum ada penerbitan tentang perbandingan prestasi penand...
Saved in:
Main Authors: | , , |
---|---|
Format: | Article |
Language: | English |
Published: |
Penerbit Universiti Kebangsaan Malaysia
2015
|
Online Access: | http://journalarticle.ukm.my/8851/1/8326-23713-1-PB.pdf http://journalarticle.ukm.my/8851/ http://ejournal.ukm.my/apjitm/issue/view/609 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Institution: | Universiti Kebangsaan Malaysia |
Language: | English |
id |
my-ukm.journal.8851 |
---|---|
record_format |
eprints |
spelling |
my-ukm.journal.88512016-12-14T06:48:13Z http://journalarticle.ukm.my/8851/ Malay part of speech tagger: a comparative study on tagging tools Hassan Mohamed, Nazlia Omar, Mohd. Juzaiddin Ab. Aziz, Bahasa Melayu merupakan bahasa aglutinatif yang kaya dengan morfologi bagi menerbit perkataan dengan makna selain daripada kata akar yang memberi kesan kepada perubahan golongan katanya. Korpus beranotasi Bahasa Melayu sukar didapati lantas belum ada penerbitan tentang perbandingan prestasi penandaan golongan kata (GK) mengguna kaedah Model Markov Tersembunyi (MMT), Entropi Maksimum (EM) dan Mesin Vektor Sokongan (MVS), terutamanya bagi melihat kesan morfologi Bahasa Melayu ke atas penandaan GK bagi perkataan anu. Kertas ini bertujuan membentang penilaian ketiga-tiga kaedah tersebut ke atas Bahasa Melayu. Tiga alatan penanda GK diguna yakni TnT mewakili MMT, MaxEnt mewakili EM dan SVMTool mewakili MVS. Bagi melengkapi latihan dan ujian bagi ketiga-tiga alatan tersebut, usaha menganotasi korpus Bahasa Melayu bagi domain kesihatan dilakukan. Alatan TnT diubah suai untuk memasukkan fitur imbuhan awalan serta apitan. Keputusan bagi seluruh eksperimen menunjukkan prestasi SVMTool mengatasi TnT dan MaxEnt bagi kejituan keseluruhan (99.23% untuk SVMTool, 94% untuk TnT dan 96% untuk MaxEnt) serta kejituan penandaan perkataan anu (96.78% untuk SVMTool, 67% untuk TnT dan 86.23% untuk MaxEnt). Keupayaan MaxEnt pula mengatasi TnT bagi kejituan keseluruhan serta kejituan penandaan perkataan anu. Ketepatan penandaan perkataan anu sebanyak 96.78% oleh SVMTool, menjadikan alatan tersebut sebagai yang tebaik pada ketika ini dalam penandaan GK Bahasa Melayu bagi domain spesifik. Penerbit Universiti Kebangsaan Malaysia 2015-06 Article PeerReviewed application/pdf en http://journalarticle.ukm.my/8851/1/8326-23713-1-PB.pdf Hassan Mohamed, and Nazlia Omar, and Mohd. Juzaiddin Ab. Aziz, (2015) Malay part of speech tagger: a comparative study on tagging tools. Asia-Pacific Journal of Information Technology and Multimedia, 4 (1). pp. 11-23. ISSN 2289-2192 http://ejournal.ukm.my/apjitm/issue/view/609 |
institution |
Universiti Kebangsaan Malaysia |
building |
Perpustakaan Tun Sri Lanang Library |
collection |
Institutional Repository |
continent |
Asia |
country |
Malaysia |
content_provider |
Universiti Kebangsaan Malaysia |
content_source |
UKM Journal Article Repository |
url_provider |
http://journalarticle.ukm.my/ |
language |
English |
description |
Bahasa Melayu merupakan bahasa aglutinatif yang kaya dengan morfologi bagi menerbit perkataan dengan makna
selain daripada kata akar yang memberi kesan kepada perubahan golongan katanya. Korpus beranotasi Bahasa
Melayu sukar didapati lantas belum ada penerbitan tentang perbandingan prestasi penandaan golongan kata (GK)
mengguna kaedah Model Markov Tersembunyi (MMT), Entropi Maksimum (EM) dan Mesin Vektor Sokongan
(MVS), terutamanya bagi melihat kesan morfologi Bahasa Melayu ke atas penandaan GK bagi perkataan anu.
Kertas ini bertujuan membentang penilaian ketiga-tiga kaedah tersebut ke atas Bahasa Melayu. Tiga alatan
penanda GK diguna yakni TnT mewakili MMT, MaxEnt mewakili EM dan SVMTool mewakili MVS. Bagi
melengkapi latihan dan ujian bagi ketiga-tiga alatan tersebut, usaha menganotasi korpus Bahasa Melayu bagi
domain kesihatan dilakukan. Alatan TnT diubah suai untuk memasukkan fitur imbuhan awalan serta apitan.
Keputusan bagi seluruh eksperimen menunjukkan prestasi SVMTool mengatasi TnT dan MaxEnt bagi kejituan
keseluruhan (99.23% untuk SVMTool, 94% untuk TnT dan 96% untuk MaxEnt) serta kejituan penandaan
perkataan anu (96.78% untuk SVMTool, 67% untuk TnT dan 86.23% untuk MaxEnt). Keupayaan MaxEnt pula
mengatasi TnT bagi kejituan keseluruhan serta kejituan penandaan perkataan anu. Ketepatan penandaan perkataan
anu sebanyak 96.78% oleh SVMTool, menjadikan alatan tersebut sebagai yang tebaik pada ketika ini dalam
penandaan GK Bahasa Melayu bagi domain spesifik. |
format |
Article |
author |
Hassan Mohamed, Nazlia Omar, Mohd. Juzaiddin Ab. Aziz, |
spellingShingle |
Hassan Mohamed, Nazlia Omar, Mohd. Juzaiddin Ab. Aziz, Malay part of speech tagger: a comparative study on tagging tools |
author_facet |
Hassan Mohamed, Nazlia Omar, Mohd. Juzaiddin Ab. Aziz, |
author_sort |
Hassan Mohamed, |
title |
Malay part of speech tagger: a comparative study on tagging tools |
title_short |
Malay part of speech tagger: a comparative study on tagging tools |
title_full |
Malay part of speech tagger: a comparative study on tagging tools |
title_fullStr |
Malay part of speech tagger: a comparative study on tagging tools |
title_full_unstemmed |
Malay part of speech tagger: a comparative study on tagging tools |
title_sort |
malay part of speech tagger: a comparative study on tagging tools |
publisher |
Penerbit Universiti Kebangsaan Malaysia |
publishDate |
2015 |
url |
http://journalarticle.ukm.my/8851/1/8326-23713-1-PB.pdf http://journalarticle.ukm.my/8851/ http://ejournal.ukm.my/apjitm/issue/view/609 |
_version_ |
1643737591960305664 |