Malay part of speech tagger: a comparative study on tagging tools

Bahasa Melayu merupakan bahasa aglutinatif yang kaya dengan morfologi bagi menerbit perkataan dengan makna selain daripada kata akar yang memberi kesan kepada perubahan golongan katanya. Korpus beranotasi Bahasa Melayu sukar didapati lantas belum ada penerbitan tentang perbandingan prestasi penand...

Full description

Saved in:
Bibliographic Details
Main Authors: Hassan Mohamed, Nazlia Omar, Mohd. Juzaiddin Ab. Aziz
Format: Article
Language:English
Published: Penerbit Universiti Kebangsaan Malaysia 2015
Online Access:http://journalarticle.ukm.my/8851/1/8326-23713-1-PB.pdf
http://journalarticle.ukm.my/8851/
http://ejournal.ukm.my/apjitm/issue/view/609
Tags: Add Tag
No Tags, Be the first to tag this record!
Institution: Universiti Kebangsaan Malaysia
Language: English
id my-ukm.journal.8851
record_format eprints
spelling my-ukm.journal.88512016-12-14T06:48:13Z http://journalarticle.ukm.my/8851/ Malay part of speech tagger: a comparative study on tagging tools Hassan Mohamed, Nazlia Omar, Mohd. Juzaiddin Ab. Aziz, Bahasa Melayu merupakan bahasa aglutinatif yang kaya dengan morfologi bagi menerbit perkataan dengan makna selain daripada kata akar yang memberi kesan kepada perubahan golongan katanya. Korpus beranotasi Bahasa Melayu sukar didapati lantas belum ada penerbitan tentang perbandingan prestasi penandaan golongan kata (GK) mengguna kaedah Model Markov Tersembunyi (MMT), Entropi Maksimum (EM) dan Mesin Vektor Sokongan (MVS), terutamanya bagi melihat kesan morfologi Bahasa Melayu ke atas penandaan GK bagi perkataan anu. Kertas ini bertujuan membentang penilaian ketiga-tiga kaedah tersebut ke atas Bahasa Melayu. Tiga alatan penanda GK diguna yakni TnT mewakili MMT, MaxEnt mewakili EM dan SVMTool mewakili MVS. Bagi melengkapi latihan dan ujian bagi ketiga-tiga alatan tersebut, usaha menganotasi korpus Bahasa Melayu bagi domain kesihatan dilakukan. Alatan TnT diubah suai untuk memasukkan fitur imbuhan awalan serta apitan. Keputusan bagi seluruh eksperimen menunjukkan prestasi SVMTool mengatasi TnT dan MaxEnt bagi kejituan keseluruhan (99.23% untuk SVMTool, 94% untuk TnT dan 96% untuk MaxEnt) serta kejituan penandaan perkataan anu (96.78% untuk SVMTool, 67% untuk TnT dan 86.23% untuk MaxEnt). Keupayaan MaxEnt pula mengatasi TnT bagi kejituan keseluruhan serta kejituan penandaan perkataan anu. Ketepatan penandaan perkataan anu sebanyak 96.78% oleh SVMTool, menjadikan alatan tersebut sebagai yang tebaik pada ketika ini dalam penandaan GK Bahasa Melayu bagi domain spesifik. Penerbit Universiti Kebangsaan Malaysia 2015-06 Article PeerReviewed application/pdf en http://journalarticle.ukm.my/8851/1/8326-23713-1-PB.pdf Hassan Mohamed, and Nazlia Omar, and Mohd. Juzaiddin Ab. Aziz, (2015) Malay part of speech tagger: a comparative study on tagging tools. Asia-Pacific Journal of Information Technology and Multimedia, 4 (1). pp. 11-23. ISSN 2289-2192 http://ejournal.ukm.my/apjitm/issue/view/609
institution Universiti Kebangsaan Malaysia
building Perpustakaan Tun Sri Lanang Library
collection Institutional Repository
continent Asia
country Malaysia
content_provider Universiti Kebangsaan Malaysia
content_source UKM Journal Article Repository
url_provider http://journalarticle.ukm.my/
language English
description Bahasa Melayu merupakan bahasa aglutinatif yang kaya dengan morfologi bagi menerbit perkataan dengan makna selain daripada kata akar yang memberi kesan kepada perubahan golongan katanya. Korpus beranotasi Bahasa Melayu sukar didapati lantas belum ada penerbitan tentang perbandingan prestasi penandaan golongan kata (GK) mengguna kaedah Model Markov Tersembunyi (MMT), Entropi Maksimum (EM) dan Mesin Vektor Sokongan (MVS), terutamanya bagi melihat kesan morfologi Bahasa Melayu ke atas penandaan GK bagi perkataan anu. Kertas ini bertujuan membentang penilaian ketiga-tiga kaedah tersebut ke atas Bahasa Melayu. Tiga alatan penanda GK diguna yakni TnT mewakili MMT, MaxEnt mewakili EM dan SVMTool mewakili MVS. Bagi melengkapi latihan dan ujian bagi ketiga-tiga alatan tersebut, usaha menganotasi korpus Bahasa Melayu bagi domain kesihatan dilakukan. Alatan TnT diubah suai untuk memasukkan fitur imbuhan awalan serta apitan. Keputusan bagi seluruh eksperimen menunjukkan prestasi SVMTool mengatasi TnT dan MaxEnt bagi kejituan keseluruhan (99.23% untuk SVMTool, 94% untuk TnT dan 96% untuk MaxEnt) serta kejituan penandaan perkataan anu (96.78% untuk SVMTool, 67% untuk TnT dan 86.23% untuk MaxEnt). Keupayaan MaxEnt pula mengatasi TnT bagi kejituan keseluruhan serta kejituan penandaan perkataan anu. Ketepatan penandaan perkataan anu sebanyak 96.78% oleh SVMTool, menjadikan alatan tersebut sebagai yang tebaik pada ketika ini dalam penandaan GK Bahasa Melayu bagi domain spesifik.
format Article
author Hassan Mohamed,
Nazlia Omar,
Mohd. Juzaiddin Ab. Aziz,
spellingShingle Hassan Mohamed,
Nazlia Omar,
Mohd. Juzaiddin Ab. Aziz,
Malay part of speech tagger: a comparative study on tagging tools
author_facet Hassan Mohamed,
Nazlia Omar,
Mohd. Juzaiddin Ab. Aziz,
author_sort Hassan Mohamed,
title Malay part of speech tagger: a comparative study on tagging tools
title_short Malay part of speech tagger: a comparative study on tagging tools
title_full Malay part of speech tagger: a comparative study on tagging tools
title_fullStr Malay part of speech tagger: a comparative study on tagging tools
title_full_unstemmed Malay part of speech tagger: a comparative study on tagging tools
title_sort malay part of speech tagger: a comparative study on tagging tools
publisher Penerbit Universiti Kebangsaan Malaysia
publishDate 2015
url http://journalarticle.ukm.my/8851/1/8326-23713-1-PB.pdf
http://journalarticle.ukm.my/8851/
http://ejournal.ukm.my/apjitm/issue/view/609
_version_ 1643737591960305664