Pendekatan teknik pengecaman entiti nama bagi capaian berita jenayah bahasa Melayu
Pengekstrakan maklumat merupakan satu proses bagi mendapatkan konsep penting dalam mewakili kandungan teks dari dokumen yang tidak berstruktur. Pada masa kini, terdapat banyak dokumen yang tidak berstruktur seperti teks berita, artikel blog, forum, tweet serta mikro blog dari rangkaian sosial. Do...
Saved in:
Main Authors: | , |
---|---|
Format: | Article |
Language: | English |
Published: |
Penerbit Universiti Kebangsaan Malaysia
2018
|
Online Access: | http://journalarticle.ukm.my/17668/1/28999-89239-1-PB.pdf http://journalarticle.ukm.my/17668/ https://ejournal.ukm.my/gema/issue/view/1146 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Institution: | Universiti Kebangsaan Malaysia |
Language: | English |
Summary: | Pengekstrakan maklumat merupakan satu proses bagi mendapatkan konsep penting dalam
mewakili kandungan teks dari dokumen yang tidak berstruktur. Pada masa kini, terdapat
banyak dokumen yang tidak berstruktur seperti teks berita, artikel blog, forum, tweet serta
mikro blog dari rangkaian sosial. Dokumen-dokumen ini amat sukar untuk difahami oleh
komputer. Oleh itu, kajian berkaitan pengekstrakan maklumat menjadi sangat penting bagi
mengatasi permasalah ini. Salah satu teknik pengekstrakan yang banyak digunakan ialah
pengecaman entiti nama. Kajian ini dijalankan bagi mengimplementasikan teknik
pengecaman entiti nama dari sumber dokumen berita jenayah bahasa Melayu. Objektif utama
kajian ini adalah untuk membangunkan sistem prototaip model pengekstrakan maklumat
berita jenayah dalam bahasa Melayu dengan menggunakan teknik pengecaman entiti nama
melalui pendekatan berasaskan peraturan. Kajian ini dilakukan dengan mewujudkan korpus
berita jenayah dalam bahasa Melayu yang diperolehi dari sumber arkib berita BERNAMA.
Korpus ini kemudiannya diteliti secara manual oleh pakar bahasa bagi mengecam entiti nama
seperti individu, organisasi, lokasi, tarikh, masa, kewangan, peratusan, jenayah dan senjata.
Dalam masa yang sama, sistem prototaip dibangunkan serta diuji dengan korpus yang sama
dan hasil dari pengujian ini dibandingkan dengan keputusan pakar. Secara keseluruhannya,
ujian sistem prototaip ini menunjukkan hasil yang baik dengan nilai dapatan bagi recall
sebanyak 78.67%, manakala bagi precision ialah sebanyak 71.11% dan F-measure sebanyak
74.7%. Hasil dari kajian ini diharap dapat menyumbang kepada pengetahuan mengenai
keberkesanan teknik pengecaman entiti nama bagi berita jenayah bahasa Melayu dan
seterusnya dapat membantu para penyelidik, polis, peguam serta pihak berkuasa yang terlibat
dalam bidang jenayah menyelesaikan jenayah dengan lebih cepat dan berkesan. |
---|