Model peringkasan teks ekstraktif dwibahasa menggunakan Fitur Kekangan Corak Tekstual
Di dalam era pencarian maklumat digital, sebuah ringkasan yang dijana secara automatik dapat membantu pembaca mendapatkan maklumat penting dan relevan dengan lebih mudah. Sebahagian besar kajian dan set data penanda aras dalam bidang peringkasan teks secara automatik adalah dalam bahasa Inggeris....
Saved in:
Main Authors: | , , |
---|---|
Format: | Article |
Language: | English |
Published: |
Penerbit Universiti Kebangsaan Malaysia
2020
|
Online Access: | http://journalarticle.ukm.my/15722/1/38507-134991-1-PB.pdf http://journalarticle.ukm.my/15722/ http://ejournals.ukm.my/gema/issue/view/1304 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Institution: | Universiti Kebangsaan Malaysia |
Language: | English |
Summary: | Di dalam era pencarian maklumat digital, sebuah ringkasan yang dijana secara automatik dapat
membantu pembaca mendapatkan maklumat penting dan relevan dengan lebih mudah.
Sebahagian besar kajian dan set data penanda aras dalam bidang peringkasan teks secara
automatik adalah dalam bahasa Inggeris. Justeru itu, terdapat keperluan kajian dalam bahasa
Melayu agar potensi dalam bidang ini lebih kompetitif. Kajian ini juga menyoroti masalah
dalam mengenal pasti dan menjana maklumat penting dalam penyediaan ringkasan ekstraktif.
Ini kerana model perwakilan teks yang sedia ada seperti BOW mempunyai kelemahan dalam
perwakilan semantik yang kurang tepat dan model N-gram pula mempunyai isu penghasilan
dimensi vektor kata yang sangat tinggi. Dalam kajian ini, sebuah model peringkasan teks
dwibahasa dinamakan MYTextSumBASIC telah dibangunkan untuk menghasilan ringkasan
ekstraktif secara automatik dalam versi bahasa Melayu dan bahasa Inggeris. Model
MYTextSumBASIC ini menggunakan model perwakilan teks dikenali sebagai FASP yang
telah diimprovisasi dengan menggunakan tiga Fitur Kekangan Corak Tekstual iaitu kekangan
item kata, kekangan kata urutan bersebelahan dan kekangan saiz urutan. Terdapat tiga fasa
utama dalam rangka kerja model MYTextSumBASIC iaitu pembangunan korpus ringkasan
bahasa Melayu, pembangunan model MYTextSumBASIC menggunakan perwakilan FASP
dan penilaian ringkasan. Dalam fasa penilaian, dengan menggunakan 100 wacana berita bahasa
Melayu, prestasi ringkasan yang dihasilkan secara automatik oleh MYTextSumBASIC telah
mengatasi ringkasan dari model Baseline (Lead) dan OTS dengan nilai purata tertinggi bagi
dapatan semula (R) ialah 0.5849, kejituan (P) ialah 0.5736 dan skor-F (Fm) ialah 0.5772. Bagi
penilaian secara manual oleh pakar bahasa, kaedah MYTextSumBASIC telah menghasilkan
skor kebolehbacaan sebanyak 4.1 dan 3.87 untuk skor isi kandungan ringkasan yang dihasilkan
menggunakan set data rawak. Eksperimen selanjutnya menggunakan set data tanda aras bahasa
Inggeris DUC 2002 sebanyak 102 wacana berita juga telah menunjukkan model
MYTextSumBASIC telah mengatasi sistem terbaik dan tercorot dalam perbandingan tersebut
dengan nilai purata dapatan semula ROUGE-1 (0.43896) dan ROUGE-2 (0.19918).
Kesimpulan dari penilaian ringkasan dapat merumuskan bahawa kaedah perwakilan teks FASP
yang digunakan sebagai fitur oleh MYTextSumBASIC boleh diaplikasi untuk teks dwibahasa
dengan prestasi kompetitif melalui perbandingan dengan model peringkasan teks bahasa
Inggeris yang sedia ada. |
---|