Model peringkasan teks ekstraktif dwibahasa menggunakan Fitur Kekangan Corak Tekstual

Di dalam era pencarian maklumat digital, sebuah ringkasan yang dijana secara automatik dapat membantu pembaca mendapatkan maklumat penting dan relevan dengan lebih mudah. Sebahagian besar kajian dan set data penanda aras dalam bidang peringkasan teks secara automatik adalah dalam bahasa Inggeris....

Full description

Saved in:

Bibliographic Details
Main Authors:	Suraya Alias, Mohd Shamrie Sainin, Siti Khaotijah Mohammad
Format:	Article
Language:	English
Published:	Penerbit Universiti Kebangsaan Malaysia 2020
Online Access:	http://journalarticle.ukm.my/15722/1/38507-134991-1-PB.pdf http://journalarticle.ukm.my/15722/ http://ejournals.ukm.my/gema/issue/view/1304
Tags:	Add Tag No Tags, Be the first to tag this record!
Institution:	Universiti Kebangsaan Malaysia
Language:	English

id	my-ukm.journal.15722
record_format	eprints
spelling	my-ukm.journal.157222020-11-18T06:44:20Z http://journalarticle.ukm.my/15722/ Model peringkasan teks ekstraktif dwibahasa menggunakan Fitur Kekangan Corak Tekstual Suraya Alias, Mohd Shamrie Sainin, Siti Khaotijah Mohammad, Di dalam era pencarian maklumat digital, sebuah ringkasan yang dijana secara automatik dapat membantu pembaca mendapatkan maklumat penting dan relevan dengan lebih mudah. Sebahagian besar kajian dan set data penanda aras dalam bidang peringkasan teks secara automatik adalah dalam bahasa Inggeris. Justeru itu, terdapat keperluan kajian dalam bahasa Melayu agar potensi dalam bidang ini lebih kompetitif. Kajian ini juga menyoroti masalah dalam mengenal pasti dan menjana maklumat penting dalam penyediaan ringkasan ekstraktif. Ini kerana model perwakilan teks yang sedia ada seperti BOW mempunyai kelemahan dalam perwakilan semantik yang kurang tepat dan model N-gram pula mempunyai isu penghasilan dimensi vektor kata yang sangat tinggi. Dalam kajian ini, sebuah model peringkasan teks dwibahasa dinamakan MYTextSumBASIC telah dibangunkan untuk menghasilan ringkasan ekstraktif secara automatik dalam versi bahasa Melayu dan bahasa Inggeris. Model MYTextSumBASIC ini menggunakan model perwakilan teks dikenali sebagai FASP yang telah diimprovisasi dengan menggunakan tiga Fitur Kekangan Corak Tekstual iaitu kekangan item kata, kekangan kata urutan bersebelahan dan kekangan saiz urutan. Terdapat tiga fasa utama dalam rangka kerja model MYTextSumBASIC iaitu pembangunan korpus ringkasan bahasa Melayu, pembangunan model MYTextSumBASIC menggunakan perwakilan FASP dan penilaian ringkasan. Dalam fasa penilaian, dengan menggunakan 100 wacana berita bahasa Melayu, prestasi ringkasan yang dihasilkan secara automatik oleh MYTextSumBASIC telah mengatasi ringkasan dari model Baseline (Lead) dan OTS dengan nilai purata tertinggi bagi dapatan semula (R) ialah 0.5849, kejituan (P) ialah 0.5736 dan skor-F (Fm) ialah 0.5772. Bagi penilaian secara manual oleh pakar bahasa, kaedah MYTextSumBASIC telah menghasilkan skor kebolehbacaan sebanyak 4.1 dan 3.87 untuk skor isi kandungan ringkasan yang dihasilkan menggunakan set data rawak. Eksperimen selanjutnya menggunakan set data tanda aras bahasa Inggeris DUC 2002 sebanyak 102 wacana berita juga telah menunjukkan model MYTextSumBASIC telah mengatasi sistem terbaik dan tercorot dalam perbandingan tersebut dengan nilai purata dapatan semula ROUGE-1 (0.43896) dan ROUGE-2 (0.19918). Kesimpulan dari penilaian ringkasan dapat merumuskan bahawa kaedah perwakilan teks FASP yang digunakan sebagai fitur oleh MYTextSumBASIC boleh diaplikasi untuk teks dwibahasa dengan prestasi kompetitif melalui perbandingan dengan model peringkasan teks bahasa Inggeris yang sedia ada. Penerbit Universiti Kebangsaan Malaysia 2020-08 Article PeerReviewed application/pdf en http://journalarticle.ukm.my/15722/1/38507-134991-1-PB.pdf Suraya Alias, and Mohd Shamrie Sainin, and Siti Khaotijah Mohammad, (2020) Model peringkasan teks ekstraktif dwibahasa menggunakan Fitur Kekangan Corak Tekstual. GEMA ; Online Journal of Language Studies, 20 (3). pp. 70-95. ISSN 1675-8021 http://ejournals.ukm.my/gema/issue/view/1304
institution	Universiti Kebangsaan Malaysia
building	Tun Sri Lanang Library
collection	Institutional Repository
continent	Asia
country	Malaysia
content_provider	Universiti Kebangsaan Malaysia
content_source	UKM Journal Article Repository
url_provider	http://journalarticle.ukm.my/
language	English
description	Di dalam era pencarian maklumat digital, sebuah ringkasan yang dijana secara automatik dapat membantu pembaca mendapatkan maklumat penting dan relevan dengan lebih mudah. Sebahagian besar kajian dan set data penanda aras dalam bidang peringkasan teks secara automatik adalah dalam bahasa Inggeris. Justeru itu, terdapat keperluan kajian dalam bahasa Melayu agar potensi dalam bidang ini lebih kompetitif. Kajian ini juga menyoroti masalah dalam mengenal pasti dan menjana maklumat penting dalam penyediaan ringkasan ekstraktif. Ini kerana model perwakilan teks yang sedia ada seperti BOW mempunyai kelemahan dalam perwakilan semantik yang kurang tepat dan model N-gram pula mempunyai isu penghasilan dimensi vektor kata yang sangat tinggi. Dalam kajian ini, sebuah model peringkasan teks dwibahasa dinamakan MYTextSumBASIC telah dibangunkan untuk menghasilan ringkasan ekstraktif secara automatik dalam versi bahasa Melayu dan bahasa Inggeris. Model MYTextSumBASIC ini menggunakan model perwakilan teks dikenali sebagai FASP yang telah diimprovisasi dengan menggunakan tiga Fitur Kekangan Corak Tekstual iaitu kekangan item kata, kekangan kata urutan bersebelahan dan kekangan saiz urutan. Terdapat tiga fasa utama dalam rangka kerja model MYTextSumBASIC iaitu pembangunan korpus ringkasan bahasa Melayu, pembangunan model MYTextSumBASIC menggunakan perwakilan FASP dan penilaian ringkasan. Dalam fasa penilaian, dengan menggunakan 100 wacana berita bahasa Melayu, prestasi ringkasan yang dihasilkan secara automatik oleh MYTextSumBASIC telah mengatasi ringkasan dari model Baseline (Lead) dan OTS dengan nilai purata tertinggi bagi dapatan semula (R) ialah 0.5849, kejituan (P) ialah 0.5736 dan skor-F (Fm) ialah 0.5772. Bagi penilaian secara manual oleh pakar bahasa, kaedah MYTextSumBASIC telah menghasilkan skor kebolehbacaan sebanyak 4.1 dan 3.87 untuk skor isi kandungan ringkasan yang dihasilkan menggunakan set data rawak. Eksperimen selanjutnya menggunakan set data tanda aras bahasa Inggeris DUC 2002 sebanyak 102 wacana berita juga telah menunjukkan model MYTextSumBASIC telah mengatasi sistem terbaik dan tercorot dalam perbandingan tersebut dengan nilai purata dapatan semula ROUGE-1 (0.43896) dan ROUGE-2 (0.19918). Kesimpulan dari penilaian ringkasan dapat merumuskan bahawa kaedah perwakilan teks FASP yang digunakan sebagai fitur oleh MYTextSumBASIC boleh diaplikasi untuk teks dwibahasa dengan prestasi kompetitif melalui perbandingan dengan model peringkasan teks bahasa Inggeris yang sedia ada.
format	Article
author	Suraya Alias, Mohd Shamrie Sainin, Siti Khaotijah Mohammad,
spellingShingle	Suraya Alias, Mohd Shamrie Sainin, Siti Khaotijah Mohammad, Model peringkasan teks ekstraktif dwibahasa menggunakan Fitur Kekangan Corak Tekstual
author_facet	Suraya Alias, Mohd Shamrie Sainin, Siti Khaotijah Mohammad,
author_sort	Suraya Alias,
title	Model peringkasan teks ekstraktif dwibahasa menggunakan Fitur Kekangan Corak Tekstual
title_short	Model peringkasan teks ekstraktif dwibahasa menggunakan Fitur Kekangan Corak Tekstual
title_full	Model peringkasan teks ekstraktif dwibahasa menggunakan Fitur Kekangan Corak Tekstual
title_fullStr	Model peringkasan teks ekstraktif dwibahasa menggunakan Fitur Kekangan Corak Tekstual
title_full_unstemmed	Model peringkasan teks ekstraktif dwibahasa menggunakan Fitur Kekangan Corak Tekstual
title_sort	model peringkasan teks ekstraktif dwibahasa menggunakan fitur kekangan corak tekstual
publisher	Penerbit Universiti Kebangsaan Malaysia
publishDate	2020
url	http://journalarticle.ukm.my/15722/1/38507-134991-1-PB.pdf http://journalarticle.ukm.my/15722/ http://ejournals.ukm.my/gema/issue/view/1304
_version_	1684654292875608064

Model peringkasan teks ekstraktif dwibahasa menggunakan Fitur Kekangan Corak Tekstual

Similar Items