การระบุและแก้ไขส่วนที่แตกต่างของบทถอดความระหว่างเสียงบันทึกการประชุมรัฐสภาไทยและรายงานการประชุม

วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2555

Saved in:

Bibliographic Details
Main Author:	ณัฐณรงค์ พ่วงศรี
Other Authors:	อติวงศ์ สุชาโต
Format:	Theses and Dissertations
Language:	Thai
Published:	จุฬาลงกรณ์มหาวิทยาลัย 2013
Subjects:	การรู้จำเสียงพูดอัตโนมัติ การประชุมรัฐสภา Automatic speech recognition Legislative bodies > Thailand
Online Access:	http://cuir.car.chula.ac.th/handle/123456789/37618 http://doi.org/10.14457/CU.the.2012.1171
Tags:	Add Tag No Tags, Be the first to tag this record!
Institution:	Chulalongkorn University
Language:	Thai

id	th-cuir.37618
record_format	dspace
spelling	th-cuir.376182019-10-04T06:16:32Z การระบุและแก้ไขส่วนที่แตกต่างของบทถอดความระหว่างเสียงบันทึกการประชุมรัฐสภาไทยและรายงานการประชุม Detecting and correcting transcription discrepancies between Thai parliament meeting speech utterances and their official meeting reports ณัฐณรงค์ พ่วงศรี อติวงศ์ สุชาโต โปรดปราน บุณยพุกกณะ ชัย วุฒิวิวัฒน์ชัย จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ การรู้จำเสียงพูดอัตโนมัติ การประชุมรัฐสภา Automatic speech recognition Legislative bodies -- Thailand วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2555 ข้อมูลเสียงพูด (Speech utterance) และคำบรรยายเสียง (Transcription) ที่มีความถูกต้องเป็นส่วนสำคัญที่ใช้ ในการพัฒนาระบบรู้จำเสียงพูดอัตโนมัติ (Automatic speech recognition) โดยเฉพาะอย่างยิ่งกับระบบที่นำไปใช้ในการถอดความการประชุมรัฐสภา สำหรับในประเทศไทยนั้น สำนักงานเลขาธิการสภาผู้แทนราษฏร ได้จัดทำรายงานการประชุมและจัดเก็บข้อมูลเสียงบันทึกระหว่างการประชุมไว้ตลอดช่วงสมัยประชุม ทำให้มีข้อมูลดังกล่าวเป็นจำนวนมากเพียงพอที่จะนำมาใช้ในการพัฒนาระบบรู้จำเสียงพูดอัตโนมัติอย่างไรก็ตามเนื่องจากข้อมูลทั้งสองส่วนยังมีความไม่สอดคล้องกันเกิดขึ้นในบางจุด ดังนั้น วิทยานิพนธ์นี้จึงนำเสนอวิธีในการระบุส่วนที่แตกต่างกันที่เกิดขึ้น กฎที่ได้จากการวิเคราะห์ หลักเกณฑ์การจัดทำรายงานการประชุมสภา และส่วนที่แตกต่างกันที่เกิดขึ้นจริงถูกนำมาใช้วิเคราะห์ประโยคจากรายงานการประชุม เพื่อสร้างประโยคสมมติฐานขึ้นมาเพิ่มเติม จากนั้น ประโยคจากรายงานการประชุมและประโยคสมมติฐานจะถูกนำไปผ่านกระบวนการปรับแนวเสียง (Force alignment) เพื่อประเมินความน่าจะเป็นของแต่ละประโยคซึ่งประโยคที่มีความน่าจะเป็นสูงที่สุด จะถูกเลือกเป็นคำบรรยายเสียงสำหรับข้อมูลเสียงพูดสำหรับใช้ใน กระบวนการระบุส่วนที่ไม่ตรงกัน จากการทดลองพบว่าระบบที่พัฒนาขึ้น มีค่าความแม่นยำในการระบุส่วนที่แตกต่างกัน 72.6% และคำบรรยายเสียงที่ได้จากประโยคที่มีความน่าจะเป็นสูงที่สุด มีความถูกต้องตรงกับข้อมูลเสียงพูดในระดับหน่วยเสียงย่อ 96.5% โดยเมื่อเปรียบเทียบกับคำบรรยายเสียงที่ได้จากรายงานการประชุมพบว่า สามารถลดความไม่ตรงกันได้ถึง 26.8% Speech utterance and their accurate transcriptions are essential to train acoustic models of modern automatic speech recognition (ASR) especially for transcribing parliament meeting speech. In Thai, there are many speech data and their official meeting reports sufficient for developing good acoustic models. However, most of existing reports are not consistent with their corresponding utterances because of discrepancies. This article proposes a method for automatically detecting locations of the discrepancies. A process to generate alternative hypotheses supplied to a forced-alignment procedure can be done by applying rules derived from the standard transcript guidelines for Thai parliament stenographer and patterns of discrepancies to texts obtained from the reports. The forced-alignment procedure selects the best hypothesis to be the word-for-word transcription for each speech utterance. The accuracy to detect syllabic discrepancies is 72.6% while the accuracy to falsely detect correct syllables is kept minimal. With the proposed method, the word-for-word phonemic transcription accuracy of 96.5% is achieved due to the transcription error rate of word-for-word phonemic transcription from the best hypothesis is relatively reduced 26.8% compared to the transcription from official meeting report. 2013-12-31T14:39:51Z 2013-12-31T14:39:51Z 2555 Thesis http://cuir.car.chula.ac.th/handle/123456789/37618 10.14457/CU.the.2012.1171 th http://doi.org/10.14457/CU.the.2012.1171 จุฬาลงกรณ์มหาวิทยาลัย application/pdf ไทย จุฬาลงกรณ์มหาวิทยาลัย
institution	Chulalongkorn University
building	Chulalongkorn University Library
continent	Asia
country	Thailand Thailand
content_provider	Chulalongkorn University Library
collection	Chulalongkorn University Intellectual Repository
language	Thai
topic	การรู้จำเสียงพูดอัตโนมัติ การประชุมรัฐสภา Automatic speech recognition Legislative bodies -- Thailand
spellingShingle	การรู้จำเสียงพูดอัตโนมัติ การประชุมรัฐสภา Automatic speech recognition Legislative bodies -- Thailand ณัฐณรงค์ พ่วงศรี การระบุและแก้ไขส่วนที่แตกต่างของบทถอดความระหว่างเสียงบันทึกการประชุมรัฐสภาไทยและรายงานการประชุม
description	วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2555
author2	อติวงศ์ สุชาโต
author_facet	อติวงศ์ สุชาโต ณัฐณรงค์ พ่วงศรี
format	Theses and Dissertations
author	ณัฐณรงค์ พ่วงศรี
author_sort	ณัฐณรงค์ พ่วงศรี
title	การระบุและแก้ไขส่วนที่แตกต่างของบทถอดความระหว่างเสียงบันทึกการประชุมรัฐสภาไทยและรายงานการประชุม
title_short	การระบุและแก้ไขส่วนที่แตกต่างของบทถอดความระหว่างเสียงบันทึกการประชุมรัฐสภาไทยและรายงานการประชุม
title_full	การระบุและแก้ไขส่วนที่แตกต่างของบทถอดความระหว่างเสียงบันทึกการประชุมรัฐสภาไทยและรายงานการประชุม
title_fullStr	การระบุและแก้ไขส่วนที่แตกต่างของบทถอดความระหว่างเสียงบันทึกการประชุมรัฐสภาไทยและรายงานการประชุม
title_full_unstemmed	การระบุและแก้ไขส่วนที่แตกต่างของบทถอดความระหว่างเสียงบันทึกการประชุมรัฐสภาไทยและรายงานการประชุม
title_sort	การระบุและแก้ไขส่วนที่แตกต่างของบทถอดความระหว่างเสียงบันทึกการประชุมรัฐสภาไทยและรายงานการประชุม
publisher	จุฬาลงกรณ์มหาวิทยาลัย
publishDate	2013
url	http://cuir.car.chula.ac.th/handle/123456789/37618 http://doi.org/10.14457/CU.the.2012.1171
_version_	1724630131207569408

การระบุและแก้ไขส่วนที่แตกต่างของบทถอดความระหว่างเสียงบันทึกการประชุมรัฐสภาไทยและรายงานการประชุม

Similar Items