การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน

วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2552

Saved in:
Bibliographic Details
Main Author: นรีพร พิรุฬห์ทรัพย์
Other Authors: สุกรี สินธุภิญโญ
Format: Theses and Dissertations
Language:Thai
Published: จุฬาลงกรณ์มหาวิทยาลัย 2012
Subjects:
Online Access:http://cuir.car.chula.ac.th/handle/123456789/16870
Tags: Add Tag
No Tags, Be the first to tag this record!
Institution: Chulalongkorn University
Language: Thai
id th-cuir.16870
record_format dspace
spelling th-cuir.168702012-03-12T11:01:11Z การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน Noise reduction in Thai-OCR using semi-supervised learning นรีพร พิรุฬห์ทรัพย์ สุกรี สินธุภิญโญ จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ ภาษาไทย -- ตัวอักษร การประมวลผลภาพ การรู้จำอักขระ (คอมพิวเตอร์) นิวรัลเน็ตเวิร์ค (คอมพิวเตอร์) วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2552 ตัวอักษรไทยเป็นหนึ่งในตัวอักษรที่มีความซับซ้อนมากที่สุด เนื่องจากการวิธีการเขียนตัวภาษาไทยนั้นตัวอักษรของตัวอักษรมีได้หลายระดับ นอกจากนั้นตัวอักษรภาษาไทยยังประกอบไปด้วยตัวอักษรขนาดเล็ก ๆ จำนวนมาก และในภาษาไทยไม่มีสัญลักษณ์ในการแบ่งคำหรือประโยค ด้วยลักษณะเฉพาะของภาษาไทยเหล่านี้ การนำวิธีการลดสิ่งรบกวนที่มีผู้นำเสนอและทดสอบว่ามีประสิทธิภาพที่ดีในการลดสิ่งรบกวนในเอกสารภาษาอังกฤษมาใช้กับเอกสารภาษาไทยกลับได้ผลลัพธ์ที่ไม่ดีนัก ดังนั้นในงานวิจัยนี้จึงเสนอวิธีการลดสิ่งรบกวนซึ่งเหมาะสมกับเอกสารภาษาไทยโดยใช้การเรียนรู้ของเครื่องแบบกึ่งสอน ผลลัพธ์ที่ได้จากการทดลองพบว่าวิธีที่นำเสนอนี้ไม่เพียงแต่สามารถลดสิ่งรบกวนในเอกสารอย่างเห็นได้ชัด ยังพบว่าตัวอักษรภาษาไทยที่มีขนาดเล็กนั้นไม่ถูกลบออกไปจากเอกสารไปด้วย Thai characters are one of the most complex characters since they can be aligned into different levels, are composed of a number of small components, and have no word-separating symbols. Hence, noise reduction algorithms which are successfully applied to English documents might yield a poor result from Thai documents. This paper thus proposes a novel noise reduction method that is suitable for Thai documents using a semi-supervised learning approach. Results obtained from our method shows that our method does not only obviously remove the noise but also preserve small components of Thai characters as well 2012-02-12T04:30:34Z 2012-02-12T04:30:34Z 2552 Thesis http://cuir.car.chula.ac.th/handle/123456789/16870 th จุฬาลงกรณ์มหาวิทยาลัย 3093166 bytes application/pdf application/pdf จุฬาลงกรณ์มหาวิทยาลัย
institution Chulalongkorn University
building Chulalongkorn University Library
country Thailand
collection Chulalongkorn University Intellectual Repository
language Thai
topic ภาษาไทย -- ตัวอักษร
การประมวลผลภาพ
การรู้จำอักขระ (คอมพิวเตอร์)
นิวรัลเน็ตเวิร์ค (คอมพิวเตอร์)
spellingShingle ภาษาไทย -- ตัวอักษร
การประมวลผลภาพ
การรู้จำอักขระ (คอมพิวเตอร์)
นิวรัลเน็ตเวิร์ค (คอมพิวเตอร์)
นรีพร พิรุฬห์ทรัพย์
การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน
description วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2552
author2 สุกรี สินธุภิญโญ
author_facet สุกรี สินธุภิญโญ
นรีพร พิรุฬห์ทรัพย์
format Theses and Dissertations
author นรีพร พิรุฬห์ทรัพย์
author_sort นรีพร พิรุฬห์ทรัพย์
title การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน
title_short การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน
title_full การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน
title_fullStr การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน
title_full_unstemmed การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน
title_sort การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน
publisher จุฬาลงกรณ์มหาวิทยาลัย
publishDate 2012
url http://cuir.car.chula.ac.th/handle/123456789/16870
_version_ 1681412349416701952