การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน
วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2552
Saved in:
Main Author: | |
---|---|
Other Authors: | |
Format: | Theses and Dissertations |
Language: | Thai |
Published: |
จุฬาลงกรณ์มหาวิทยาลัย
2012
|
Subjects: | |
Online Access: | http://cuir.car.chula.ac.th/handle/123456789/16870 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Institution: | Chulalongkorn University |
Language: | Thai |
id |
th-cuir.16870 |
---|---|
record_format |
dspace |
spelling |
th-cuir.168702012-03-12T11:01:11Z การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน Noise reduction in Thai-OCR using semi-supervised learning นรีพร พิรุฬห์ทรัพย์ สุกรี สินธุภิญโญ จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ ภาษาไทย -- ตัวอักษร การประมวลผลภาพ การรู้จำอักขระ (คอมพิวเตอร์) นิวรัลเน็ตเวิร์ค (คอมพิวเตอร์) วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2552 ตัวอักษรไทยเป็นหนึ่งในตัวอักษรที่มีความซับซ้อนมากที่สุด เนื่องจากการวิธีการเขียนตัวภาษาไทยนั้นตัวอักษรของตัวอักษรมีได้หลายระดับ นอกจากนั้นตัวอักษรภาษาไทยยังประกอบไปด้วยตัวอักษรขนาดเล็ก ๆ จำนวนมาก และในภาษาไทยไม่มีสัญลักษณ์ในการแบ่งคำหรือประโยค ด้วยลักษณะเฉพาะของภาษาไทยเหล่านี้ การนำวิธีการลดสิ่งรบกวนที่มีผู้นำเสนอและทดสอบว่ามีประสิทธิภาพที่ดีในการลดสิ่งรบกวนในเอกสารภาษาอังกฤษมาใช้กับเอกสารภาษาไทยกลับได้ผลลัพธ์ที่ไม่ดีนัก ดังนั้นในงานวิจัยนี้จึงเสนอวิธีการลดสิ่งรบกวนซึ่งเหมาะสมกับเอกสารภาษาไทยโดยใช้การเรียนรู้ของเครื่องแบบกึ่งสอน ผลลัพธ์ที่ได้จากการทดลองพบว่าวิธีที่นำเสนอนี้ไม่เพียงแต่สามารถลดสิ่งรบกวนในเอกสารอย่างเห็นได้ชัด ยังพบว่าตัวอักษรภาษาไทยที่มีขนาดเล็กนั้นไม่ถูกลบออกไปจากเอกสารไปด้วย Thai characters are one of the most complex characters since they can be aligned into different levels, are composed of a number of small components, and have no word-separating symbols. Hence, noise reduction algorithms which are successfully applied to English documents might yield a poor result from Thai documents. This paper thus proposes a novel noise reduction method that is suitable for Thai documents using a semi-supervised learning approach. Results obtained from our method shows that our method does not only obviously remove the noise but also preserve small components of Thai characters as well 2012-02-12T04:30:34Z 2012-02-12T04:30:34Z 2552 Thesis http://cuir.car.chula.ac.th/handle/123456789/16870 th จุฬาลงกรณ์มหาวิทยาลัย 3093166 bytes application/pdf application/pdf จุฬาลงกรณ์มหาวิทยาลัย |
institution |
Chulalongkorn University |
building |
Chulalongkorn University Library |
country |
Thailand |
collection |
Chulalongkorn University Intellectual Repository |
language |
Thai |
topic |
ภาษาไทย -- ตัวอักษร การประมวลผลภาพ การรู้จำอักขระ (คอมพิวเตอร์) นิวรัลเน็ตเวิร์ค (คอมพิวเตอร์) |
spellingShingle |
ภาษาไทย -- ตัวอักษร การประมวลผลภาพ การรู้จำอักขระ (คอมพิวเตอร์) นิวรัลเน็ตเวิร์ค (คอมพิวเตอร์) นรีพร พิรุฬห์ทรัพย์ การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน |
description |
วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2552 |
author2 |
สุกรี สินธุภิญโญ |
author_facet |
สุกรี สินธุภิญโญ นรีพร พิรุฬห์ทรัพย์ |
format |
Theses and Dissertations |
author |
นรีพร พิรุฬห์ทรัพย์ |
author_sort |
นรีพร พิรุฬห์ทรัพย์ |
title |
การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน |
title_short |
การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน |
title_full |
การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน |
title_fullStr |
การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน |
title_full_unstemmed |
การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน |
title_sort |
การลดสิ่งรบกวนในไทยโอซีอาร์โดยการเรียนรู้แบบกึ่งสอน |
publisher |
จุฬาลงกรณ์มหาวิทยาลัย |
publishDate |
2012 |
url |
http://cuir.car.chula.ac.th/handle/123456789/16870 |
_version_ |
1681412349416701952 |