ขั้นตอนวิธีการจัดทำดัชนีสำหรับข้อความไทยที่มีความผิดพลาด

วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2542

Saved in:

Bibliographic Details
Main Author:	วรวัฒน์ วรศิลป์
Other Authors:	สมชาย ประสิทธิ์จูตระกูล
Format:	Theses and Dissertations
Language:	Thai
Published:	จุฬาลงกรณ์มหาวิทยาลัย 2007
Subjects:	ภาษาไทย ดัชนี การค้นข้อสนเทศ
Online Access:	http://cuir.car.chula.ac.th/handle/123456789/4136
Tags:	Add Tag No Tags, Be the first to tag this record!
Institution:	Chulalongkorn University
Language:	Thai

id	th-cuir.4136
record_format	dspace
spelling	th-cuir.41362007-12-19T10:45:30Z ขั้นตอนวิธีการจัดทำดัชนีสำหรับข้อความไทยที่มีความผิดพลาด Indexing algorithm for Thai text with errors วรวัฒน์ วรศิลป์ สมชาย ประสิทธิ์จูตระกูล จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ ภาษาไทย ดัชนี การค้นข้อสนเทศ วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2542 วิทยานิพนธ์ฉบับนี้กล่าวถึงขั้นตอนวิธีการจัดทำดัชนีสำหรับข้อความไทยที่มีความผิดพลาด โดยมีจุดประสงค์ในการทำให้ดัชนีมีความสมบูรณ์มากขึ้นด้วยการเพิ่มคำที่ถูกต้องเข้าไปในดัชนี ในกรณีที่ข้อความที่นำมาทำดัชนีมีความผิดพลาดปนอยู่ การจัดทำดัชนีที่นำเสนอนี้อาศัยคุณสมบัติ "ความเฉพาะตัว" ของสตริงซึ่งคือ จำนวนครั้งของสตริงที่ปรากฏเป็นส่วนหนึ่งของคำในพจนานุกรม ขั้นตอนวิธีการจัดทำดัชนีแบ่งออกเป็นสามขั้นตอนคือ (1) หารายการของสตริงย่อยของข้อความที่ประกอบกันเป็นข้อความเดิมได้ โดยมีผลรวมของค่าของฟังก์ชัน (ที่มีค่าแปรตามค่าเฉพาะตัว) น้อยที่สุด (2) หาสตริงย่อยจากผลลัพธ์ที่ได้ในขั้นตอนแรกที่มีโอกาสสูงที่จะเกิดจากความผิดพลาดในข้อความ โดยพิจารณาจากค่าความเฉพาะตัวของสตริงย่อยที่เกินเกณฑ์ที่กำหนดไว้ และ (3) หาคำในพจนานุกรมที่ใกล้เคียงกับคำหาได้จากการรวมสตริงย่อยของผลลัพธ์ในขั้นตอนที่สองกับสตริงข้างเคียงในข้อความ มาเป็นคำเพิ่มเติมในการจัดทำดัชนี จากผลการทดลองพบว่าสามารถเพิ่มความสมบูรณ์ให้กับดัชนีเดิมซึ่งไม่พิจารณาความผิดพลาดจาก 87% เป็น 97% ในขณะที่ลดความแม่นยำของดัชนีเดิมจาก 83% ลงเป็น 60% This thesis presents an indexing algorithm for Thai text with errors. The algorithm utilizes string's "uniqueness" property which is defined to be the number of times that string appear as parts words in a dictionary. There are three steps in the algorithm. First, we find a list of substrings which can be re-assembled to the original text and minimizes a function of substring uniquenesses. Second substrings of the list potentially caused by error are identified. This can be done by comparing a function of substring uniqueness to a preset threshold. Last, words in the dictionary which approximately match strings obtained by concatenating the potentially error-caused substrings and adjacent substrings are added in the index list. Experimental results showed that this algorithm can improve index completeness from 87% to 94% whiles decrease index precision from 83% to 60% 2007-09-18T02:25:26Z 2007-09-18T02:25:26Z 2542 Thesis 9743346309 http://cuir.car.chula.ac.th/handle/123456789/4136 th จุฬาลงกรณ์มหาวิทยาลัย 6216110 bytes application/pdf application/pdf จุฬาลงกรณ์มหาวิทยาลัย
institution	Chulalongkorn University
building	Chulalongkorn University Library
country	Thailand
collection	Chulalongkorn University Intellectual Repository
language	Thai
topic	ภาษาไทย ดัชนี การค้นข้อสนเทศ
spellingShingle	ภาษาไทย ดัชนี การค้นข้อสนเทศ วรวัฒน์ วรศิลป์ ขั้นตอนวิธีการจัดทำดัชนีสำหรับข้อความไทยที่มีความผิดพลาด
description	วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2542
author2	สมชาย ประสิทธิ์จูตระกูล
author_facet	สมชาย ประสิทธิ์จูตระกูล วรวัฒน์ วรศิลป์
format	Theses and Dissertations
author	วรวัฒน์ วรศิลป์
author_sort	วรวัฒน์ วรศิลป์
title	ขั้นตอนวิธีการจัดทำดัชนีสำหรับข้อความไทยที่มีความผิดพลาด
title_short	ขั้นตอนวิธีการจัดทำดัชนีสำหรับข้อความไทยที่มีความผิดพลาด
title_full	ขั้นตอนวิธีการจัดทำดัชนีสำหรับข้อความไทยที่มีความผิดพลาด
title_fullStr	ขั้นตอนวิธีการจัดทำดัชนีสำหรับข้อความไทยที่มีความผิดพลาด
title_full_unstemmed	ขั้นตอนวิธีการจัดทำดัชนีสำหรับข้อความไทยที่มีความผิดพลาด
title_sort	ขั้นตอนวิธีการจัดทำดัชนีสำหรับข้อความไทยที่มีความผิดพลาด
publisher	จุฬาลงกรณ์มหาวิทยาลัย
publishDate	2007
url	http://cuir.car.chula.ac.th/handle/123456789/4136
_version_	1681409612965740544

ขั้นตอนวิธีการจัดทำดัชนีสำหรับข้อความไทยที่มีความผิดพลาด

Similar Items