การรู้จำชื่อเฉพาะภาษาไทย: การใช้แบบจำลองคอนดิชันนอลแรนดอมฟิลด์ส

วิทยานิพนธ์(อ.ม.)---จุฬาลงกรณ์มหาวิทยาลัย, 2553

Saved in:
Bibliographic Details
Main Author: นัชชา ถิระสาโรช
Other Authors: วิโรจน์ อรุณมานะกุล
Format: Theses and Dissertations
Language:Thai
Published: จุฬาลงกรณ์มหาวิทยาลัย 2012
Subjects:
Online Access:http://cuir.car.chula.ac.th/handle/123456789/20802
Tags: Add Tag
No Tags, Be the first to tag this record!
Institution: Chulalongkorn University
Language: Thai
id th-cuir.20802
record_format dspace
spelling th-cuir.208022012-07-17T02:29:05Z การรู้จำชื่อเฉพาะภาษาไทย: การใช้แบบจำลองคอนดิชันนอลแรนดอมฟิลด์ส Thai named entity recognition: the application of conditional random fields models นัชชา ถิระสาโรช วิโรจน์ อรุณมานะกุล จุฬาลงกรณ์มหาวิทยาลัย. คณะอักษรศาสตร์ การรู้จำอักขระ (คอมพิวเตอร์) ภาษาไทย -- หน่วยคำ -- แบบจำลองทางคอมพิวเตอร์ แบบจำลองคอนดิชันนอลแรนดอมฟิลด์ส วิทยานิพนธ์(อ.ม.)---จุฬาลงกรณ์มหาวิทยาลัย, 2553 วิทยานิพนธ์ฉบับนี้มีวัตถุประสงค์เพื่อพัฒนาระบบการรู้จำชื่อเฉพาะภาษาไทยโดยใช้แบบจำลองคอนดิชันนอลแรนดอมฟิลด์สโมเดล (CRFs) และศึกษาเปรียบเทียบประสิทธิภาพของระบบการรู้จำชื่อเฉพาะภาษาไทยระหว่างแบบจำลองที่รับข้อมูลเข้าเป็นพยางค์กับที่รับข้อมูลเข้าเป็นคำ งานวิจัยนี้ใช้คลังข้อมูลข่าวขนาด 367,673 คำ ประกอบด้วยชื่อเฉพาะทั้งหมด 16,179 ชื่อ แบบจำลองที่ใช้คือ CRF++ เวอร์ชัน 0.53 ทั้งระบบที่รับข้อมูลเข้าเป็นคำและพยางค์ใช้คุณสมบัติแบบเดียวกัน ได้แก่ คุณสมบัติรายการชื่อเฉพาะ คุณสมบัติคำย่อ คุณสมบัติคำบริบท คุณสมบัติคำทั่วไป คุณสมบัติค่าทางสถิติ และคุณสมบัติ unigram และ bigram การเรียนรู้ของระบบเป็นแบบ supervised learning คือมีการให้คำตอบในคลังข้อมูลสำหรับฝึกฝน คำตอบที่ใช้มีทั้งหมด 5 แบบ โดยแบบที่ 1 มีข้อมูลขอบเขตของชื่อเฉพาะน้อยที่สุดและแบบที่ 5 มีข้อมูลขอบเขตของชื่อเฉพาะมากที่สุด พบว่าแบบคำตอบที่ให้ข้อมูลมากช่วยให้ประสิทธิภาพของทั้งสองระบบดีกว่าแบบคำตอบที่ให้ข้อมูลน้อย จากผลการทดสอบระบบ พบว่า ประสิทธิภาพของระบบที่ใช้ข้อมูลตัดคำและตัดพยางค์ไม่ต่างกัน โดยมีค่าความถูกต้อง (F-measure) เท่ากัน คือ 81.30% จากคุณสมบัติทั้งหมด พบว่า คุณสมบัติ unigram และ bigram สนับสนุนระบบที่ใช้ข้อมูลตัดพยางค์มากที่สุด และคุณสมบัติรายการชื่อเฉพาะสนับสนุนระบบที่ใช้ข้อมูลตัดคำมากที่สุด เมื่อนำข้อมูลมาผ่านกระบวนการประมวลผลภายหลังแล้ว ช่วยให้ค่าความครบถ้วนของทั้งสองระบบมากขึ้นจากเดิม 77.64% เป็น 80.15% และ 80.06% ในข้อมูลตัดคำและตัดพยางค์ตามลำดับ The main purpose of this study is to develop Thai named entity recognition system using Conditional Random Fields Models (CRFs) as well as comparing the performance of syllable-based system to that of word-based system. This study uses the news corpus of 367,673 words with 16,179 proper names. CRFs model applied in this research is CRF++ 0.53. Both word-based and syllable-based systems use the same set of features, including gazetteer lists, abbreviation, context clues, general words, statistics, and unigram and bigram. Supervised learning is applied to train CRFs. There are 5 patterns of answer given to the systems, the first pattern having the least information of the named entities’ boundaries and the last one having the most information. The results show that the patterns containing more information tend to improve the systems’ performances than those having less information. The testing results show that the performances of word-based and syllable-based systems are not different from each other. The recognition rates (F-measure) of these two systems are 81.30%. From all of the features used, the unigram and bigram support the syllable-based system the most, while the gazetteer lists support the word-based system the most. After post-processing, the recalls of the two systems increase from 77.64% to 80.15% and 80.06% in word-based and syllable-based models respectively. 2012-07-13T14:39:00Z 2012-07-13T14:39:00Z 2553 Thesis http://cuir.car.chula.ac.th/handle/123456789/20802 th จุฬาลงกรณ์มหาวิทยาลัย 1340066 bytes application/pdf application/pdf จุฬาลงกรณ์มหาวิทยาลัย
institution Chulalongkorn University
building Chulalongkorn University Library
country Thailand
collection Chulalongkorn University Intellectual Repository
language Thai
topic การรู้จำอักขระ (คอมพิวเตอร์)
ภาษาไทย -- หน่วยคำ -- แบบจำลองทางคอมพิวเตอร์
แบบจำลองคอนดิชันนอลแรนดอมฟิลด์ส
spellingShingle การรู้จำอักขระ (คอมพิวเตอร์)
ภาษาไทย -- หน่วยคำ -- แบบจำลองทางคอมพิวเตอร์
แบบจำลองคอนดิชันนอลแรนดอมฟิลด์ส
นัชชา ถิระสาโรช
การรู้จำชื่อเฉพาะภาษาไทย: การใช้แบบจำลองคอนดิชันนอลแรนดอมฟิลด์ส
description วิทยานิพนธ์(อ.ม.)---จุฬาลงกรณ์มหาวิทยาลัย, 2553
author2 วิโรจน์ อรุณมานะกุล
author_facet วิโรจน์ อรุณมานะกุล
นัชชา ถิระสาโรช
format Theses and Dissertations
author นัชชา ถิระสาโรช
author_sort นัชชา ถิระสาโรช
title การรู้จำชื่อเฉพาะภาษาไทย: การใช้แบบจำลองคอนดิชันนอลแรนดอมฟิลด์ส
title_short การรู้จำชื่อเฉพาะภาษาไทย: การใช้แบบจำลองคอนดิชันนอลแรนดอมฟิลด์ส
title_full การรู้จำชื่อเฉพาะภาษาไทย: การใช้แบบจำลองคอนดิชันนอลแรนดอมฟิลด์ส
title_fullStr การรู้จำชื่อเฉพาะภาษาไทย: การใช้แบบจำลองคอนดิชันนอลแรนดอมฟิลด์ส
title_full_unstemmed การรู้จำชื่อเฉพาะภาษาไทย: การใช้แบบจำลองคอนดิชันนอลแรนดอมฟิลด์ส
title_sort การรู้จำชื่อเฉพาะภาษาไทย: การใช้แบบจำลองคอนดิชันนอลแรนดอมฟิลด์ส
publisher จุฬาลงกรณ์มหาวิทยาลัย
publishDate 2012
url http://cuir.car.chula.ac.th/handle/123456789/20802
_version_ 1681411914840670208