Extending language models with term proximity weight to utilize term set relation in information retrieval

Thesis (M.Sc.)--Chulalongkorn University, 2006

Saved in:
Bibliographic Details
Main Author: Sompong Kittinaradorn
Other Authors: Athasit Surarerks
Format: Theses and Dissertations
Language:English
Published: Chulalongkorn University 2008
Subjects:
Online Access:http://cuir.car.chula.ac.th/handle/123456789/8074
Tags: Add Tag
No Tags, Be the first to tag this record!
Institution: Chulalongkorn University
Language: English
id th-cuir.8074
record_format dspace
institution Chulalongkorn University
building Chulalongkorn University Library
country Thailand
collection Chulalongkorn University Intellectual Repository
language English
topic Information retrieval
spellingShingle Information retrieval
Sompong Kittinaradorn
Extending language models with term proximity weight to utilize term set relation in information retrieval
description Thesis (M.Sc.)--Chulalongkorn University, 2006
author2 Athasit Surarerks
author_facet Athasit Surarerks
Sompong Kittinaradorn
format Theses and Dissertations
author Sompong Kittinaradorn
author_sort Sompong Kittinaradorn
title Extending language models with term proximity weight to utilize term set relation in information retrieval
title_short Extending language models with term proximity weight to utilize term set relation in information retrieval
title_full Extending language models with term proximity weight to utilize term set relation in information retrieval
title_fullStr Extending language models with term proximity weight to utilize term set relation in information retrieval
title_full_unstemmed Extending language models with term proximity weight to utilize term set relation in information retrieval
title_sort extending language models with term proximity weight to utilize term set relation in information retrieval
publisher Chulalongkorn University
publishDate 2008
url http://cuir.car.chula.ac.th/handle/123456789/8074
_version_ 1681409992235679744
spelling th-cuir.80742008-09-18T10:17:44Z Extending language models with term proximity weight to utilize term set relation in information retrieval การขยายตัวแบบภาษาโดยใช้น้ำหนักความใกล้ชิดของคำเพื่อหาความสัมพันธ์ของชุดคำในการค้นคืนสารสนเทศ Sompong Kittinaradorn Athasit Surarerks Nakornthip Prompoon Chulalongkorn University. Faculty of Engineering Information retrieval Thesis (M.Sc.)--Chulalongkorn University, 2006 This research work is aimed at improving the performance of ad hoc information retrieval via a novel method to compute query term weights on the assumption that terms can be grouped by concepts, as against the conventional practice that terms are independent of one another. The new method is based on the approach that the importance of a term is determined by its contribution to the key concept term of the text. The research introduces a heuristics to group terms by concepts. To visualize it, a graph is plotted with the ordered term positions of a query on the x-axis and the well-known idf weights (Inverse Document Frequency) on the y-axis. Peak terms are classified as concept terms if their idf weights are above a threshold. The highest peak term is the key concept term. Each peak terms are supported by satellite terms on both sides. Between two adjacent peak terms, the term with the lowest idf weight is used to mark a boundary of term sets. Computation is a tree-stepped process: the first to compute the importance of the concept term to the distinct key concept term, the second to estimate the importance of a term in reference to the concept term of the same term set, and the last to compute the importance of the term to the key concept. The calculated weights differ from the idf weight in that the former reflects term importance in the context of a reference concept, i.e. it is a local property, whereas the idf weight is a global property derived from a document collection. In this way, the proposed method can be seen as a context-dependent or concept-determined importance. To test the efficiency of the new term weighting scheme, an experimental design is devised on the hypothesis that a query with concept-dependent weights for its terms would yield better ad hoc information retrieval results. Experiments are conducted within the language modeling framework using query likelihood scoring method and Dirichlet prior smoothing technique. They produce convincing gains for the new approach compared to the baseline and the idf-based results. Improvements are significantly positive on all accounts and are particularly outstanding in the precision area. Using TREC 7 and TREC 8 query sets, the experiments report a 16.12% and 15.74% increases in mean average precision (MAP) respectively. The new method also outperforms the idf-based scheme by 9.10%, and 13.34% for TREC 7 and TREC 8 query sets respectively. งานวิทยานิพนธ์นี้มุ่งที่จะเพิ่มประสิทธิภาพในการค้นคืนสารสนเทศโดยใช้แนวทางใหม่ในการคำนวณหาน้ำหนักของคำในคำถาม (Query) ที่ส่งไปยังระบบค้นคืนสารสนเทศที่ใช้ตัวแบบภาษา (Language model) งานชิ้นนี้เสนอแนวคิดให้เพิ่มน้ำหนักของคำตามความสำคัญของคำนั้นที่มีต่อประเด็นหลักในคำถาม ตามแนวคิดดังกล่าว ข้อความหนึ่งจะประกอบด้วยชุดของลำดับคำ และแต่ละชุดคำจะประกอบกันเป็นประเด็นหนึ่งโดยมีคำที่มีน้ำหนักสูงสุดในกลุ่มเป็นตัวแทนของชุดคำนั้น ตัวแทนของชุดคำจะประกอบกันเพื่อเสริมประเด็นใหญ่ประเด็นเดียวของประโยคหรือข้อความ งานวิจัยนี้เสนอหลักเกณฑ์ในการแบ่งคำเป็นชุดคำโดยอาศัยกราฟเป็นเครื่องมือ กำหนดให้ลำดับของคำในข้อความเป็นค่าตามแกนนอนและน้ำหนักคำที่คำนวณแบบไอดีเอฟ (Inverse document frequency: IDF) เป็นค่าตามแนวตั้ง คำที่เป็นจุดยอดบนเส้นกราฟและอยู่เหนือเส้นกำหนดค่าขั้นตำ (Threshold) จะถือว่าเป็นคำตัวแทนประเด็น และแต่ละคำตัวแทนจะมีคำที่อยู่ข้างเคียงเป็นสมาชิกของชุดคำ คำที่มีน้ำหนักน้อยสุดระหว่างยอดสองยอดจะเป็นคำที่แบ่งชุดคำ งานวิจัยนี้นำเสนอสูตรในการคำนวณหาน้ำหนักของคำโดยมีขั้นตอนหลักสามขั้นตอน ขั้นตอนแรก คำนวณหาความสำคัญของคำตัวแทนของประเด็นที่มีต่อประเด็นใหญ่ ขั้นต่อมาคำนวณหาความสำคัญของคำที่มีต่อคำตัวแทนของประเด็นในชุดคำเดียวกัน ขั้นตอนสุดท้ายใช้ค่าที่ได้จากการคำนวณในสองขั้นตอนแรกคำนวณความสำคัญของคำที่มีต่อประเด็นใหญ่ การทดลองนำสูตรดังกล่าวมาใช้กับฐานข้อมูลทดลองของเทร็ค (Text retrieval conference: TREC) ให้ผลเป็นที่น่าพึงพอใจเมื่อเทียบกับผลการค้นคืนปกติ สูตรที่นำเสนอเพิ่มประสิทธิภาพในเชิงความแม่นยำเฉลี่ย (Mean average precision) 16.12 และ 15.74 เปอร์เซ็นสำหรับชุดคำถามที่เจ็ดและแปดตามลำดับ (TREC 7, TREC 8) 2008-09-18T10:17:44Z 2008-09-18T10:17:44Z 2006 Thesis http://cuir.car.chula.ac.th/handle/123456789/8074 en Chulalongkorn University 2132037 bytes application/pdf application/pdf Chulalongkorn University