An Algorithm for identifying, extracting and converting a table structure from a document inage into LaTeX format

Thesis (M.Sc.)--Chulalongkorn University, 2002

Saved in:
Bibliographic Details
Main Author: San Sethasopon
Other Authors: Chidchanok Lursinsap
Format: Theses and Dissertations
Language:English
Published: Chulalongkorn University 2010
Subjects:
Online Access:http://cuir.car.chula.ac.th/handle/123456789/12207
Tags: Add Tag
No Tags, Be the first to tag this record!
Institution: Chulalongkorn University
Language: English
id th-cuir.12207
record_format dspace
spelling th-cuir.122072010-03-15T04:12:40Z An Algorithm for identifying, extracting and converting a table structure from a document inage into LaTeX format ขั้นตอนวิธีสำหรับการบ่งชี้การสกัดและการแปลงโครงสร้างตารางจากภาพเอกสารเป็นรูปแบบลาเท็กซ์ San Sethasopon Chidchanok Lursinsap Chulalongkorn University. Faculty of Science Text processing (Computer science) Document imaging systems LaTeX (Computer file) Thesis (M.Sc.)--Chulalongkorn University, 2002 Table analysis is one of the attractive and challenging problems in document image analysis that encompasses table identification and table recognition. Table identification is based on the techniques of page segmentation and classification, whereby the results so extracted are analyzed and stored in some prearranged structures. This study proposes an algorithm for table analysis that starts from separating a document image into individual blocks. A non-tabled block is determined by the arrangement of data inside the block and the position of lines. Then, the recognized table blocks are converted into LaTeX formatted tables suitable for subsequent modification, storage, retrieval and transmission. The algorithm was tested with image blocks extracted from actual document images and synthesis samples. Various styles of tabled block-lines and data arrangement were correctly identified and analyzed. The algorithm gave good results for input samples having less skewed angle and noise. การวิเคราะห์ตารางเป็นส่วนหนึ่งของปัญหาการวิเคราะห์ภาพเอกสารที่น่าสนใจ ประกอบด้วยวิธีการบ่งชี้ตารางซึ่งอยู่บนพื้นฐานของเทคนิคการแบ่งภาพและแยก ประเภทออกเป็นส่วน และวิธีการรู้จำตาราง วิทยานิพนธ์นี้เสนอขั้นตอนวิธีใหม่สำหรับการวิเคราะห์ตาราง เริ่มจากการแบ่งภาพเอกสารออกเป็นส่วนๆ ส่วนที่ไม่ใช่ตารางจะถูกกำหนดโดยการเรียงตัวของก้อนข้อมูลและตำแหน่งของเส้น แล้วส่วนที่เป็นตารางจะถูกแปลงเป็นรูปแบบลาเท็กซ์ ซึ่งเหมาะสำหรับการแก้ไข การจัดเก็บ การนำมาใช้ใหม่ และการส่งข้อมูล ขั้นตอนวิธีนี้ถูกทดสอบกับตัวอย่างที่เป็นส่วนที่สกัดมาจากภาพเอกสารจริง และจากการสร้างขึ้นเอง ตารางที่มีการเรียงตัวของข้อมูลและเส้นหลายรูปแบบถูกบ่งชี้และวิเคราะห์ได้ อย่างถูกต้อง ขั้นตอนวิธีที่ใช้นี้ให้ผลที่ดีกับตัวอย่างที่เอียงไม่มากและมีสิ่งรบกวน น้อย 2010-03-15T04:12:39Z 2010-03-15T04:12:39Z 2002 Thesis 9741733186 http://cuir.car.chula.ac.th/handle/123456789/12207 en Chulalongkorn University 1498707 bytes application/pdf application/pdf Chulalongkorn University
institution Chulalongkorn University
building Chulalongkorn University Library
country Thailand
collection Chulalongkorn University Intellectual Repository
language English
topic Text processing (Computer science)
Document imaging systems
LaTeX (Computer file)
spellingShingle Text processing (Computer science)
Document imaging systems
LaTeX (Computer file)
San Sethasopon
An Algorithm for identifying, extracting and converting a table structure from a document inage into LaTeX format
description Thesis (M.Sc.)--Chulalongkorn University, 2002
author2 Chidchanok Lursinsap
author_facet Chidchanok Lursinsap
San Sethasopon
format Theses and Dissertations
author San Sethasopon
author_sort San Sethasopon
title An Algorithm for identifying, extracting and converting a table structure from a document inage into LaTeX format
title_short An Algorithm for identifying, extracting and converting a table structure from a document inage into LaTeX format
title_full An Algorithm for identifying, extracting and converting a table structure from a document inage into LaTeX format
title_fullStr An Algorithm for identifying, extracting and converting a table structure from a document inage into LaTeX format
title_full_unstemmed An Algorithm for identifying, extracting and converting a table structure from a document inage into LaTeX format
title_sort algorithm for identifying, extracting and converting a table structure from a document inage into latex format
publisher Chulalongkorn University
publishDate 2010
url http://cuir.car.chula.ac.th/handle/123456789/12207
_version_ 1681408742848987136