Đánh giá tập nhãn và xác định lỗi tự động trong kho ngữ liệu đã gán nhãn

The first part evaluates properties of tagset and possibility convertible of tagsets in Vietnamese. In the part, main goal is to optimize which tagset is better and whether small tagset can convert into large one and reverse. Thesis achieves this goal by using internal, external criteria and s...

Full description

Saved in:
Bibliographic Details
Main Author: Đỗ, Thị Thanh Tâm
Format: Theses and Dissertations
Language:other
Published: Đại học Quốc gia Hà Nội 2016
Subjects:
Online Access:http://repository.vnu.edu.vn/handle/VNU_123/8263
Tags: Add Tag
No Tags, Be the first to tag this record!
Institution: Vietnam National University, Hanoi
Language: other
id oai:112.137.131.14:VNU_123-8263
record_format dspace
spelling oai:112.137.131.14:VNU_123-82632016-04-13T20:02:05Z Đánh giá tập nhãn và xác định lỗi tự động trong kho ngữ liệu đã gán nhãn Đỗ, Thị Thanh Tâm Công nghệ thông tin Khoa học máy tính Tin học The first part evaluates properties of tagset and possibility convertible of tagsets in Vietnamese. In the part, main goal is to optimize which tagset is better and whether small tagset can convert into large one and reverse. Thesis achieves this goal by using internal, external criteria and statistic of lost ambiguous token. Internal criterion tests whether token assigns POS accurately. External criterion checks quantity of linguistic information is retained. In particular, internal criterion relates to frame and purity notion. To investigate retained information, we carried out merging some tags based on certain classification factor. Each different tagset, we had different parameter. As the result, classification based on syntax has better result but ambiguous words are large. Besides, in Vietnamese, it is hard to convert between tagsets. 2016-04-13T07:26:47Z 2016-04-13T07:26:47Z 2012 Thesis 6 tr. http://repository.vnu.edu.vn/handle/VNU_123/8263 other application/pdf Đại học Quốc gia Hà Nội
institution Vietnam National University, Hanoi
building VNU Library & Information Center
country Vietnam
collection VNU Digital Repository
language other
topic Công nghệ thông tin
Khoa học máy tính
Tin học
spellingShingle Công nghệ thông tin
Khoa học máy tính
Tin học
Đỗ, Thị Thanh Tâm
Đánh giá tập nhãn và xác định lỗi tự động trong kho ngữ liệu đã gán nhãn
description The first part evaluates properties of tagset and possibility convertible of tagsets in Vietnamese. In the part, main goal is to optimize which tagset is better and whether small tagset can convert into large one and reverse. Thesis achieves this goal by using internal, external criteria and statistic of lost ambiguous token. Internal criterion tests whether token assigns POS accurately. External criterion checks quantity of linguistic information is retained. In particular, internal criterion relates to frame and purity notion. To investigate retained information, we carried out merging some tags based on certain classification factor. Each different tagset, we had different parameter. As the result, classification based on syntax has better result but ambiguous words are large. Besides, in Vietnamese, it is hard to convert between tagsets.
format Theses and Dissertations
author Đỗ, Thị Thanh Tâm
author_facet Đỗ, Thị Thanh Tâm
author_sort Đỗ, Thị Thanh Tâm
title Đánh giá tập nhãn và xác định lỗi tự động trong kho ngữ liệu đã gán nhãn
title_short Đánh giá tập nhãn và xác định lỗi tự động trong kho ngữ liệu đã gán nhãn
title_full Đánh giá tập nhãn và xác định lỗi tự động trong kho ngữ liệu đã gán nhãn
title_fullStr Đánh giá tập nhãn và xác định lỗi tự động trong kho ngữ liệu đã gán nhãn
title_full_unstemmed Đánh giá tập nhãn và xác định lỗi tự động trong kho ngữ liệu đã gán nhãn
title_sort đánh giá tập nhãn và xác định lỗi tự động trong kho ngữ liệu đã gán nhãn
publisher Đại học Quốc gia Hà Nội
publishDate 2016
url http://repository.vnu.edu.vn/handle/VNU_123/8263
_version_ 1680966407307657216