Đánh giá tập nhãn và xác định lỗi tự động trong kho ngữ liệu đã gán nhãn
The first part evaluates properties of tagset and possibility convertible of tagsets in Vietnamese. In the part, main goal is to optimize which tagset is better and whether small tagset can convert into large one and reverse. Thesis achieves this goal by using internal, external criteria and s...
Saved in:
Main Author: | |
---|---|
Format: | Theses and Dissertations |
Language: | other |
Published: |
Đại học Quốc gia Hà Nội
2016
|
Subjects: | |
Online Access: | http://repository.vnu.edu.vn/handle/VNU_123/8263 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Institution: | Vietnam National University, Hanoi |
Language: | other |
id |
oai:112.137.131.14:VNU_123-8263 |
---|---|
record_format |
dspace |
spelling |
oai:112.137.131.14:VNU_123-82632016-04-13T20:02:05Z Đánh giá tập nhãn và xác định lỗi tự động trong kho ngữ liệu đã gán nhãn Đỗ, Thị Thanh Tâm Công nghệ thông tin Khoa học máy tính Tin học The first part evaluates properties of tagset and possibility convertible of tagsets in Vietnamese. In the part, main goal is to optimize which tagset is better and whether small tagset can convert into large one and reverse. Thesis achieves this goal by using internal, external criteria and statistic of lost ambiguous token. Internal criterion tests whether token assigns POS accurately. External criterion checks quantity of linguistic information is retained. In particular, internal criterion relates to frame and purity notion. To investigate retained information, we carried out merging some tags based on certain classification factor. Each different tagset, we had different parameter. As the result, classification based on syntax has better result but ambiguous words are large. Besides, in Vietnamese, it is hard to convert between tagsets. 2016-04-13T07:26:47Z 2016-04-13T07:26:47Z 2012 Thesis 6 tr. http://repository.vnu.edu.vn/handle/VNU_123/8263 other application/pdf Đại học Quốc gia Hà Nội |
institution |
Vietnam National University, Hanoi |
building |
VNU Library & Information Center |
country |
Vietnam |
collection |
VNU Digital Repository |
language |
other |
topic |
Công nghệ thông tin Khoa học máy tính Tin học |
spellingShingle |
Công nghệ thông tin Khoa học máy tính Tin học Đỗ, Thị Thanh Tâm Đánh giá tập nhãn và xác định lỗi tự động trong kho ngữ liệu đã gán nhãn |
description |
The first part evaluates properties of tagset and possibility convertible of
tagsets in Vietnamese. In the part, main goal is to optimize which tagset is better and
whether small tagset can convert into large one and reverse. Thesis achieves this goal by
using internal, external criteria and statistic of lost ambiguous token. Internal criterion
tests whether token assigns POS accurately. External criterion checks quantity of
linguistic information is retained. In particular, internal criterion relates to frame and
purity notion. To investigate retained information, we carried out merging some tags
based on certain classification factor. Each different tagset, we had different parameter.
As the result, classification based on syntax has better result but ambiguous words are
large. Besides, in Vietnamese, it is hard to convert between tagsets. |
format |
Theses and Dissertations |
author |
Đỗ, Thị Thanh Tâm |
author_facet |
Đỗ, Thị Thanh Tâm |
author_sort |
Đỗ, Thị Thanh Tâm |
title |
Đánh giá tập nhãn và xác định lỗi tự động trong kho ngữ liệu đã gán nhãn |
title_short |
Đánh giá tập nhãn và xác định lỗi tự động trong kho ngữ liệu đã gán nhãn |
title_full |
Đánh giá tập nhãn và xác định lỗi tự động trong kho ngữ liệu đã gán nhãn |
title_fullStr |
Đánh giá tập nhãn và xác định lỗi tự động trong kho ngữ liệu đã gán nhãn |
title_full_unstemmed |
Đánh giá tập nhãn và xác định lỗi tự động trong kho ngữ liệu đã gán nhãn |
title_sort |
đánh giá tập nhãn và xác định lỗi tự động trong kho ngữ liệu đã gán nhãn |
publisher |
Đại học Quốc gia Hà Nội |
publishDate |
2016 |
url |
http://repository.vnu.edu.vn/handle/VNU_123/8263 |
_version_ |
1680966407307657216 |