Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại

Luận văn đề xuất một phương pháp cải tiến cho việc gán nhãn từ loại dựa trên việc phân tích các đặc trưng quan hệ của một số phương pháp học máy và đánh giá tính hiệu quả của các phương pháp này đối với bài toán gán nhãn từ loại. Trong phương pháp đề xuất thay vì việc sử dụng các phương pháp h...

Full description

Saved in:
Bibliographic Details
Main Author: Nguyễn, Ngọc Khương
Format: Theses and Dissertations
Language:other
Published: Đại học Quốc gia Hà Nội 2016
Subjects:
Online Access:http://repository.vnu.edu.vn/handle/VNU_123/8164
Tags: Add Tag
No Tags, Be the first to tag this record!
Institution: Vietnam National University, Hanoi
Language: other
id oai:112.137.131.14:VNU_123-8164
record_format dspace
spelling oai:112.137.131.14:VNU_123-81642016-04-13T20:05:22Z Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại Nguyễn, Ngọc Khương Phương pháp tin học đặc biệt Trích chọn thông tin Dịch máy Bài toán gán nhãn từ loại Xử lý ngôn ngữ tự nhiên Luận văn đề xuất một phương pháp cải tiến cho việc gán nhãn từ loại dựa trên việc phân tích các đặc trưng quan hệ của một số phương pháp học máy và đánh giá tính hiệu quả của các phương pháp này đối với bài toán gán nhãn từ loại. Trong phương pháp đề xuất thay vì việc sử dụng các phương pháp học máy đơn lẻ, chúng tôi sử dụng kết hợp các thuật toán học máy có xu hướng kế thừa nhau để hạn chế các lỗi gán nhãn ngoại lệ. Trước hết chúng tôi sử dụng một trong số những phương pháp học máy tốt nhất cho bài toán gán nhãn từ loại, phương pháp học máy thống kê cực đại hóa Entropy để xây dựng mô hình cơ sở, sau đó sử dụng mô hình học luật chuyển đổi để sửa sai lỗi từ loại. - Dựa trên công cụ Stanford Tagger và vnTagger, chúng tôi đã cài đặt công cụ gán nhãn từ loại cải tiến (CBTagger) để làm thành phần gán nhãn cơ sở. Sau đó cài đặt module sửa sai dựa trên phương pháp học luật chuyển đổi để được công cụ gán nhãn từ loại (CTagger) dựa trên mô hình kết hợp. Chúng tôi sử dụng bộ công cụ này để kiểm tra trên hai loại ngôn ngữ điển hình của hai loại ngôn ngữ biến hình và không biến hình để chỉ ra tính hiệu quả của mô hình đề xuất đối với bài toán gán nhãn từ loại. Kết quả thực nghiệm trên công cụ CTagger với các bộ ngữ liệu khác nhau cho thấy độ chính xác cao hơn đáng kể so với mô hình cơ sở và với các bộ gán nhãn từ loại khác. 2016-04-13T03:14:07Z 2016-04-13T03:14:07Z 201 Thesis 7 tr. http://repository.vnu.edu.vn/handle/VNU_123/8164 other application/pdf Đại học Quốc gia Hà Nội
institution Vietnam National University, Hanoi
building VNU Library & Information Center
country Vietnam
collection VNU Digital Repository
language other
topic Phương pháp tin học đặc biệt
Trích chọn thông tin
Dịch máy
Bài toán gán nhãn từ loại
Xử lý ngôn ngữ tự nhiên
spellingShingle Phương pháp tin học đặc biệt
Trích chọn thông tin
Dịch máy
Bài toán gán nhãn từ loại
Xử lý ngôn ngữ tự nhiên
Nguyễn, Ngọc Khương
Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại
description Luận văn đề xuất một phương pháp cải tiến cho việc gán nhãn từ loại dựa trên việc phân tích các đặc trưng quan hệ của một số phương pháp học máy và đánh giá tính hiệu quả của các phương pháp này đối với bài toán gán nhãn từ loại. Trong phương pháp đề xuất thay vì việc sử dụng các phương pháp học máy đơn lẻ, chúng tôi sử dụng kết hợp các thuật toán học máy có xu hướng kế thừa nhau để hạn chế các lỗi gán nhãn ngoại lệ. Trước hết chúng tôi sử dụng một trong số những phương pháp học máy tốt nhất cho bài toán gán nhãn từ loại, phương pháp học máy thống kê cực đại hóa Entropy để xây dựng mô hình cơ sở, sau đó sử dụng mô hình học luật chuyển đổi để sửa sai lỗi từ loại. - Dựa trên công cụ Stanford Tagger và vnTagger, chúng tôi đã cài đặt công cụ gán nhãn từ loại cải tiến (CBTagger) để làm thành phần gán nhãn cơ sở. Sau đó cài đặt module sửa sai dựa trên phương pháp học luật chuyển đổi để được công cụ gán nhãn từ loại (CTagger) dựa trên mô hình kết hợp. Chúng tôi sử dụng bộ công cụ này để kiểm tra trên hai loại ngôn ngữ điển hình của hai loại ngôn ngữ biến hình và không biến hình để chỉ ra tính hiệu quả của mô hình đề xuất đối với bài toán gán nhãn từ loại. Kết quả thực nghiệm trên công cụ CTagger với các bộ ngữ liệu khác nhau cho thấy độ chính xác cao hơn đáng kể so với mô hình cơ sở và với các bộ gán nhãn từ loại khác.
format Theses and Dissertations
author Nguyễn, Ngọc Khương
author_facet Nguyễn, Ngọc Khương
author_sort Nguyễn, Ngọc Khương
title Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại
title_short Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại
title_full Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại
title_fullStr Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại
title_full_unstemmed Kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại
title_sort kết hợp mô hình cực đại entropy và học luật chuyển đổi cho bài toán gán nhãn từ loại
publisher Đại học Quốc gia Hà Nội
publishDate 2016
url http://repository.vnu.edu.vn/handle/VNU_123/8164
_version_ 1680967612789424128