Nghiên cứu các phương pháp trích chọn các thuộc tính đặc trưng để phát triển thuật toán hiệu quả nhằm phân lớp số liệu lớn đặc biệt trong tin sinh học : Đề tài NCKH. QG.08.01

89 tr.

Saved in:
Bibliographic Details
Main Authors: Nguyễn, Hà Nam, Nguyễn, Tuệ, Nguyễn, Trí Thành, Nguyễn, Thị Thủy, Trần, Phương Nhung
Format: Other
Language:other
Published: H. : ĐHQGHN 2017
Subjects:
Online Access:http://repository.vnu.edu.vn/handle/VNU_123/22687
Tags: Add Tag
No Tags, Be the first to tag this record!
Institution: Vietnam National University, Hanoi
Language: other
id oai:112.137.131.14:VNU_123-22687
record_format dspace
spelling oai:112.137.131.14:VNU_123-226872017-09-29T20:37:06Z Nghiên cứu các phương pháp trích chọn các thuộc tính đặc trưng để phát triển thuật toán hiệu quả nhằm phân lớp số liệu lớn đặc biệt trong tin sinh học : Đề tài NCKH. QG.08.01 Nguyễn, Hà Nam Nguyễn, Tuệ Nguyễn, Trí Thành Nguyễn, Thị Thủy Trần, Phương Nhung Khai phá dữ liệu Nghiên cứu Thuật toán phân lớp Xử lý dữ liệu 89 tr. Nghiên cứu về khai phá dữ liệu nói chung cũng như trong nghiên cứu về các thuật toán phân lớp nói riêng, vấn đề xử lý dữ liệu lớn càng trở thành vấn đề cấp thiết và đóng vai trò chủ đạo trong việc giải quyết các bài toán thực tế. Phần lớn các thuật toán phân lớp đã phát triển chỉ có thể giải quyết được với một lượng số liệu giới hạn cũng như với một độ phức tạp dữ liệu biết trước. Trong khi đó lượng dữ liệu thu thập được ngày càng trở nên phong phú và đa dạng nhờ các sự phát triển mạnh mẽ của khoa học kỹ thuật. Mặc dù rất nhiều thuật toán phân lớp dựa trên nhiều nền tảng lý thuyết khác nhau đã được phát triển và ứng dụng từ rất lâu, nhưng thực tế cho thấy kết quả phụ thuộc rất nhiều vào đặc tính dữ liệu cũng như khả năng xử lý dữ liệu thô của từng nhóm nghiên cứu. Một điều hiển nhiên là với mỗi phương pháp chỉ có thể đáp ứng và xử lý tốt trên một vài dữ liệu và ứng dụng cụ thể nào đó. Với những lĩnh vực nghiên cứu mới đòi hỏi xử lý một lượng dữ liệu lớn, chưa rõ đặc trưng hoặc rất khó phát hiện ra đặc trưng đòi hỏi các nhà nghiên cứu phải tìm tòi phát triển hoặc áp dụng các thuật toán thích hợp. Hiện nay có rất nhiều hướng cải tiến các thuật toán phân lớp như áp dụng các thuật toán lai ghép (ensemble method), các thuật toán dựa vào phương pháp nhân (Kernel-based method), hoặc áp dụng các phương pháp trích chọn đặc trưng (feature extraction / seclection method). Trong các phương pháp kể trên phương pháp trích chọn đặc trưng trở nên nổi trội và có một số ưu điểm phù hợp trong việc xử lý dữ liệu có số lượng thuộc tính lớn (vài nghìn đến vài trăm nghìn thuộc tính) nhưng đồng thời chỉ có số lượng khá nhỏ các mẫu phân tích (vài chục hoặc vài trăm). Phương pháp trích chọn nội dung có một số ưu điểm. Thứ nhất phương pháp này giúp giảm số lượng các thuộc tính của dữ liệu, điều này giúp giảm thời gian tính toán của thuật toán phân lớp. Thứ hai, phương pháp trích chọn đặc trưng cũng giúp tìm ra các thuộc tính đặc trưng giúp cho việc nhận dạng đối tượng hiệu quả hơn. Thứ ba, nó giúp loại bỏ các thuộc tính thừa và những thuộc tính gây nhiễu có ảnh hưởng đến kết quả đoán nhận. Kết quả: Đã hoàn thành chương trình mô phỏng thuật toán phân lớp dựa trên tìm đặc trưng tối ưu dữ liệu đầu vào thông qua tối ưu hàm nhân. Nghiên cứu cho thấy phương pháp do đề nghị và cài đặt có khả năng phân lớp tốt hơn so với thuật toán ban đầu. Phương pháp này có khả năng mở rộng khả năng học bằng cách thêm các tham số hoặc ứng dụng cho việc phân lớp các bộ dữ liệu khác một cách dễ dàng. 2017-03-28T02:00:23Z 2017-03-28T02:00:23Z 2010 Other http://repository.vnu.edu.vn/handle/VNU_123/22687 other application/pdf H. : ĐHQGHN
institution Vietnam National University, Hanoi
building VNU Library & Information Center
country Vietnam
collection VNU Digital Repository
language other
topic Khai phá dữ liệu
Nghiên cứu
Thuật toán phân lớp
Xử lý dữ liệu
spellingShingle Khai phá dữ liệu
Nghiên cứu
Thuật toán phân lớp
Xử lý dữ liệu
Nguyễn, Hà Nam
Nguyễn, Tuệ
Nguyễn, Trí Thành
Nguyễn, Thị Thủy
Trần, Phương Nhung
Nghiên cứu các phương pháp trích chọn các thuộc tính đặc trưng để phát triển thuật toán hiệu quả nhằm phân lớp số liệu lớn đặc biệt trong tin sinh học : Đề tài NCKH. QG.08.01
description 89 tr.
format Other
author Nguyễn, Hà Nam
Nguyễn, Tuệ
Nguyễn, Trí Thành
Nguyễn, Thị Thủy
Trần, Phương Nhung
author_facet Nguyễn, Hà Nam
Nguyễn, Tuệ
Nguyễn, Trí Thành
Nguyễn, Thị Thủy
Trần, Phương Nhung
author_sort Nguyễn, Hà Nam
title Nghiên cứu các phương pháp trích chọn các thuộc tính đặc trưng để phát triển thuật toán hiệu quả nhằm phân lớp số liệu lớn đặc biệt trong tin sinh học : Đề tài NCKH. QG.08.01
title_short Nghiên cứu các phương pháp trích chọn các thuộc tính đặc trưng để phát triển thuật toán hiệu quả nhằm phân lớp số liệu lớn đặc biệt trong tin sinh học : Đề tài NCKH. QG.08.01
title_full Nghiên cứu các phương pháp trích chọn các thuộc tính đặc trưng để phát triển thuật toán hiệu quả nhằm phân lớp số liệu lớn đặc biệt trong tin sinh học : Đề tài NCKH. QG.08.01
title_fullStr Nghiên cứu các phương pháp trích chọn các thuộc tính đặc trưng để phát triển thuật toán hiệu quả nhằm phân lớp số liệu lớn đặc biệt trong tin sinh học : Đề tài NCKH. QG.08.01
title_full_unstemmed Nghiên cứu các phương pháp trích chọn các thuộc tính đặc trưng để phát triển thuật toán hiệu quả nhằm phân lớp số liệu lớn đặc biệt trong tin sinh học : Đề tài NCKH. QG.08.01
title_sort nghiên cứu các phương pháp trích chọn các thuộc tính đặc trưng để phát triển thuật toán hiệu quả nhằm phân lớp số liệu lớn đặc biệt trong tin sinh học : đề tài nckh. qg.08.01
publisher H. : ĐHQGHN
publishDate 2017
url http://repository.vnu.edu.vn/handle/VNU_123/22687
_version_ 1680967792160931840