Hệ thống bóc tách giá cả sản phẩm tự động

Tổng quan về khai phá dữ liệu nói chung và khai thác Web nói riêng: phân loại nguồn dữ liệu Web, phân loại khai phá dữ liệu Web, các bước tiến hành khai phá nội dung Web. Trình bày cơ sở lý thuyết có liên quan đến hệ thống bóc tách giá cả sản phẩm tự động: các vấn đề liên quan đến phân tích ngôn ngữ...

Full description

Saved in:
Bibliographic Details
Main Author: Chu, Phương Chi
Other Authors: Nguyễn, Văn Vy
Format: Theses and Dissertations
Language:Vietnamese
Published: 2016
Subjects:
Online Access:http://repository.vnu.edu.vn/handle/VNU_123/16387
Tags: Add Tag
No Tags, Be the first to tag this record!
Institution: Vietnam National University, Hanoi
Language: Vietnamese
Description
Summary:Tổng quan về khai phá dữ liệu nói chung và khai thác Web nói riêng: phân loại nguồn dữ liệu Web, phân loại khai phá dữ liệu Web, các bước tiến hành khai phá nội dung Web. Trình bày cơ sở lý thuyết có liên quan đến hệ thống bóc tách giá cả sản phẩm tự động: các vấn đề liên quan đến phân tích ngôn ngữ đánh dấu siêu văn bản HTML; nguyên lí thu thập dữ liệu (Crawler); bài toán bóc tách thông tin; giải thuật bóc tách bản ghi dữ liệu có cấu trúc. Tiến hành xây dựng hệ thống chắt lọc thông tin sản phẩm trên Web: mô tả bài toán chắt lọc thông tin về sản phẩm trên Web; thiết kết kiến trúc hệ thống; thiết kế cơ sở dữ liệu; cài đặt hệ thống