Système de déduplication utilisant les techniques d’apprentissage automatique = Hệ thống phân tích dữ liệu trùng lặp sử dụng kĩ thuật machine learning

Les resultats du système implementé ont été analysé en fonction des metriques connues, telles que : le rappel, la précision et le F-Mesure. Nous avons constaté qu’avec la déduplication exacte ou approximative sur un champs(colonne) du dataset les resultats du système implementé et EBX sont les mêmes...

Full description

Saved in:
Bibliographic Details
Main Author: Mirlin, ELIODOR Ednalson Guy
Other Authors: Bonnet, Pierre
Format: Theses
Language:French
Published: 2020
Subjects:
Online Access:http://repository.vnu.edu.vn/handle/VNU_123/69288
Tags: Add Tag
No Tags, Be the first to tag this record!
Institution: Vietnam National University, Hanoi
Language: French
Description
Summary:Les resultats du système implementé ont été analysé en fonction des metriques connues, telles que : le rappel, la précision et le F-Mesure. Nous avons constaté qu’avec la déduplication exacte ou approximative sur un champs(colonne) du dataset les resultats du système implementé et EBX sont les mêmes. Cependant avec la correspondance approximative sur plusieurs champs le système implementé avec l’approche d’apprentissage actif a donné de meilleurs resultats par rapport à EBX. Ceci pour 2 raisons majeures: l’automatisation du seuil de déduplication, la contribution humaine lors du processus de detection des enregistrements dupliqués