Système de déduplication utilisant les techniques d’apprentissage automatique = Hệ thống phân tích dữ liệu trùng lặp sử dụng kĩ thuật machine learning
Les resultats du système implementé ont été analysé en fonction des metriques connues, telles que : le rappel, la précision et le F-Mesure. Nous avons constaté qu’avec la déduplication exacte ou approximative sur un champs(colonne) du dataset les resultats du système implementé et EBX sont les mêmes...
Saved in:
Main Author: | |
---|---|
Other Authors: | |
Format: | Theses |
Language: | French |
Published: |
2020
|
Subjects: | |
Online Access: | http://repository.vnu.edu.vn/handle/VNU_123/69288 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Institution: | Vietnam National University, Hanoi |
Language: | French |
Summary: | Les resultats du système implementé ont été analysé en fonction des metriques connues, telles que : le rappel, la précision et le F-Mesure. Nous avons constaté qu’avec la déduplication exacte ou approximative sur un champs(colonne) du dataset les resultats du système implementé et EBX sont les mêmes. Cependant avec la correspondance approximative sur plusieurs champs le système implementé avec l’approche d’apprentissage actif a donné de meilleurs resultats par rapport à EBX. Ceci pour 2 raisons majeures: l’automatisation du seuil de déduplication, la contribution humaine lors du processus de detection des enregistrements dupliqués |
---|