Système de déduplication utilisant les techniques d’apprentissage automatique = Hệ thống phân tích dữ liệu trùng lặp sử dụng kĩ thuật machine learning

Les resultats du système implementé ont été analysé en fonction des metriques connues, telles que : le rappel, la précision et le F-Mesure. Nous avons constaté qu’avec la déduplication exacte ou approximative sur un champs(colonne) du dataset les resultats du système implementé et EBX sont les mêmes...

وصف كامل

محفوظ في:
التفاصيل البيبلوغرافية
المؤلف الرئيسي: Mirlin, ELIODOR Ednalson Guy
مؤلفون آخرون: Bonnet, Pierre
التنسيق: Theses
اللغة:French
منشور في: 2020
الموضوعات:
الوصول للمادة أونلاين:http://repository.vnu.edu.vn/handle/VNU_123/69288
الوسوم: إضافة وسم
لا توجد وسوم, كن أول من يضع وسما على هذه التسجيلة!
الوصف
الملخص:Les resultats du système implementé ont été analysé en fonction des metriques connues, telles que : le rappel, la précision et le F-Mesure. Nous avons constaté qu’avec la déduplication exacte ou approximative sur un champs(colonne) du dataset les resultats du système implementé et EBX sont les mêmes. Cependant avec la correspondance approximative sur plusieurs champs le système implementé avec l’approche d’apprentissage actif a donné de meilleurs resultats par rapport à EBX. Ceci pour 2 raisons majeures: l’automatisation du seuil de déduplication, la contribution humaine lors du processus de detection des enregistrements dupliqués