
de ds-skills46
Génération de paires de candidats géographiquement proches pour le rapprochement d'entités via KNN à distance haversine, avec partitionnement optionnel par pays pour améliorer le rappel.
Cette compétence fournit une implémentation pratique et des conseils pour générer des paires de candidats pour le rapprochement d'entités en utilisant KNN avec la distance haversine. Elle est conçue pour les entités basées sur la localisation (points d'intérêt, magasins, adresses) où la comparaison de toutes les paires N^2 serait irréalisable. L'approche calcule les K plus proches voisins géographiques par enregistrement (optionnellement au sein de partitions pays/région), renvoie les rangs des voisins et les distances géographiques (km), et produit un DataFrame de candidats prêt pour le scoring/classification en aval.
Utilisez cette compétence lorsque vous avez besoin d'une étape efficace de génération de candidats pour des tâches de déduplication ou de liaison d'enregistrements impliquant des données géospatiales. Elle est idéale pour les jeux de données avec des colonnes de latitude/longitude où vous souhaitez limiter les comparaisons aux enregistrements proches, ou lorsque vous voulez combiner le rappel basé sur la géo avec un rapprochement textuel pour améliorer la qualité globale des candidats. Le partitionnement par pays est recommandé pour les jeux de données mondiaux afin d'éviter les correspondances non pertinentes entre régions.
Idéalement utilisée avec des agents de science des données et capables de manipuler Python (Copilot/assistants de code, environnements d'agents exécutant Python) pouvant exécuter ou adapter le code d'exemple fourni pour des pipelines de production.
Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.