
de ds-skills24
Post-traitez les prédictions de correspondance d'entités pour imposer la symétrie et la transitivité (fermeture de graphe) afin d'améliorer le rappel dans la déduplication et le liage d'enregistrements.
Cette compétence fournit une technique simple et pratique pour post-traiter les prédictions de correspondance d'entités par paires en imposant des liens bidirectionnels (symétrie) et en propageant les correspondances à travers les composants connectés (fermeture transitive). Elle convertit des prédictions de paires indépendantes en groupes de correspondance cohérents, améliorant le rappel et produisant des clusters dédupliqués cohérents pour les flux de travail en aval.
Utilisez ceci après qu'un modèle de correspondance binaire par paires a produit des candidats, mais que les résultats contiennent des incohérences (A→B mais pas B→A) ou des clusters fragmentés (A→B, B→C mais pas A→C). Utile dans le liage d'enregistrements, la déduplication d'entités et tout pipeline où le regroupement cohérent d'IDs est important. Évitez la fermeture complète sur des prédictions extrêmement bruitées à moins qu'un filtrage par confiance ne soit appliqué.
Probablement compatible avec les agents généralistes capables d'exécuter des extraits Python (assistants type Copilot, Claude Code, Cursor).
Une compétence de pure documentation pour le post-traitement des prédictions de correspondance d'entités afin d'imposer la symétrie et la transitivité via la fermeture graphique. Aucun script groupé — l'implémentation est en Python inline dans le SKILL.md. Le code est fonctionnel et copiable, mais manque de gestion d'erreurs et de limites d'itération. Outil de niche utile pour les tâches de déduplication de style Kaggle.
Compétence simple et inoffensive. Essentiellement une recette de code emballée sous forme de compétence. L'architecture est plate (pas de répertoires scripts/references) mais appropriée pour ce périmètre. L'alternative union-find mentionnée dans les décisions clés serait une meilleure implémentation pour un usage en production.