
de drift771
Groupe et déduplique des événements/articles multi-sources en utilisant un groupement basé sur l'ID et le contenu, un score de réputation et une sélection canonique pour choisir la meilleure version.
Cette compétence fournit des modèles prêts pour la production pour dédupliquer des événements et des articles agrégés à partir de sources multiples. Elle prend en charge deux modes complémentaires : la déduplication basée sur l'ID (lorsque les sources fournissent des ID stables) et la déduplication basée sur le contenu (groupement sémantique par titre/date normalisés). L'implémentation inclut une logique de sélection canonique qui privilégie les sources faisant autorité via un score de réputation et des heuristiques pour sélectionner la version la plus complète ou la plus pertinente.
Utilisez cette compétence lorsque vous ingérez des flux chevauchants (actualités, flux d'événements, listes de produits) et que vous devez condenser les doublons en un seul enregistrement canonique pour le traitement ultérieur, la recherche ou l'analyse. Elle s'applique quand : plusieurs médias publient la même histoire, les sources fournissent des ID incohérents, ou que vous devez suivre des métriques de réduction et l'attribution.
Idéal pour les agents et outils qui exécutent des flux de travail TypeScript/Node ou s'intègrent à des pipelines de données : assistants de code de type Copilot/Codex, agents d'automatisation pouvant exécuter des scripts Node, ou agents MCP côté serveur effectuant l'ETL et l'agrégation.
Event deduplication skill providing TypeScript functions for ID-based and content-based deduplication with reputation scoring and canonical selection. The SKILL.md is well-structured with clear concepts, code examples, and best practices. No scripts to run. Code is functional but uses hardcoded domain reputation tiers and a simplistic normalization approach. Sourced from a 'drift v1 depreciated' folder, indicating it may be outdated.
Clean skill, no security concerns. Pure documentation with inline TypeScript snippets — no scripts, no network calls, no credentials. The 'drift v1 depreciated' path is a red flag for staleness but not a security issue. Hardcoded reputation scoring and simple normalization limit production usefulness.