Déduplication d'Événements

Score de confiance 85/100

Groupe et déduplique des événements/articles multi-sources en utilisant un groupement basé sur l'ID et le contenu, un score de réputation et une sélection canonique pour choisir la meilleure version.

déclencheurs:deduplicatecanonical selectionreputationgroup by titlegenerate event id

GitHub SKILL.md

Ce qu'il fait

Cette compétence fournit des modèles prêts pour la production pour dédupliquer des événements et des articles agrégés à partir de sources multiples. Elle prend en charge deux modes complémentaires : la déduplication basée sur l'ID (lorsque les sources fournissent des ID stables) et la déduplication basée sur le contenu (groupement sémantique par titre/date normalisés). L'implémentation inclut une logique de sélection canonique qui privilégie les sources faisant autorité via un score de réputation et des heuristiques pour sélectionner la version la plus complète ou la plus pertinente.

Quand l'utiliser

Utilisez cette compétence lorsque vous ingérez des flux chevauchants (actualités, flux d'événements, listes de produits) et que vous devez condenser les doublons en un seul enregistrement canonique pour le traitement ultérieur, la recherche ou l'analyse. Elle s'applique quand : plusieurs médias publient la même histoire, les sources fournissent des ID incohérents, ou que vous devez suivre des métriques de réduction et l'attribution.

Ce qui est inclus

Scripts : aucun script autonome inclus (has_scripts=false)
Références : aucune groupée (has_references=false)
Instructions : exemples TypeScript pour la déduplication basée sur l'ID et le contenu, génération de clés de déduplication, score de réputation, sélection canonique et exemples d'utilisation montrant l'agrégation multi-sources.

Agents compatibles

Idéal pour les agents et outils qui exécutent des flux de travail TypeScript/Node ou s'intègrent à des pipelines de données : assistants de code de type Copilot/Codex, agents d'automatisation pouvant exécuter des scripts Node, ou agents MCP côté serveur effectuant l'ETL et l'agrégation.

Étiquettes

#deduplication #data-aggregation #news #events #canonicalization #reputation-scoring #typescript #etl

Aucun script exécutéAudité le April 16, 2026

Résumé de l'audit

Compétence de déduplication d'événements fournissant des fonctions TypeScript pour la déduplication basée sur l'ID et le contenu, avec notation de la réputation et sélection canonique. Le SKILL.md est bien structuré avec des concepts clairs, des exemples de code et des meilleures pratiques. Aucun script à exécuter. Le code est fonctionnel mais utilise des paliers de réputation de domaine codés en dur et une approche de normalisation simpliste. Provenant d'un dossier 'drift v1 depreciated', cela indique qu'elle pourrait être obsolète.

Points d'attention

Listes de paliers de réputation codées en dur — non configurables
Le chemin source contient 'depreciated' (erreur d'orthographe pour 'deprecated') suggérant que ceci peut être obsolète
Aucun script réellement exécutable — la compétence est purement documentaire/extraits de code
Le hachage MD5 pour les ID d'événements est sujet aux collisions à 12 caractères hexadécimaux

Notes

Compétence propre, aucun problème de sécurité. Documentation pure avec extraits TypeScript en ligne — pas de scripts, pas d'appels réseau, pas d'identifiants. Le chemin 'drift v1 depreciated' est un signal d'alerte quant à l'obsolescence, mais ce n'est pas un problème de sécurité. La notation de la réputation codée en dur et la normalisation simple limitent l'utilité en production.

Informations

Dépôt: drift
Étoiles: 771

Score de confiance

Global85

Sécurité100

Qualité du code72

Architecture65

Utilité55

Plus de drift

Résilience des flux SSE

Fournit une gestion robuste des flux d'événements envoyés par le serveur (SSE) avec un registre basé sur Redis, une surveillance du heartbeat et la persistance des complétions.

Compétences similaires

Node.js Best Practices

Guidelines and decision-making for Node.js architecture, runtime, async patterns, security, validation, and testing to inform framework and system choices.

SSE Stream Resilience

Provide robust server-sent-events (SSE) stream management with Redis-backed registry, heartbeat monitoring, completion persistence, and background guardian clea

Algolia Cost Tuning

Practical guide to reduce Algolia billing by auditing records/requests, switching to virtual replicas, multi-query usage, caching, and cleanup strategies.

URL Routing Patterns

Guidance for designing SEO-friendly URL structures, slug generation, redirects, localization, and routing APIs for headless CMS and content platforms.

DAUB UI

A drop-in CSS+JS component library with 70+ carefully designed components and 20 theme families for fast, consistent UI building.

Supabase SDK Patterns (TypeScript & Python)

Production-ready patterns for using Supabase clients in TypeScript and Python: client initialization, typed queries, auth, realtime, storage, RPC, and error-han

Framer Plugin Development Guide

Expert reference for building, debugging, and publishing Framer plugins: scaffolding, modes, ManagedCollection APIs, build tooling, and marketplace rules.

Google Calendar Tool

Tool integration for listing and creating Google Calendar events via OAuth2 — list upcoming events, add appointments, and manage calendars.

Retour aux compétences