
Nu Plugin Topology
par danielbodnar
Moteur de topologie de contenu et de déduplication haute performance pour Nushell et CLI.
Ce qu'il fait
Nu Plugin Topology fournit un profilage de données avancé, l'empreinte SimHash et l'échantillonnage stratifié pour organiser de grandes collections de données textuelles. Il est principalement utilisé pour dédupliquer des marque-pages, des étoiles GitHub et des fichiers en identifiant la similarité du contenu indépendamment de l'ordre des mots.
Outils
- Fingerprint : Calcule des empreintes SimHash 64 bits pour les enregistrements JSON afin de détecter les doublons.
- Sample : Extrait des sous-ensembles représentatifs de données en utilisant un échantillonnage aléatoire, stratifié, systématique ou par réservoir.
- Analyze : Génère des statistiques au niveau des champs, incluant la cardinalité et la distribution des types.
- Similarity : Mesure la distance entre chaînes en utilisant les métriques Levenshtein, Jaro-Winkler ou Cosine.
- Normalize URL : Nettoie les URLs en supprimant les paramètres de suivi et les fragments pour une meilleure déduplication.
Installation
Compilez le binaire et ajoutez-le à votre path :
{
"mcpServers": {
"topology": {
"command": "topology",
"args": []
}
}
}
Hôtes supportés
- Nushell
- CLI
Installation rapide
cargo build --release --features plugin,cliInformations
- Tarification
- free
- Publié





