MessyData

Score de confiance 90/100

Génère des jeux de données synthétiques réalistes avec des anomalies configurables (valeurs manquantes, doublons, catégories invalides, dates erronées, valeurs aberrantes) via des configurations YAML et CLI.

déclencheurs:generate synthetic datamessydata configvalidate configadd anomaliesfake data

GitHub SKILL.md

Ce qu'il fait

MessyData produit des DataFrames synthétiques réalistes à partir d'une configuration YAML déclarative ou d'un schéma Python. Il injecte des anomalies contrôlées (valeurs manquantes, doublons, catégories invalides, erreurs de date, valeurs aberrantes) pour émuler des jeux de données réels « sales » pour les tests, l'assurance qualité et les vérifications de robustesse du ML.

Quand l'utiliser

Déclenchez cette compétence lorsque vous avez besoin de données synthétiques sales pour tester des pipelines, valider du code de nettoyage de données, créer des échantillons de cas limites pour l'entraînement de modèles ou la QA, ou planifier des remplissages quotidiens de jeux de données générés.

Ce qui est inclus

Scripts : Exemples CLI pour les modes validate/generate et scripts d'aide compatibles cron (has_scripts=false dans les métadonnées du dépôt, mais des exemples CLI complets existent).
Références : documentation intégrée du schéma YAML, types de distribution, modèles d'anomalies et exemples d'API Python.
Instructions : flux de travail clair (écriture de la config → validation → génération), références de distribution et d'anomalie, modes de génération sensibles aux dates et utilisation orientée Python.

Agents compatibles

Utile pour les agents pouvant exécuter des commandes CLI ou Python (Bash/uv runner, agents compatibles Python comme Copilot/Cursor/Claude Code).

Étiquettes

#data-generation #testing #synthetic-data #anomalies #qa #ml #cli #python #data-quality

Aucun script exécutéAudité le April 28, 2026

Résumé de l'audit

MessyData is a synthetic dirty data generator using YAML configs with CLI and Python API. The SKILL.md is comprehensive and well-structured, covering config authoring, validation, generation, and date-aware modes. No bundled scripts to test. Uses uv for isolated execution which is a good security practice. Allowed-tools scope is reasonable but Bash(uv:*) is somewhat broad.

Points d'attention

Requires uv to be installed for CLI usage
Bash(uv:*) tool allowance is broad but scoped to uv subcommands

Notes

Clean, well-documented reference skill. No security concerns. Good use of uv for sandboxed execution. Comprehensive YAML reference with realistic examples. Could benefit from tighter Bash scoping in allowed-tools.

Informations

Dépôt: messydata
Étoiles: 31

Score de confiance

Global90

Sécurité95

Qualité du code88

Architecture82

Utilité70

Compétences similaires

Development Worktree

Create an isolated git worktree for feature work, auto-run project setup, and verify a clean test baseline before development.

Readwise Reader Document Management

Manage Readwise Reader documents: list, save, search, move, tag, highlight, export and bulk-edit via official and custom CLIs.

Full Stack Builder

End-to-end builder that scaffolds, implements, tests, and optionally deploys web and API applications from a natural-language specification.

ezBookkeeping API Tools

Command-line API tools for ezBookkeeping: record and query transactions, retrieve accounts/categories/tags, and fetch exchange rates for self-hosted personal fi

Claw Bench

Benchmarking skill that guides an agent through a structured suite of capability tests and reporting steps for leaderboard submission.

Jx Component Library

Build server-rendered UIs using reusable .jx components in Python/Jinja2 with typed props and automatic asset management.

Tmux Bridge

Give an agent controlled access to a local tmux terminal bridge so it can run shell commands, capture output, and manage sessions on the user's machine.

SourceSage CLI

Generate concise, LLM-friendly repository summaries (Markdown) using the SourceSage CLI — supports lite mode, language switching, and targeted repo analysis.

Retour aux compétences