
de messydata31
Génère des jeux de données synthétiques réalistes avec des anomalies configurables (valeurs manquantes, doublons, catégories invalides, dates erronées, valeurs aberrantes) via des configurations YAML et CLI.
MessyData produit des DataFrames synthétiques réalistes à partir d'une configuration YAML déclarative ou d'un schéma Python. Il injecte des anomalies contrôlées (valeurs manquantes, doublons, catégories invalides, erreurs de date, valeurs aberrantes) pour émuler des jeux de données réels « sales » pour les tests, l'assurance qualité et les vérifications de robustesse du ML.
Déclenchez cette compétence lorsque vous avez besoin de données synthétiques sales pour tester des pipelines, valider du code de nettoyage de données, créer des échantillons de cas limites pour l'entraînement de modèles ou la QA, ou planifier des remplissages quotidiens de jeux de données générés.
Utile pour les agents pouvant exécuter des commandes CLI ou Python (Bash/uv runner, agents compatibles Python comme Copilot/Cursor/Claude Code).
MessyData is a synthetic dirty data generator using YAML configs with CLI and Python API. The SKILL.md is comprehensive and well-structured, covering config authoring, validation, generation, and date-aware modes. No bundled scripts to test. Uses uv for isolated execution which is a good security practice. Allowed-tools scope is reasonable but Bash(uv:*) is somewhat broad.
Clean, well-documented reference skill. No security concerns. Good use of uv for sandboxed execution. Comprehensive YAML reference with realistic examples. Could benefit from tighter Bash scoping in allowed-tools.