Rhesis permet aux agents de concevoir, générer et exécuter des suites de tests contre des endpoints d'IA. Cela couvre la découverte (exploration du domaine et du comportement d'un endpoint), la création de plans structurés (comportements, sets de tests, métriques), la génération et l'exécution de tests, ainsi que l'analyse des résultats — le tout via les outils du serveur MCP Rhesis.
Utilisez cette skill lorsque vous devez valider ou tester la robustesse d'un modèle d'IA ou d'un chatbot : explorer les capacités, construire des sets de tests reproductibles, lancer des évaluations automatisées ou comparer des exécutions de tests pour détecter des régressions. Elle est adaptée aux ingénieurs et aux équipes QA automatisant les flux d'évaluation des LLM.
references/ pour les stratégies et l'analyse.references/ pour orienter la génération et l'interprétation des tests.Optimale pour les agents pouvant interagir avec des serveurs MCP et des tâches asynchrones (Claude Code, agents utilisant l'outillage MCP, ou tout autre runtime d'agent capable d'appeler des outils de plateforme).
Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.