Tests IA Rhesis

Score de confiance 90/100

de rhesis354

Concevez, exécutez et analysez des suites de tests IA pour des endpoints et des chatbots via la plateforme Rhesis.

déclencheurs:test my chatbotrun a test suiteanalyze test resultsexplore endpointgenerate test set

GitHub SKILL.md

Ce que fait cette skill

Rhesis permet aux agents de concevoir, générer et exécuter des suites de tests contre des endpoints d'IA. Cela couvre la découverte (exploration du domaine et du comportement d'un endpoint), la création de plans structurés (comportements, sets de tests, métriques), la génération et l'exécution de tests, ainsi que l'analyse des résultats — le tout via les outils du serveur MCP Rhesis.

Quand l'utiliser

Utilisez cette skill lorsque vous devez valider ou tester la robustesse d'un modèle d'IA ou d'un chatbot : explorer les capacités, construire des sets de tests reproductibles, lancer des évaluations automatisées ou comparer des exécutions de tests pour détecter des régressions. Elle est adaptée aux ingénieurs et aux équipes QA automatisant les flux d'évaluation des LLM.

Ce qui est inclus

Scripts : aucun script de repo n'est requis pour l'agent, mais la skill fait référence au dossier references/ pour les stratégies et l'analyse.
Références : inclut des stratégies d'exploration et des conseils d'analyse de résultats dans references/ pour orienter la génération et l'interprétation des tests.
Instructions : un flux de travail détaillé par phases (découverte, planification, création, exécution, analyse) ainsi que des conventions de nommage, d'efficacité des requêtes et de polling pour les jobs asynchrones.

Agents compatibles

Optimale pour les agents pouvant interagir avec des serveurs MCP et des tâches asynchrones (Claude Code, agents utilisant l'outillage MCP, ou tout autre runtime d'agent capable d'appeler des outils de plateforme).

Étiquettes

#llm-evaluation #testing #qa #mcp #analytics #test-generation #ai-safety

Aucun script exécutéAudité le July 12, 2026

Résumé de l'audit

Rhesis is a well-documented MCP skill for designing and running AI test suites on the Rhesis platform. It has no bundled scripts — all functionality is via MCP server tools. The SKILL.md is thorough with clear phases, field constraints, naming conventions, and security boundaries. No security issues found.

Points d'attention

Requires Rhesis MCP server connected and API token configured
No scripts to test — purely MCP-tool-driven
References external docs (entity-model.md, exploration-strategies.md) not bundled in the skill

Notes

Strong skill documentation with good security posture (prompt injection resistance, information boundaries, tool scope limits). No scripts to audit. References directory pattern is good but referenced files aren't included in the skill package.

Informations

Dépôt: rhesis
Étoiles: 354

Score de confiance

Global90

Sécurité95

Qualité du code88

Architecture78

Utilité68

Compétences similaires

Starlark Dev

Create, debug, and test Kurtosis Starlark packages — write package structure, run dry-runs, and inspect plan execution for reliable orchestration.

Run Execute

Orchestrates execution of work items across modes (autopilot, confirm, validate) with scripted init/complete tooling, plan/test/report artifacts and strict gati

Alpha Forge Pre-Ship Quality Gates

Pre-merge quality gates for PRs that validate RNG determinism, forked URLs, runtime parameter ranges, and manifest synchronization to reduce review cycles.

Ip2Location IO Automation (Composio)

Automate Ip2location IO tasks via Composio's Rube MCP toolkit — discover tools, verify connections, and execute schema-compliant workflows safely.

OpenTestAI

Automated, high-confidence AI testing: bug detection, persona feedback, and prioritized test-case generation using many specialized tester profiles.

Shopify Store Audit

Structured, page-by-page audit of Shopify storefronts to find conversion blockers and prioritized fixes for copy, UX, trust signals, and checkout friction.

Blender Build-Go (bgo)

Automate build → remove → install → enable → launch cycle for Blender extensions or add-ons to speed up iteration and CI workflows.

Overnight — Autonomous Long-Running Coding

Orchestrates long-running coding goals: decomposes objectives into atomic tasks, dispatches isolated worktree workers, verifies acceptance criteria, and merges

Retour aux compétences