AgentEvals

Name: AgentEvals
Availability: InStock
Author: agentevals-dev

Interface UI

par agentevals-dev

Évaluation d'agents IA indépendante du framework utilisant les traces OpenTelemetry pour noter la performance et la qualité de l'inférence sans réexécution.

0 étoiles

Fonctionne dans:claude

Expose:Tools

Voir sur GitHub Documentation

Ce qu'il fait

AgentEvals se connecte aux traces d'exécution des agents IA via OpenTelemetry (OTel) pour fournir une notation déterministe du comportement de l'agent. Il permet aux développeurs de benchmarker les agents avant la production en analysant les trajectoires d'outils et la qualité des réponses à partir des traces existantes, éliminant ainsi le besoin de ré-exécutions coûteuses et lentes.

Outils

list_metrics: Affiche toutes les métriques d'évaluation intégrées et communautaires disponibles.
evaluate_traces: Traite les fichiers de traces OTLP ou Jaeger locaux pour générer des scores.
list_sessions: Liste les sessions de streaming actives pour une évaluation en temps réel.
summarize_session: Fournit un résumé structuré des appels d'outils d'une session d'agent.
evaluate_sessions: Note les sessions en direct par rapport à un ensemble de référence doré défini.

Installation

Ajoutez à votre claude_desktop_config.json :

{
  "mcpServers": {
    "agentevals": {
      "command": "agentevals",
      "args": ["mcp"]
    }
  }
}

Hôtes supportés

Claude Desktop
Claude Code

Installation rapide

pip install agentevals-cli

Informations

Tarification: free
Publié: 6/18/2026
étoiles: 0

Catégories

Developer Tools

Choisissez votre client IA et suivez les étapes ci-dessous.

Claude Desktop

{"mcpServers": {"agentevals": {"command": "agentevals", "args": ["mcp"]}}}

Apps similaires

FinanceToolkit

MCP Server

Professional-grade financial analysis toolkit for equities, options, and risk management.

DiffSitter MCP

MCP Server

AI-powered structural code navigation using tree-sitter ASTs for semantic understanding across 14+ languages.

OpenAI Apps SDK Examples

MCP App

Official example gallery of interactive MCP widgets for ChatGPT — 3D viewers, maps, carousels, shopping carts, and more.

Human MCP

MCP Server

Give AI agents human-like senses: visual analysis, image/video generation, speech synthesis, browser automation, and advanced reasoning — 29 MCP tools in one se

Containarium

MCP Server

Self-hostable agent runtime with SSH-native isolation, eBPF egress policy, and MCP-native CLI.

Shopify MCP Server

MCP Server

Direct interaction with Shopify store data via GraphQL API for managing products, customers, and orders.

Git MCP Server

MCP Server

Full-featured Git MCP server exposing 28 tools for AI agents to clone, commit, branch, diff, merge, rebase, and more via STDIO or Streamable HTTP.

CodexPotter

MCP Server

Autonomous reconciliation loop that drives Codex to align your codebase with instructed states.

Retour aux applications

AgentEvals

Interface UI

par agentevals-dev

Évaluation d'agents IA indépendante du framework utilisant les traces OpenTelemetry pour noter la performance et la qualité de l'inférence sans réexécution.

0 étoiles

Fonctionne dans:claude

Expose:Tools

Voir sur GitHub Documentation

Ce qu'il fait

Outils

list_metrics: Affiche toutes les métriques d'évaluation intégrées et communautaires disponibles.
evaluate_traces: Traite les fichiers de traces OTLP ou Jaeger locaux pour générer des scores.
list_sessions: Liste les sessions de streaming actives pour une évaluation en temps réel.
summarize_session: Fournit un résumé structuré des appels d'outils d'une session d'agent.
evaluate_sessions: Note les sessions en direct par rapport à un ensemble de référence doré défini.

Installation

Ajoutez à votre claude_desktop_config.json :

{
  "mcpServers": {
    "agentevals": {
      "command": "agentevals",
      "args": ["mcp"]
    }
  }
}

Hôtes supportés

Claude Desktop
Claude Code

Installation rapide

pip install agentevals-cli

Informations

Tarification: free
Publié: 6/18/2026
étoiles: 0

Catégories

Developer Tools

Choisissez votre client IA et suivez les étapes ci-dessous.

Claude Desktop

{"mcpServers": {"agentevals": {"command": "agentevals", "args": ["mcp"]}}}

Apps similaires

FinanceToolkit

MCP Server

Professional-grade financial analysis toolkit for equities, options, and risk management.

DiffSitter MCP

MCP Server

AI-powered structural code navigation using tree-sitter ASTs for semantic understanding across 14+ languages.

OpenAI Apps SDK Examples

MCP App

Official example gallery of interactive MCP widgets for ChatGPT — 3D viewers, maps, carousels, shopping carts, and more.

Human MCP

MCP Server

Give AI agents human-like senses: visual analysis, image/video generation, speech synthesis, browser automation, and advanced reasoning — 29 MCP tools in one se

Containarium

MCP Server

Self-hostable agent runtime with SSH-native isolation, eBPF egress policy, and MCP-native CLI.

Shopify MCP Server

MCP Server

Direct interaction with Shopify store data via GraphQL API for managing products, customers, and orders.

Git MCP Server

MCP Server

Full-featured Git MCP server exposing 28 tools for AI agents to clone, commit, branch, diff, merge, rebase, and more via STDIO or Streamable HTTP.

CodexPotter

MCP Server

Autonomous reconciliation loop that drives Codex to align your codebase with instructed states.