Arize Experiment

Name: Arize Experiment
Rating: 89 (1 reviews)
Author: github

Score de confiance 89/100

Créer, exécuter et analyser des expériences Arize pour évaluer et comparer les performances des modèles à l'aide de l'interface CLI ax.

déclencheurs:create experimentrun experimentexport runscompare modelsmodel performancebenchmarka/b test modelsevaluate AI

GitHub SKILL.md

Ce qu'il fait

Fournit des conseils étape par étape et des flux de travail CLI pour créer, exporter, exécuter et comparer des expériences Arize. Il couvre l'exportation de jeux de données, l'exécution d'inférences pour produire des runs, l'exportation des résultats et la comparaison des métriques d'évaluation pour le benchmarking et les tests A/B de modèles. Comprend des instructions claires pour utiliser l'interface CLI ax afin de lister, récupérer ou exporter des expériences et des modèles pour acheminer les exports d'expériences vers des scripts d'inférence.

Quand l'utiliser

Utilisez cette compétence lorsque vous devez évaluer la performance d'un modèle avec Arize : créer des expériences, exporter des runs, exécuter des inférences en masse sur des exemples de jeux de données, comparer deux expériences ou extraire des métriques pour analyse. Déclenchez-la lorsque l'utilisateur mentionne des expériences, des benchmarks, des tests A/B de modèles, l'évaluation de modèles, l'exportation de runs ou l'utilisation de la CLI ax.

Ce qui est inclus

Scripts : conseils et modèles pour infer.py et l'acheminement des exports ax vers des outils (has_references=true).
Références : documents liés dans le dépôt pour la configuration, les profils et les conseils d'exportation.
Instructions : comment exporter des jeux de données, générer des runs en appelant l'API réelle du modèle, vérifier les runs et créer des expériences via ax. Met l'accent sur le fait de ne jamais fabriquer de résultats et explique comment basculer entre les exports REST et Arrow Flight.

Agents compatibles

Fonctionne avec les agents capables d'exécuter des commandes shell et d'invoquer des SDK de fournisseurs (OpenAI, Anthropic, Google Gemini, proxys compatibles OpenAI personnalisés).

Étiquettes

#arize #experiments #evaluation #benchmarking #ax-cli #model-evaluation #a-b-testing #datasets #metrics

Aucun script exécutéAudité le June 17, 2026

Résumé de l'audit

La compétence Arize Experiment fournit un flux complet piloté par CLI pour créer, exécuter et comparer des expériences de modèles ML via la CLI ax. Le fichier SKILL.md est exceptionnellement bien documenté avec des exemples de commandes clairs, des tableaux de flags, des guides de dépannage et des garde-fous contre la fabrication de données. Aucun script joint à exécuter. La posture de sécurité est forte — elle interdit explicitement l'exfiltration d'identifiants et la fabrication de sorties.

Points d'attention

Nécessite l'installation de la CLI ax et la configuration d'un compte Arize
Le jeu de données doit exister avant de lancer des expériences
L'export REST est limité à 500 exécutions par page — utilisez le flag --all pour des jeux de données plus larges

Notes

Fait partie du dépôt awesome-copilot sous plugins/arize-ax. Documentation bien maintenue et soucieuse de la sécurité, avec des avertissements explicites contre la fabrication de résultats et la lecture de fichiers .env. Aucun script inclus — SKILL.md purement pédagogique.

Informations

Dépôt: awesome-copilot
Étoiles: 34,827

Score de confiance

Global89

Sécurité92

Qualité du code88

Architecture82

Utilité72

Plus de awesome-copilot

Générateur de Blueprints d'Instructions Copilot

Génère un blueprint agnostique techniquement pour créer des fichiers copilot-instructions.md alignant la sortie de Copilot avec l'architecture exacte, les versions et les normes d'un projet.

Quality Playbook

Exécutez un audit complet d'ingénierie de la qualité sur n'importe quelle base de code. Déduit les exigences comportementales du code, génère des tests fonctionnels tracés selon les spécifications, et effectue une revue de code en trois passages.

FlowStudio Power Automate Builder

Construisez, structurez, déployez et vérifiez vos flux cloud Power Automate par programmation via un serveur MCP FlowStudio ; gère la découverte des connexions, la construction des définitions,

Compétences similaires

Cross-Project Analytics

Query local, privacy-safe cross-project analytics to report on agent, skill, hook, and team performance; replay sessions and estimate token costs.

ToolUniverse Gateway

Unified agent gateway to 1000+ scientific tools (bioinformatics, drug discovery, genomics) via Harvard's ToolUniverse, returning JSON for downstream workflows.

Popup CRO

Design and optimize popups, modals, banners, and slide-ins to increase conversions without harming user experience or SEO.

MetricFlow: Interactive Metric Definition

Interactively define MetricFlow metrics from natural-language business descriptions; proposes, validates, and dry-runs metric YAML for semantic modeling.

Harness Health Audit

Assess and score the overall health of a Claude Code harness across architecture, skills coverage, hooks, rules, MCP servers, eval pipelines, and team setup.

LLM Evaluation

Evaluation framework and tools for systematically measuring LLM performance using automated metrics, human judgment, and A/B testing.

OpenTelemetry Skill — Observability Engineering Assistant

Expert OpenTelemetry observability skill for designing collectors, pipelines, sampling, cardinality management, security, and production-ready deployment patter

Code Evaluation Harness

Spawns an independent evaluator agent to score code outputs on functionality, code quality, originality, and usability/security, producing a structured EVAL_REP

Retour aux compétences