Assistant d'Évaluation OmniDocBench

Name: Assistant d'Évaluation OmniDocBench
Rating: 87 (1 reviews)
Author: opendatalab

Score de confiance 87/100

Exécutez, validez et analysez les évaluations de parsing de documents OmniDocBench avec des flux Docker/conda et l'analyse des résultats.

déclencheurs:OmniDocBenchomnidocbenchevaluationpdf_validationCDMTEDSend2endmd2md

Assistant d'évaluation OmniDocBench\n\nAide les utilisateurs à exécuter OmniDocBench de manière reproductible : validation des entrées, génération de configurations isolées, exécution de l'évaluation (Docker privilégié) et analyse des JSON de métriques et de résultats. Inclut des aides pour les modes end2end et md2md, des conseils pour les paramètres CDM/TEDS et des flux de travail SSH/H-cluster distants.\n\n## Fonctionnalités\n- Valide les répertoires JSON de vérité terrain (ground-truth) et les prédictions markdown.\n- Génère des fichiers de configuration YAML end2end stables basés sur des conteneurs.\n- Exécute `python pdf_validation.py --config ...` à l'intérieur de l'image Docker recommandée `ghcr.io/zeng-weijun/omnidocbench-eval:repro-ubuntu2204`.\n- Analyse et résume les fichiers `_metric_result.json`, `_run_summary.json`, `_stage_execution.json` et `_runtime_environment.json`.\n- Dépannage : accès Docker, erreurs OOM de CDM, problèmes de politique ImageMagick, capitalisation GT et imbrication des dossiers de prédiction.\n\n## Prompts / Usage recommandés\n- "Comment exécuter l'évaluation end2end OmniDocBench sur mes JSON GT et mes prédictions markdown ?"\n- "Aidez-moi à analyser un répertoire de résultats OmniDocBench et à extraire les scores globaux, texte, formule et tableau."\n- "Je rencontre des erreurs OOM avec CDM — comment régler cdm_workers sur un nœud 4CPU/8GB ?"\n\n## Installation / Scripts\nLe skill inclut les scripts : `scripts/generate_end2end_config.py` et `scripts/parse_results.py` pour la génération de configurations et l'analyse des résultats. Suivez le flux Docker indiqué dans le skill pour éviter les problèmes de dépendances locales.\n

Étiquettes

#evaluation #omnidocbench #document-parsing #docker #metrics #cdm #teds

Aucun script exécutéAudité le June 29, 2026

Résumé de l'audit

Une compétence bien documentée pour exécuter des évaluations de parsing de documents OmniDocBench via Docker ou conda. Le SKILL.md est approfondi avec validation des entrées, flux Docker/SSH, conseils de configuration et un guide de dépannage détaillé. Aucun script intégré à tester. La posture de sécurité est forte : montages en lecture seule pour les entrées, pas de commandes destructrices, pas d'identifiants, sudo non interactif uniquement en dernier recours. La principale limitation est l'audience restreinte — utile uniquement aux chercheurs évaluant des modèles de parsing de documents sur OmniDocBench.

Points d'attention

Nécessite l'installation d'un environnement Docker ou conda pour être réellement utilisé
Utile uniquement pour l'évaluation OmniDocBench — public très restreint
Le flux SSH suppose que l'utilisateur fournit la commande SSH comme autorisation
Les dépendances CDM (TeX Live, ImageMagick, Ghostscript) sont complexes en dehors de Docker

Notes

Aucun script à exécuter. Déductions de sécurité : -3 pour l'interpolation de variables shell dans les heredocs/commandes Docker (risque d'injection mineur si les chemins utilisateur contiennent des caractères spéciaux, bien que les chemins soient quotés dans la validation), -2 pour le modèle de repli sudo -n. La qualité est élevée mais il n'y a pas de scripts idempotents à vérifier. L'architecture est bonne — sections claires, divulgation progressive, conseils de parsing des résultats — mais pas de répertoires scripts/ ou references/. L'utilité est de niche : seuls les chercheurs exécutant des évaluations OmniDocBench utiliseraient cela.

Informations

Dépôt: opendatalab

Score de confiance

Global87

Sécurité95

Qualité du code82

Architecture75

Utilité42

Compétences similaires

Sync Production Database to Development

Run a safe, scripted workflow to download production database dumps and restore them into a development environment (download-only and restore options).

Cross-Project Analytics

Query local, privacy-safe cross-project analytics to report on agent, skill, hook, and team performance; replay sessions and estimate token costs.

Docker Compose Generator

Generate and validate Docker Compose files for multi-container apps with templates, best-practice guidance, and deployment/runbook outputs.

Code Audit

Perform professional code security audits across 9 languages with configurable quick/standard/deep modes and Docker-backed verification.

MetricFlow: Interactive Metric Definition

Interactively define MetricFlow metrics from natural-language business descriptions; proposes, validates, and dry-runs metric YAML for semantic modeling.

Harness Health Audit

Assess and score the overall health of a Claude Code harness across architecture, skills coverage, hooks, rules, MCP servers, eval pipelines, and team setup.

LLM Evaluation

Evaluation framework and tools for systematically measuring LLM performance using automated metrics, human judgment, and A/B testing.

OpenTelemetry Skill — Observability Engineering Assistant

Expert OpenTelemetry observability skill for designing collectors, pipelines, sampling, cardinality management, security, and production-ready deployment patter

Retour aux compétences