
de mineru-ecosystem112
Compétence d'extraction de documents via CLI : convertissez les PDF, images, Word/PPT/Excel et pages web en Markdown/HTML/LaTeX/DOCX avec OCR et reconnaissance des tableaux et formules.
MinerU fournit une compétence CLI pour convertir une large gamme de documents (PDF, images scannées, Word, PPT, Excel, pages web) en Markdown propre ou d'autres formats. Il comprend deux modes : un mode 'flash-extract' sans configuration pour une sortie Markdown rapide (sans jeton) et un mode 'extract' de précision (avec jeton) pour une sortie multi-format, l'analyse de mise en page VLM, le traitement par lots, l'OCR et la reconnaissance des tableaux et formules.
Utilisez MinerU lorsque vous avez besoin d'une conversion rapide et fiable de documents complexes ou scannés en texte éditable (articles de recherche, rapports, diapositives, scans), pour extraire avec précision des tableaux ou des formules, ou pour traiter par lots un grand nombre de fichiers. Choisissez 'flash-extract' pour des conversions ponctuelles rapides et 'extract' pour une précision accrue et des fichiers plus volumineux.
Idéalement utilisé par des agents ou des outils capables d'invoquer des CLI système et de traiter stdout/stderr (agents d'automatisation, assistants de développement, pipelines de recherche).
Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.