
Un flux de travail CLI guidé qui extrait le texte des PDF académiques (PyMuPDF + Tesseract), génère des notes Obsidian structurées et crée des canevas de réflexion critique JSON
PhD Deep Read propose un pipeline en quatre étapes pour transformer des PDF académiques en notes de littérature richement structurées et en canevas de réflexion critique. Il utilise un arbre de décision "Texte d'abord" (PyMuPDF pour les pages consultables avec repli sur l'OCR Tesseract) pour extraire le texte et les images, puis génère du markdown compatible Obsidian avec frontmatter YAML et callouts Dataview. La compétence produit également des fichiers JSON Canvas pour une analyse approfondie et inclut des étapes de vérification pour assurer la cohérence des résultats.
Utilisez cette compétence lors du traitement individuel ou par lots de PDF académiques pour des revues de littérature, la génération de notes reproductibles pour Obsidian, ou lorsque vous avez besoin d'une synthèse et d'une critique structurées (évaluation des hypothèses, des preuves, directions futures). Approprié pour les chercheurs, les étudiants diplômés et les travailleurs du savoir préparant des corpus de lecture.
Fonctionne avec les agents pouvant exécuter ou orchestrer des outils CLI/python (Claude Code, shells d'assistant ou wrappers CLI locaux). Idéal lorsque l'environnement fournit PyMuPDF et Tesseract pour l'OCR et que l'agent peut lire/écrire des fichiers pour l'intégration Obsidian.
Le flux de travail PhD Deep Read traite les PDF académiques en notes Obsidian structurées en utilisant un arbre de décision Text-First (PyMuPDF + fallback OCR Tesseract). Il génère des canevas de pensée critique JSON Canvas et des prompts de notes de littérature structurées. Le point d'entrée CLI et deux scripts d'aide ont fonctionné correctement ; la plupart des autres scripts nécessitent des arguments obligatoires ou des dépendances manquantes (PyMuPDF, Tesseract). Aucun problème de sécurité trouvé — pas d'appels réseau, pas d'exposition d'identifiants, pas d'opérations destructrices.
PyMuPDF (fitz)tesseract-ocrpytesseractpillowOutil académique propre et bien documenté. process.py effectue automatiquement un chmod des scripts .sh à 0o755 — mineur mais inoffensif. extract.py passe l'argument --lang directement au sous-processus tesseract — risque d'injection théorique si la valeur de lang n'est pas fiable, mais gravité faible car l'utilisateur contrôle l'entrée.