
Doc Scraper
Interface UIpar Sriram-PR
Convertissez les sites de documentation technique en Markdown propre pour l'ingestion par LLM et les pipelines RAG.
Ce qu'il fait
Doc Scraper est un crawler web haute performance développé en Go, spécifiquement conçu pour transformer des sites de documentation complexes en fichiers Markdown structurés. Il élimine le superflu du web, préserve la hiérarchie du site et optimise le contenu pour les grands modèles de langage (LLM), ce qui en fait un outil essentiel pour construire des systèmes RAG (Retrieval-Augmented Generation).
Outils
list_sites: Liste tous les sites configurés dans le fichier de configuration.get_page: Récupère une URL unique et renvoie le contenu au format markdown.crawl_site: Lance un crawl en arrière-plan pour un site spécifique.get_job_status: Vérifie la progression d'une tâche de crawl en arrière-plan.search_crawled: Recherche dans le contenu précédemment crawlé au sein des fichiers JSONL.
Installation
Ajoutez ceci à votre fichier claude_desktop_config.json :
{
"mcpServers": {
"doc-scraper": {
"command": "/chemin/vers/doc-scraper",
"args": ["mcp-server", "-config", "/chemin/vers/config.yaml"]
}
}
}
Hôtes supportés
Support confirmé pour Claude Desktop, Cursor et Claude Code.
Installation rapide
go install github.com/Sriram-PR/doc-scraper/cmd/doc-scraper@latestInformations
- Tarification
- free
- Publié
- 4/18/2026






