
de shob460
Extrayez et explorez le contenu de sites web à grande échelle — prend en charge le HTTP direct, le rendu par navigateur et l'extraction par lots pour une sortie JSON structurée.
Cette compétence fournit une capacité d'extraction (scraping) et d'exploration (crawling) web polyvalente. Elle peut récupérer des pages via HTTP, utiliser un navigateur sans tête (headless) pour les sites rendus côté client, et renvoyer un JSON structuré contenant le texte, les tableaux et les listes extraits. Utilisez-la pour extraire des corps d'articles, des données de produits ou pour surveiller programmatiquement les changements d'un site. Elle prend en charge le traitement par lots d'URL et la gestion de la pagination pour les ensembles de données multi-pages.
Utilisez cette compétence lorsque vous avez besoin d'une extraction de contenu fiable à partir de sites statiques ou lourds en JavaScript, pour collecter des informations sur des produits, extraire des tableaux ou constituer des ensembles de données à partir de pages web publiques. Privilégiez-la pour la recherche, le data-mining, la surveillance des mises à jour de sites et les cas où vous souhaitez une sortie JSON bien structurée. Respectez les conditions d'utilisation des sites et les limites de requêtes (rate limits).
Fonctionne avec les outils d'agent capables d'effectuer des requêtes HTTP ou de contrôler des navigateurs sans tête (exemples : agents de style Claude/Code, intégrations Cursor/Copilot ou environnements d'exécution Node/Python personnalisés).
Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.