Web Scraper

de shob460

Extrayez et explorez le contenu de sites web à grande échelle — prend en charge le HTTP direct, le rendu par navigateur et l'extraction par lots pour une sortie JSON structurée.

déclencheurs:scrapecrawlextract contentmonitor websiteextract tablesbatch url processing

GitHub SKILL.md

Ce qu'il fait

Cette compétence fournit une capacité d'extraction (scraping) et d'exploration (crawling) web polyvalente. Elle peut récupérer des pages via HTTP, utiliser un navigateur sans tête (headless) pour les sites rendus côté client, et renvoyer un JSON structuré contenant le texte, les tableaux et les listes extraits. Utilisez-la pour extraire des corps d'articles, des données de produits ou pour surveiller programmatiquement les changements d'un site. Elle prend en charge le traitement par lots d'URL et la gestion de la pagination pour les ensembles de données multi-pages.

Quand l'utiliser

Utilisez cette compétence lorsque vous avez besoin d'une extraction de contenu fiable à partir de sites statiques ou lourds en JavaScript, pour collecter des informations sur des produits, extraire des tableaux ou constituer des ensembles de données à partir de pages web publiques. Privilégiez-la pour la recherche, le data-mining, la surveillance des mises à jour de sites et les cas où vous souhaitez une sortie JSON bien structurée. Respectez les conditions d'utilisation des sites et les limites de requêtes (rate limits).

Ce qui est inclus

Scripts : aucun script groupé avec SKILL.md (des exemples sont présents dans le corps).
Références : aucune pièce jointe.
Instructions : exemples clairs de format JSON de tâche, modes d'extraction (auto, curl-only, browser-only) et conseils sur les meilleures pratiques pour les délais et la gestion des erreurs. Le corps décrit les modèles d'utilisation pour l'extraction d'une seule page, le traitement par lots et les flux de travail de data-mining.

Agents compatibles

Fonctionne avec les outils d'agent capables d'effectuer des requêtes HTTP ou de contrôler des navigateurs sans tête (exemples : agents de style Claude/Code, intégrations Cursor/Copilot ou environnements d'exécution Node/Python personnalisés).

Étiquettes

#scraping #web-crawler #data-extraction #web-automation #crawler #content-extraction #monitoring #batch-processing

Pas encore audité

Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.

Informations

Dépôt: shob
Étoiles: 460
Installations: 0

Compétences similaires

AWP (Agent Work Protocol)

Tooling and scripts for onboarding, staking, allocation, and managing agents on the AWP network (Base/Ethereum/Arbitrum/BSC). Includes safe, opt-in daemon and r

Markdrop

Convert PDFs to structured Markdown or interactive HTML and generate AI-powered descriptions for images and tables using multiple LLM providers.

Cost Tracker

Monitor agent session costs, set budget alerts, and get actionable token-spend optimizations to keep multi-session workflows within budget.

ClawPod / Massive Unblocker

Bypass anti-bot restrictions and fetch rendered HTML or structured search results via Massive's Unblocker API (handles CAPTCHAs, JS rendering, geo-restrictions)

Canary — Post-Deploy Visual Monitor

Run a short post-deploy monitor that captures screenshots, checks console errors, and compares performance against baselines to detect regressions and page fail

Monitoring Stack Deployer

Deploy and configure production-ready monitoring stacks (Prometheus, Grafana, Datadog) with collectors, dashboards, and alerting rules for Kubernetes, Docker, o

Azure External Attack Surface Management

Provides expert guidance for Azure External Attack Surface Management (EASM): quotas, configuration, integrations, and exporting inventory to analytics platform

Cross-Project Analytics

Query local, privacy-safe cross-project analytics to report on agent, skill, hook, and team performance; replay sessions and estimate token costs.

Retour aux compétences