Web Scraping — Stratégie Adaptive

Score de confiance 87/100

Compétence de web-scraping adaptive qui choisit l'approche fiable la moins coûteuse (HTTP, navigateur, API ou hybride), découvre les API via l'interception de trafic et peut produ

déclencheurs:scrapeextract data403productionizemake this an apify actorapi discoverytraffic interception

GitHub SKILL.md

Ce qu'elle fait

Cette compétence guide un agent à travers un flux de travail de reconnaissance et de mise en œuvre de web-scraping adaptatif et phasé. Elle commence par des vérifications HTTP légères (curl), passe à la reconnaissance par navigateur et à l'interception de trafic si nécessaire, découvre les API/points de terminaison, valide les sélecteurs/chemins JSON et documente une stratégie d'extraction reproductible. Elle inclut également des conseils pour transformer un scraper fonctionnel en un Apify Actor de production (priorité TypeScript).

Quand l'utiliser

Utilisez-la lorsque vous devez extraire des données structurées d'un site web, enquêter sur des problèmes de blocage/403, trouver des API derrière un site ou convertir un scraper ad hoc en un actor de production. Les déclencheurs incluent : "scraper [site]", "extraire des données de", "je suis bloqué" et "En faire un Apify Actor".

Ce qui est inclus

Scripts : aucun script groupé dans le dépôt (has_scripts=false) mais la compétence contient des exemples et des modèles exécutables (examples/*, modèles apify).
Références : références dans le dépôt et documents de stratégie (has_references=false pour le flag de haut niveau, mais de nombreux sous-fichiers sont référencés dans le SKILL.md).
Instructions : un flux de travail de reconnaissance détaillé en 6 phases (Phases 0-5), des étapes de validation, des conseils sur les tests de protection, un schéma de rapport et une liste de contrôle de production pour les Apify Actors.

Agents compatibles

Fonctionne bien pour les agents capables d'exécuter des flux shell et Node (Claude Code, Copilot/agents d'écriture de code, agents pouvant exécuter des exemples Playwright/Crawlee).

Étiquettes

#web-scraping #apify #crawlee #playwright #data-extraction #anti-blocking #automation #typescript #api-discovery

Aucun script exécutéAudité le May 17, 2026

Résumé de l'audit

Compétence complète de web-scraping avec un flux de travail adaptatif phasé (curl rapide → navigateur → scan approfondi → test de protection → rapport). Aucun script intégré — SKILL.md basé uniquement sur des instructions avec une divulgation progressive étendue à travers les sous-répertoires strategies/, workflows/, reference/ et apify/. Portes de qualité et phase d'auto-critique bien structurées. Liée à l'écosystème Apify/Crawlee, mais les phases de reconnaissance sont généralement applicables.

Points d'attention

Dépend fortement de la disponibilité de l'outil proxy-mcp (interceptor_chrome_*, proxy_*, humanizer_*) qui peut ne pas être présent
Les conseils anti-détection/anti-blocage sont détaillés mais dépendent du contexte de l'infrastructure proxy spécifique
Aucun script intégré à valider — tout est basé sur des instructions

Notes

L'une des compétences les mieux documentées rencontrées. La divulgation progressive via des sous-répertoires est exemplaire. L'approche phasée avec des portes de qualité empêchant les lancements inutiles de navigateurs est bien conçue. La sécurité est propre — pas de fuite d'identifiants, de commandes destructrices ou de risques d'exfiltration.

Informations

Dépôt: web-scraper
Étoiles: 39

Score de confiance

Global87

Sécurité92

Qualité du code78

Architecture88

Utilité82

Compétences similaires

Development Worktree

Create an isolated git worktree for feature work, auto-run project setup, and verify a clean test baseline before development.

Readwise Reader Document Management

Manage Readwise Reader documents: list, save, search, move, tag, highlight, export and bulk-edit via official and custom CLIs.

Bounty Hunter — Atlas

Persona skill: 'Atlas' — a profit-focused developer persona for discovering, evaluating and executing paid bounties or freelance tasks with ROI-aware workflows.

Junshi — Research Advisor

Daily strategic research advisor that scans arXiv/venues, digests papers, and proposes bold, ranked research ideas tailored to the user's profile.

Full Stack Builder

End-to-end builder that scaffolds, implements, tests, and optionally deploys web and API applications from a natural-language specification.

ezBookkeeping API Tools

Command-line API tools for ezBookkeeping: record and query transactions, retrieve accounts/categories/tags, and fetch exchange rates for self-hosted personal fi

Feishu Voice Sender

Convert MP3s and send them as native Feishu voice messages (playable voice clips) to users or groups.

Claw Bench

Benchmarking skill that guides an agent through a structured suite of capability tests and reporting steps for leaderboard submission.

Retour aux compétences