Senior Data Engineer

Compétence d'ingénierie des données prête pour la production pour la conception de pipelines ETL/ELT et de streaming en temps réel, la qualité des données et l'optimisation des performances des pipelines.

déclencheurs:build etl pipelinestreaming pipelinedata qualitygenerate airflow dagkafka configoptimize spark

GitHub SKILL.md

Ce qu'il fait

Fournit une boîte à outils complète d'ingénierie des données axée sur la production : génération de DAG Airflow, squelettes de jobs de streaming (Flink/Spark), générateurs de configuration Kafka, validation de la qualité des données et analyse des performances. Il aide à construire des pipelines ETL/ELT de bout en bout et des architectures de streaming en temps réel avec surveillance et intégration CI/CD.

Quand l'utiliser

Utilisez cette compétence lorsque vous devez concevoir ou implémenter des pipelines de données de production (batch ou streaming), ajouter des contrôles automatisés de qualité des données, créer des squelettes de jobs streaming/Flink, générer des configurations Kafka, ou profiler et optimiser les performances des pipelines. Idéal pour l'ETL d'entreprise, la construction de data-lake/warehouse et l'infrastructure de données ML de production.

Ce qui est inclus

Scripts : pipeline_orchestrator.py, data_quality_validator.py, stream_processor.py, kafka_config_generator.py, etl_performance_optimizer.py, streaming_quality_validator.py (has_scripts=true)
Références : frameworks, templates, documentation des outils (has_references=true)
Instructions : génération de pipeline pilotée par YAML, templates de DAG Airflow, guidage de modèle dbt, modèles de règles de qualité des données, flux de validation et de surveillance du streaming.

Agents compatibles

Idéalement conçu pour les agents capables d'exécuter des outils Python et de s'intégrer aux systèmes Git/CI (Copilot/assistants de code, Claude Code/Cursor), et pouvant fonctionner avec des piles de données conteneurisées ou cloud.

Étiquettes

#data-engineering #etl #streaming #kafka #flink #airflow #data-quality #performance #dbt

Pas encore audité

Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.

Informations

Dépôt: skillsbench
Étoiles: 1,301

Compétences similaires

OpenTestAI

Automated, high-confidence AI testing: bug detection, persona feedback, and prioritized test-case generation using many specialized tester profiles.

SSE Stream Resilience

Provide robust server-sent-events (SSE) stream management with Redis-backed registry, heartbeat monitoring, completion persistence, and background guardian clea

Go Data Structures

Authoritative guidance on choosing and using Go built-in and standard-library data structures, with practical best practices for slices, maps, arrays, container

React Development Expert

Provides authoritative React guidance on hooks, state patterns, Server Components, performance optimization, and common architectural patterns.

Code Reviewer

Perform structured, prioritized code reviews that find correctness, security, performance, reliability, and testing issues and provide concrete fix suggestions.

dotLottie Web

Guidelines and patterns for implementing performant dotLottie/Lottie animations on the web (vanilla JS and React), including workers, state machines, and themin

Party Engine Skill

Guidance and examples for using the @cazala/party particle engine (engine lifecycle, modules, WebGPU vs CPU patterns) in custom apps.

Party Skill

Programmatic guide for the @cazala/party library: engine setup, modules, particle APIs, and performance tips for WebGPU and CPU runtimes.

Retour aux compétences