
de deepcamera2,688
Estimation de la profondeur monoculaire en temps réel pour les flux caméra avec un mode "profondeur seule" axé sur la confidentialité pour anonymiser les personnes tout en préservant la disposition de la scène.
Cette compétence fournit une estimation de la profondeur monoculaire en temps réel utilisant Depth Anything v2, produisant des cartes de profondeur colorisées et des superpositions pour les flux caméra en direct. Elle supporte plusieurs backends (CoreML sur macOS avec Apple Neural Engine et PyTorch sur Linux/Windows avec CUDA/CPU) et inclut un mode de mélange depth_only orienté confidentialité qui supprime les caractéristiques visuelles identifiables tout en préservant la disposition spatiale et l'activité pour la surveillance et l'analyse. La compétence expose une interface compatible avec TransformSkillBase afin qu'elle puisse être intégrée dans des pipelines de caméras de style Aegis et d'autres systèmes de traitement vidéo.
Utilisez cette compétence lorsque vous avez besoin de transformations vidéo sensibles à la profondeur : surveillance préservant la confidentialité (masquer les identités mais garder les mouvements/positions), superpositions de profondeur pour la visualisation, ou compréhension de scène 3D pour des analyses en aval (comptage de personnes, alertes de proximité, raisonnement sur l'occlusion). Elle est adaptée aux appareils de bord (accélération Apple Neural Engine) et aux déploiements serveur/bureau avec CUDA.
Idéal avec les agents ou systèmes qui s'intègrent aux compétences de transformation de caméra et aux pipelines basés sur Python (agents pouvant exécuter des scripts Python locaux, agents macOS compatibles CoreML, ou agents Copilot/Code axés sur la vision).
Le SKILL.md décrit une compétence de confidentialité pour l'estimation de la profondeur 'Depth Anything v2', mais 6 des 7 scripts fournis proviennent d'un projet de reconnaissance faciale sans rapport (model-r50-am-lfw, src/embedding, src/face_detection). Seul transform.py correspond à l'objectif déclaré. Ce décalage entre la fonction annoncée et les scripts fournis est préoccupant. Les scripts ne comportent aucune gestion d'erreurs, utilisent le pip2 obsolète, téléchargent des blobs binaires depuis GitHub sans vérification de checksum et lancent sshd/redis/mosquitto comme services d'arrière-plan — aucun n'est lié à l'estimation de la profondeur.
transform_basedepth_anything_v2coremltoolsLes scripts semblent provenir du projet de détection de visage de github.com/solderzzc, intégrés accidentellement (ou intentionnellement) dans une compétence d'estimation de profondeur. Pas clairement malveillant, mais le décalage sévère du contenu justifie une révision manuelle. Le score de sécurité reste à 7 car il n'y a que du wget (pas de pipe vers shell), pas d'identifiants codés en dur, mais le démarrage de sshd et les téléchargements binaires non vérifiés réduisent la confiance.