Mappage de Boîtes Englobantes d'Entités de Facture (Gestion des Doublons)

Name: Mappage de Boîtes Englobantes d'Entités de Facture (Gestion des Doublons)
Rating: 74 (1 reviews)
Author: ecnu-icalk

Score de confiance 74/100

de autoskill458

Corrige le mappage entité-boîte englobante OCR pour les factures afin d'éviter les boîtes partagées pour les valeurs identiques, inverse la recherche des sections de montants et assure l'unicité des coordonnées

déclencheurs:duplicate bounding boxinvoice ocramounts_and_tax reverseentity mappingbounding box uniqueness

GitHub SKILL.md

Ce qu'il fait

Ajoute une logique concrète aux flux de mappage d'entités de factures OCR pour gérer les valeurs d'entités en double en toute sécurité : lorsque la même valeur d'entité apparaît plusieurs fois, l'algorithme assigne des boîtes englobantes distinctes (pas de réutilisation), utilise la mémoïsation pour suivre les boîtes occupées et se rabat sur la meilleure correspondance suivante en cas de chevauchement. Pour les sections amounts_and_tax, il inverse l'ordre de recherche (de bas en haut) pour mieux correspondre aux mises en page des factures. Les entités multi-jetons bénéficient d'une correspondance sensible à la séquence et de vérifications de chevauchement pour que les jetons ne revendiquent pas les mêmes coordonnées.

Quand l'utiliser

Utilisez ceci lors de l'extraction de champs structurés à partir de factures ou de reçus numérisés où la même valeur textuelle peut apparaître plusieurs fois (ex: montants répétés, noms d'articles). C'est utile lors du post-traitement OCR pour augmenter la précision du mappage et éviter d'attribuer incorrectement des coordonnées.

Ce qui est inclus

Scripts : aucun détecté (has_scripts=false).
Références : aucune groupée (has_references=false).
Instructions : règles opérationnelles claires : gestion des doublons via mémoïsation/programmation dynamique, inversion du dataframe pour les sections de montants, correspondance de séquences multi-jetons, contraintes d'unicité des coordonnées et conseils de test/validation.

Agents compatibles

Pertinent pour les assistants de codage capables de Python (Codex, Copilot, assistants de code de type GPT) et les pipelines OCR qui exécutent des scripts de post-traitement. Recommandé pour les équipes travaillant avec Tesseract/ocr-dataframes ou des pipelines d'extraction assistés par CV.

Étiquettes

#ocr #invoice #python #bounding-box #entity-mapping #duplicate-handling #data-processing #postprocessing

Aucun script exécutéAudité le April 14, 2026

Résumé de l'audit

Une compétence basée uniquement sur un prompt qui instruit un LLM de modifier le code de mappage entité-boîte englobante (bounding-box) pour les factures OCR afin de gérer les doublons. Aucun script inclus — purement un modèle de prompt structuré avec des règles opérationnelles pour la programmation dynamique, la recherche inversée de dataframe et l'unicité des coordonnées. Contraintes bien définies mais aucun code exécutable, exemple ou guide de gestion d'erreurs.

Points d'attention

Aucun script exécutable — entièrement un modèle de prompt
Nécessite une base de code de traitement de factures/OCR existante à modifier
Cas d'utilisation étroit limité aux scénarios de doublons de boîtes englobantes de factures

Notes

Compétence basée uniquement sur un prompt provenant du projet de recherche AutoSkill (ecnu-icalk/autoskill). Propre d'un point de vue sécurité car il n'y a pas de scripts ou de code exécutable. Valeur pratique limitée en tant que compétence autonome car elle ne fournit que des instructions pour modifier un code qui doit déjà exister ailleurs.

Informations

Dépôt: autoskill
Étoiles: 458

Score de confiance

Global74

Sécurité100

Qualité du code55

Architecture40

Utilité28

Plus de autoskill

Extraire les caractéristiques d'arêtes de netlist de circuit

Extrait des caractéristiques d'arêtes structurées à partir d'une netlist de circuit bipartite (NetworkX MultiGraph), en normalisant l'ordre des composants/nets, en mappant les couleurs des terminaux et en détectant les connexions.

Générer des phrases multilingues avec définitions contextuelles

Produisez plusieurs phrases d'exemple utilisant un mot cible avec des sens variés, traduisez-les dans une langue cible et affichez la signification contextuelle du mot.

Assistant Ultime — Réponse Complète

Produit des réponses méthodiques et hautement détaillées étape par étape, intégrant des perspectives scientifiques et non scientifiques pour les questions complexes.

Générateur de Scripts de Compilation C Dynamique

Génère des scripts shell multiplateformes (Bash, PowerShell ou Batch) acceptant des noms de fichiers source et de sortie pour compiler des programmes C avec gcc, incluant des arguments de base.

Fournir l'ID brut d'une vidéo YouTube

Retourne uniquement une chaîne d'ID de vidéo YouTube valide et existante (sans URL, sans commentaire) — utile pour les outils nécessitant des ID bruts pour des opérations en aval.

Dialogue d'externalisation du chagrin par témoignage spatio-temporel

Une micro-compétence thérapeutique axée sur le deuil utilisant une narration à double perspective pour externaliser et nommer les récits de douleur centraux et faire émerger de petites exceptions de soutien.

Analyse des facteurs de condition de santé (avec citations)

Analyse une condition de santé pour une population définie en listant les facteurs catégorisés (effets sur la santé, QdV, comportementaux, environnementaux, prédisposants) avec des citations strictes.

Algorithme Génétique pour la fonction de Rastrigin (Python Débutant)

Implémentation Python accessible aux débutants, prête pour Jupyter, et explication d'un Algorithme Génétique pour optimiser la fonction de Rastrigin en utilisant la sélection par roue de roulette

Générer des Prises de Contact pour Jeux Twitch

Génère des messages de prise de contact personnalisés et authentiques pour les streamers Twitch afin de demander des clés de jeu ou une couverture, en adaptant le ton tout en maintenant une voix humaine et communautaire.

Analyse Cinématographique Empirique et Philosophique

Produit des analyses de films basées sur des preuves, expliquant les techniques formelles et les reliant à des thèmes philosophiques, avec des définitions claires des termes techniques.

Compétences similaires

Extract Circuit Netlist Edge Features

Extract structured edge features from a bipartite circuit netlist (NetworkX MultiGraph), normalizing device/net ordering, mapping terminal colors, and detecting

Markdrop

Convert PDFs to structured Markdown or interactive HTML and generate AI-powered descriptions for images and tables using multiple LLM providers.

FastAPI Project Templates

Creates production-ready FastAPI project scaffolds with async patterns, DI, middleware, and testing best practices for high-performance APIs.

Unitree Robot Controller

Control and command Unitree robots (GO1/GO2/G1/H1) via OpenClaw: initialization, basic motion commands, and sensor integrations.

Alpha Forge Pre-Ship Quality Gates

Pre-merge quality gates for PRs that validate RNG determinism, forked URLs, runtime parameter ranges, and manifest synchronization to reduce review cycles.

Plotly (Interactive Python Visualizations)

Interactive Python visualization skill for building hoverable, zoomable, and embeddable charts (Plotly Express + Graph Objects) for EDA, dashboards, and present

Dr. Manhattan - Prediction Market Trading

Unified CCXT-style API and tools for discovering, analyzing, and trading prediction markets across Polymarket, Kalshi, Opinion, Limitless, and Predict.fun; incl

Manim Idea to Export

Turn plain-language concepts into production-ready ManimCE scene blueprints, runnable code, preview renders, and final export commands for video assets.