Génération de Candidats KNN Haversine

Génération de paires de candidats géographiquement proches pour le rapprochement d'entités via KNN à distance haversine, avec partitionnement optionnel par pays pour améliorer le rappel.

déclencheurs:haversine knngeo candidate generationentity matchingpartition by countrynearest neighborsgeospatial deduplication

GitHub SKILL.md

Ce qu'il fait

Cette compétence fournit une implémentation pratique et des conseils pour générer des paires de candidats pour le rapprochement d'entités en utilisant KNN avec la distance haversine. Elle est conçue pour les entités basées sur la localisation (points d'intérêt, magasins, adresses) où la comparaison de toutes les paires N^2 serait irréalisable. L'approche calcule les K plus proches voisins géographiques par enregistrement (optionnellement au sein de partitions pays/région), renvoie les rangs des voisins et les distances géographiques (km), et produit un DataFrame de candidats prêt pour le scoring/classification en aval.

Quand l'utiliser

Utilisez cette compétence lorsque vous avez besoin d'une étape efficace de génération de candidats pour des tâches de déduplication ou de liaison d'enregistrements impliquant des données géospatiales. Elle est idéale pour les jeux de données avec des colonnes de latitude/longitude où vous souhaitez limiter les comparaisons aux enregistrements proches, ou lorsque vous voulez combiner le rappel basé sur la géo avec un rapprochement textuel pour améliorer la qualité globale des candidats. Le partitionnement par pays est recommandé pour les jeux de données mondiaux afin d'éviter les correspondances non pertinentes entre régions.

Ce qui est inclus

Scripts : Exemple de code Python montrant la conversion en radians, KNN par partition utilisant NearestNeighbors de scikit-learn (métrique haversine), et l'assemblage des paires de candidats avec distance et rang du voisin.
Références : Exemples Kaggle liés pour des références réelles.
Instructions : Flux de travail étape par étape (convertir lat/lon en radians, partitionner, ajuster KNN, extraire les voisins, construire le DataFrame de candidats) et conseils de configuration (plage typique de n_neighbors, conversion d'unités de distance).

Agents compatibles

Idéalement utilisée avec des agents de science des données et capables de manipuler Python (Copilot/assistants de code, environnements d'agents exécutant Python) pouvant exécuter ou adapter le code d'exemple fourni pour des pipelines de production.

Étiquettes

#entity-matching #geospatial #knn #candidate-generation #data-science #python #haversine #deduplication

Pas encore audité

Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.

Informations

Dépôt: ds-skills
Étoiles: 46
Installations: 0

Plus de ds-skills

Transitive Match Closure

Post-traitez les prédictions de correspondance d'entités pour imposer la symétrie et la transitivité (fermeture de graphe) afin d'améliorer le rappel dans la déduplication et le liage d'enregistrements.

Compétences similaires

Extract Circuit Netlist Edge Features

Extract structured edge features from a bipartite circuit netlist (NetworkX MultiGraph), normalizing device/net ordering, mapping terminal colors, and detecting

Markdrop

Convert PDFs to structured Markdown or interactive HTML and generate AI-powered descriptions for images and tables using multiple LLM providers.

FastAPI Project Templates

Creates production-ready FastAPI project scaffolds with async patterns, DI, middleware, and testing best practices for high-performance APIs.

Unitree Robot Controller

Control and command Unitree robots (GO1/GO2/G1/H1) via OpenClaw: initialization, basic motion commands, and sensor integrations.

Alpha Forge Pre-Ship Quality Gates

Pre-merge quality gates for PRs that validate RNG determinism, forked URLs, runtime parameter ranges, and manifest synchronization to reduce review cycles.

Plotly (Interactive Python Visualizations)

Interactive Python visualization skill for building hoverable, zoomable, and embeddable charts (Plotly Express + Graph Objects) for EDA, dashboards, and present

Dr. Manhattan - Prediction Market Trading

Unified CCXT-style API and tools for discovering, analyzing, and trading prediction markets across Polymarket, Kalshi, Opinion, Limitless, and Predict.fun; incl

Manim Idea to Export

Turn plain-language concepts into production-ready ManimCE scene blueprints, runnable code, preview renders, and final export commands for video assets.

Retour aux compétences