Aperçu

OpenAI CLIP (Contrastive Language-Image Pre-training) apprend des représentations conjointes texte-image. Il permet la classification d'images zero-shot, la mesure de similitude image-texte, la recherche cross-modale et le légendage d'images sans entraînement spécifique à la tâche.

Fonctionnalités

Classification d'images zero-shot
Intégration des images et du texte dans un espace vectoriel partagé
Similitude image-texte et récupération cross-modale

Exemple d'utilisation

Inclut des exemples de code pour charger un modèle CLIP, prétraiter des images, tokeniser du texte et calculer des scores de similitude ou de classification.