La compétence Run LLMs de Harbor documente la manière d'installer, de configurer et d'opérer une pile LLM locale complète. Elle couvre le lancement des services par défaut, le téléchargement de modèles depuis Ollama et HuggingFace, la gestion des backends (Ollama, llama.cpp, vLLM), l'activation de la recherche web (SearXNG) et l'ajout de l'exécution de code via Open Terminal. La compétence inclut des guides de dépannage pratiques pour les problèmes de GPU, les erreurs de mémoire (OOM) des modèles, les redémarrages de services et l'exposition réseau/tunnel.
Utilisez cette compétence lorsque vous souhaitez un environnement IA local reproductible et conteneurisé pour l'expérimentation ou une production à petite échelle : lancer une interface utilisateur LLM, changer de backend, télécharger des modèles, diagnostiquer des pannes de GPU ou de démarrage, ou activer le chat augmenté par le web et l'exécution de code. Elle est destinée aux développeurs travaillant sur des machines locales, des homelabs ou des serveurs.
harbor) référencé partout.Les agents et CLI qui exécutent des commandes de terminal ou gèrent des conteneurs trouveront cela utile (GitHub CLI, agents basés sur le shell, runners d'automatisation et outils d'agent pouvant exécuter des opérations Docker/CLI).
Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.