
OmniMCP
par openadaptai
Interaction UI et perception visuelle pilotées par l'IA utilisant Microsoft OmniParser et MCP.
Ce qu'il fait
OmniMCP comble le fossé entre les LLM et les interfaces utilisateur complexes. En exploitant l'OmniParser de Microsoft, il permet aux modèles d'IA de percevoir visuellement l'écran, d'identifier les éléments de l'UI et d'exécuter des actions précises de souris et de clavier pour atteindre des objectifs de manière autonome.
Outils
- Perception Visuelle : Analyse les captures d'écran pour identifier et étiqueter les composants interactifs de l'UI.
- Planificateur LLM : Génère une séquence d'actions basée sur l'état visuel actuel et l'objectif.
- Exécuteur d'Agent : Orchestre la boucle percevoir-planifier-agir pour l'exécution continue des tâches.
- Contrôleur d'Entrée : Effectue des interactions physiques via pynput pour le contrôle de la souris et du clavier.
Installation
{
"mcpServers": {
"omnimcp": {
"command": "python",
"args": ["/path/to/OmniMCP/cli.py"]
}
}
}
Hôtes supportés
- Claude Desktop
- Linux (X11/Wayland)
Installation rapide
git clone https://github.com/OpenAdaptAI/OmniMCP.git && cd OmniMCP && ./install.shInformations
- Tarification
- free
- Publié
- 5/1/2026
- étoiles






