
Human MCP
par mrgoonie
Offrez aux agents IA des sens humains : analyse visuelle, génération d'images/vidéos, synthèse vocale, automatisation de navigateur et raisonnement avancé — 29 outils MCP en un seul ensemble.
Ce qu'il fait
Human MCP est un serveur MCP complet qui dote les agents de codage IA de capacités multimodales basées sur les sens humains. Il se connecte aux API de Google Gemini, Minimax, ZhipuAI et ElevenLabs pour fournir l'analyse visuelle, la génération de contenu créatif, la synthèse vocale et le raisonnement structuré — le tout exposé comme des outils MCP standards.
Utilisez-le pour déboguer des captures d'écran d'interface utilisateur, générer des images ou des vidéos à partir de prompts, narrer des explications de code, automatiser des captures d'écran de navigateur et exécuter des chaînes de raisonnement systématiques — directement depuis votre agent IA sans quitter le chat.
Outils
- eyes_analyze — Analyse les images, vidéos et GIFs pour détecter les bugs d'interface, les erreurs et les problèmes d'accessibilité
- eyes_compare — Détecte les différences visuelles entre deux images
- eyes_read_document — Extrait le texte et les tableaux des fichiers PDF, DOCX, XLSX, PPTX et plus encore
- eyes_summarize_document — Génère des résumés structurés à partir de documents
- gemini_gen_image — Génération de texte-en-image via l'API Gemini Imagen
- gemini_gen_video / gemini_image_to_video — Génération et animation de vidéos via Veo 3.0
- minimax_gen_music / elevenlabs_gen_music — Génération de musique IA avec voix
- elevenlabs_gen_sfx — Génération d'effets sonores à partir de descriptions textuelles
- gemini_inpaint_image / gemini_outpaint_image / gemini_style_transfer_image / gemini_compose_images / gemini_edit_image — Opérations d'édition d'image assistées par IA
- jimp_crop_image / jimp_resize_image / jimp_rotate_image / jimp_mask_image — Traitement d'image local rapide via Jimp
- rmbg_remove_background — Suppression d'arrière-plan par IA avec trois niveaux de qualité
- playwright_screenshot_fullpage / playwright_screenshot_viewport / playwright_screenshot_element — Captures d'écran web automatisées via Playwright
- mouth_speak / mouth_narrate / mouth_explain / mouth_customize — Synthèse vocale et narration de code via Gemini, Minimax et ElevenLabs
- mcp__reasoning__sequentialthinking / brain_analyze_simple / brain_patterns_info / brain_reflect_enhanced — Raisonnement structuré, analyse de modèles et réflexion méta-cognitive
Installation
{
"mcpServers": {
"human-mcp": {
"command": "npx",
"args": ["@goonnguyen/human-mcp"],
"env": {
"GOOGLE_GEMINI_API_KEY": "votre_cle_api_gemini_ici"
}
}
}
}
Ajoutez optionnellement ELEVENLABS_API_KEY, MINIMAX_API_KEY ou ZHIPUAI_API_KEY pour débloquer des fournisseurs supplémentaires.
Hôtes supportés
Claude Desktop, VS Code Copilot, Cursor, Windsurf — tous confirmés dans le README.





