speak
Convertissez n'importe quel texte en audio vocal. Supporte deux backends (Kokoro local, Noiz cloud), deux modes (simple ou précision temporelle), et un contrôle de la voix par segment.
Fonctionnalités
- Mode simple : texte/fichier -> audio (MP3/WAV) avec voix sélectionnables et contrôle de la durée.
- Mode Timeline : rendu de SRT en audio aligné temporellement pour le doublage/sous-titrage.
- Clonage de voix (Noiz) : fournissez un audio de référence pour cloner une voix.
- Cartes de voix : contrôle de la voix/langue/vitesse/émotion par segment.
Exemples d'utilisation
- TTS basique : bash skills/speak/scripts/tts.sh speak -t 'Bonjour le monde' -v af_sarah -o hello.wav
- Rendu SRT : bash skills/speak/scripts/tts.sh render --srt input.srt --voice-map vm.json -o output.wav
- Clonage de voix : bash skills/speak/scripts/tts.sh speak -t 'Bonjour' --ref-audio ./ref.wav -o clone.wav
Prérequis
- ffmpeg dans le PATH pour le mode timeline.
- Clé API Noiz pour le backend Noiz (optionnel pour Kokoro).
Quand l'utiliser
- Générer des narrations, des livres audio ou de courtes lignes de dialogue.
- Doubler ou générer de l'audio aligné temporellement pour des vidéos.
- Prototyper rapidement le clonage de voix ou la parole contrôlée par les émotions.
Pas encore audité
Cette compétence n'a pas encore été examinée par notre pipeline d'audit automatisé.