Mistral frappe fort avec Voxtral TTS et Transcribe 2. Des modèles vocaux open-source, ultra-rapides, capables de tourne...
Vous avez déjà remarqué à quel point les assistants vocaux actuels sont lents ? Vous posez une question, et il y a toujours cette demi-seconde de blanc gênant. Pire encore : vos données audio partent systématiquement dans le cloud d'une multinationale. Il y a un truc qui ne va pas avec l'approche actuelle dominée par OpenAI et ElevenLabs. Tout coûte trop cher et tout est enfermé.
Eh bien, nos amis français de chez Mistral AI viennent de taper du poing sur la table avec leur nouvelle gamme audio : Voxtral (voir l'annonce officielle). Si vous avez manqué nos tests précédents sur l'évolution des assistants algorithmiques, n'hésitez pas à jeter un œil à notre Plan du Site pour retrouver nos analyses sur l'IA.
Voxtral TTS : La voix humaine dans votre poche
Le nouveau bébé s'appelle Voxtral TTS (Text-To-Speech). C'est un modèle ouvert, entraîné à générer de la parole dans 9 langues différentes (dont le français, évidemment). Contrairement aux mastodontes du secteur, l'équipe de Pierre Stock (VP of science operations chez Mistral) a conçu ce modèle pour l'écosystème edge.
C'est un modèle IA tellement optimisé qu'il n'a pas besoin de serveurs géants pour fonctionner. Il ronronne directement sur votre téléphone, votre PC portable, ou même une montre connectée. Résultat : zéro latence réseau et respect total de la vie privée.
Le modèle est capable de cloner une voix avec un échantillon de moins de cinq secondes, tout en gardant des intonations naturelles, des pauses organiques, et même un peu d'humour. Vous prenez une voix américaine, vous lui demandez de parler français : elle le fera avec son grain d'origine.
Transcription à la vitesse du son
Mais Mistral ne s'arrête pas à la génération vocale. Ils ont également sorti Voxtral Transcribe 2. Si vous faites de la transcription ou du sous-titrage, c'est l'outil qui va envoyer Whisper à la retraite.
Il se décline en deux versions :
- Voxtral Mini Transcribe V2 : Champion de la qualité. Il bat les API de GPT-4o Mini et Deepgram Nova en précision de transcription et de diarisation (reconnaître qui parle et quand). Et il le fait pour une fraction du prix ($0.003/min).
- Voxtral Realtime : Un monstre de 4 milliards de paramètres sous licence Apache 2.0. C'est du VRAI open source. Il transcrit les flux audio en direct avec une latence pouvant descendre sous les 200 ms.
Comment en profiter ?
C'est la beauté de Mistral. Si vous êtes développeur ou bidouilleur, vous pouvez récupérer les poids du modèle Voxtral Realtime directement sur le Hugging Face Hub et l'intégrer dans vos propres applications locales.
Si vous voulez juste tester la puissance des voix, direction la plateforme de la boîte.
Julian
Analyste Tech IA & Culture Geek. Entre deux lignes de terminal et trois cafés, je décortique les technos qui façonnent notre futur. Sans filtre et sans jargon inutile.
COMMENTS