L'essentiel à retenir
- Voxtral Mini Transcribe V2 de Mistral AI est désormais disponible en production sur Raisetalk
- Diarisation native : identification automatique des interlocuteurs, sans étape supplémentaire
- Performance de référence : environ 4 % de WER, surpassant GPT-4o mini Transcribe, Gemini 2.5 Flash et Deepgram Nova
- 13 langues supportées nativement, technologie 100 % française (Mistral AI, Paris)
- Prix ultra-compétitif : simplement le moins cher proposé sur Raisetalk
Nouveau : Voxtral Transcribe 2 disponible sur Raisetalk
En janvier, nous annoncions l'intégration de Mistral AI comme moteur LLM pour l'analyse conversationnelle. Aujourd'hui, nous franchissons une nouvelle étape : Mistral AI entre dans la course au Speech-to-Text avec Voxtral Transcribe 2, et nous l'avons déployé en production sur Raisetalk.
Voxtral Mini Transcribe V2 est un modèle de transcription batch conçu pour les environnements professionnels exigeants. Il apporte une fonctionnalité très attendue : la diarisation native — c'est-à-dire la capacité à identifier automatiquement qui parle quand, directement intégrée au processus de transcription.
Voxtral Mini Transcribe V2 : les caractéristiques
| Caractéristique | Détail |
|---|---|
| Type | Transcription batch |
| Diarisation | ✅ Native, intégrée |
| Durée maximale | Jusqu'à 30 minutes par enregistrement |
| Langues | 13 langues : FR, EN, ES, DE, IT, NL, PT, ZH, JA, KO, HI, AR, RU |
| Timestamps | Par segment et mot-à-mot |
| Context biasing | ✅ Orientation vers un vocabulaire métier spécifique |
| WER | ~4 % sur FLEURS |
| Traduction | ❌ Non disponible |
| Pseudonymisation | ❌ Non disponible |
Petit glossaire
- Diarisation : capacité à identifier et distinguer les différents interlocuteurs dans une conversation ("qui parle quand")
- WER (Word Error Rate) : taux d'erreur par mot — plus il est bas, meilleure est la transcription. Un WER de 4 % signifie que 96 mots sur 100 sont correctement transcrits
- Context biasing : capacité à orienter le modèle vers un vocabulaire métier spécifique (noms de produits, termes techniques) pour améliorer la précision
- Timestamps par segment : horodatage de chaque segment de retranscription, permettant une synchronisation précise avec l'audio
La diarisation : un avantage décisif
Dans notre comparatif de modèles STT, nous soulignions l'importance de la diarisation pour l'analyse conversationnelle. Pour le Quality Monitoring, il faut savoir si c'est l'agent ou le client qui a prononcé une phrase. Pour la Conformité des Ventes, il faut attribuer chaque engagement au bon interlocuteur. Pour la Voix du Client, il faut isoler les verbatims du client.
Jusqu'ici, seuls Parakeet et Gemini 2.5 Pro atteignaient 5/5 en diarisation dans notre comparatif — mais Parakeet ne propose ni traduction ni pseudonymisation, et Gemini 2.5 Pro est le modèle le plus lent et le plus coûteux.
Voxtral Mini V2 change la donne : il combine une diarisation de premier plan avec le coût le plus bas du marché. C'est une option particulièrement pertinente pour les organisations qui traitent de gros volumes de conversations et qui ont besoin d'une identification fiable des interlocuteurs.
Performance : les chiffres
Voxtral Transcribe 2 affiche des résultats impressionnants dans les benchmarks indépendants :
| Critère | Voxtral Mini V2 | Positionnement |
|---|---|---|
| WER (FLEURS) | ~4 % | Surpasse GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova |
| Durée max | 30 minutes | Dans la moyenne |
| Langues | 13 | Couverture large incluant les langues asiatiques |
Souveraineté et "Made in France"
L'intégration de Voxtral s'inscrit dans la continuité de notre stratégie d'indépendance technologique. Mistral AI est une entreprise française, fondée à Paris en 2023 par d'anciens chercheurs de Meta et Google DeepMind.
Pour les organisations françaises et européennes, choisir Voxtral pour la transcription audio répond aux mêmes enjeux que pour le LLM :
- Souveraineté numérique : vos données audio sont traitées par une technologie européenne
- Conformité réglementaire : un acteur soumis au RGPD et à l'AI Act
- Écosystème local : soutien au développement de champions technologiques européens
Comparatif mis à jour : 8 modèles STT sur Raisetalk
En janvier, nous comparions 7 modèles STT. Voxtral vient enrichir cette offre. Voici le tableau mis à jour :
| # | Modèle | Région | Durées | Trad. | Pseudo. | Coût | Rapidité | Qualité | Diarisation | Drift | Bonus | Total |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | Voxtral | EU | < 30 min | ❌ | ❌ | 5/5 | 5/5 | 5/5 | 5/5 | 5/5 | +8 | 33 |
| 2 | Light | EU & US | Toutes | ✅ | ✅ | 4/5 | 5/5 | 4/5 | 3/5 | 5/5 | +20 | 41 |
| 3 | Best | EU & US | Toutes | ✅ | ✅ | 2/5 | 5/5 | 5/5 | 3/5 | 5/5 | +20 | 40 |
| 4 | Gemini 2 Flash | EU & US | < 10 min | ✅ | ✅ | 5/5 | 5/5 | 4/5 | 4/5 | 2/5 | +16 | 36 |
| 5 | Gemini 2.5 Flash | EU & US | < 25 min | ✅ | ✅ | 4/5 | 4/5 | 4/5 | 4/5 | 3/5 | +17 | 36 |
| 6 | Gemini 2.5 Pro | EU & US | < 45 min | ✅ | ✅ | 1/5 | 1/5 | 5/5 | 5/5 | 4/5 | +19 | 35 |
| 7 | Parakeet | EU | Toutes | ❌ | ❌ | 3/5 | 5/5 | 4/5 | 5/5 | 5/5 | +8 | 30 |
| 8 | Whisper | EU | Toutes | ❌ | ❌ | 3/5 | 5/5 | 3/5 | 5/5 | 5/5 | +8 | 29 |
Légende : tous les scores sont sur 5, plus c'est élevé mieux c'est. Le bonus fonctionnel récompense la disponibilité multi-région, le support des longues durées, la traduction et la pseudonymisation.
Notre recommandation : Voxtral est le choix idéal si vous recherchez la meilleure combinaison qualité + diarisation + coût, et que vous n'avez pas besoin de pseudonymisation ni de traduction. Pour les cas où la pseudonymisation est obligatoire, restez sur Light ou Best.
Quand choisir Voxtral ?
Voxtral est particulièrement adapté si :
- La diarisation est importante pour vos analyses (Quality Monitoring, Conformité des Ventes)
- Vous traitez de gros volumes et le coût est un critère déterminant
- Vous valorisez la souveraineté technologique (solution française)
- Vous n'avez pas besoin de pseudonymisation ni de traduction intégrées au STT
- Vos enregistrements peuvent être moyennement longs (jusqu'à 30 minutes)
Voxtral n'est pas recommandé si :
- La pseudonymisation au niveau STT est obligatoire dans votre contexte → privilégiez
LightouBest - Vous avez besoin de traduction intégrée → privilégiez
Light,Bestou les modèles Gemini
Comment activer Voxtral sur Raisetalk ?
Sur Raisetalk, le choix du modèle STT se fait simplement au niveau de l'envoi de chaque analyse. Vous pouvez :
- Tester Voxtral sur un échantillon de conversations et comparer les résultats avec vos modèles actuels
- Mixer les approches selon vos cas d'usage
Notre équipe peut également vous accompagner pour identifier la configuration optimale en fonction de vos volumes, de votre budget et de vos exigences qualité.
Essayez par vous-même
La meilleure façon de juger, c'est de tester.
Notre espace d'essai vous permet de transcrire vos propres conversations avec le modèle de votre choix : https://app.raisetalk.com/try

