Voxtral Transcribe 2 : le dernier modèle de transcription de Mistral AI disponible

Le 10 février 2026 par Raisetalk 10 min de lecture

AiForGood

Speech To TextMistral AIDiarisationAnalyse ConversationnelleMade in France

<b>Voxtral Transcribe 2</b> : le dernier modèle de transcription de Mistral AI disponible

L'essentiel à retenir

Voxtral Mini Transcribe V2 de Mistral AI est désormais disponible en production sur Raisetalk
Diarisation native : identification automatique des interlocuteurs, sans étape supplémentaire
Performance de référence : environ 4 % de WER, surpassant GPT-4o mini Transcribe, Gemini 2.5 Flash et Deepgram Nova
13 langues supportées nativement, technologie 100 % française (Mistral AI, Paris)
Prix ultra-compétitif : simplement le moins cher proposé sur Raisetalk

Nouveau : Voxtral Transcribe 2 disponible sur Raisetalk

En janvier, nous annoncions l'intégration de Mistral AI comme moteur LLM pour l'analyse conversationnelle. Aujourd'hui, nous franchissons une nouvelle étape : Mistral AI entre dans la course au Speech-to-Text avec Voxtral Transcribe 2, et nous l'avons déployé en production sur Raisetalk.

Voxtral Mini Transcribe V2 est un modèle de transcription batch conçu pour les environnements professionnels exigeants. Il apporte une fonctionnalité très attendue : la diarisation native — c'est-à-dire la capacité à identifier automatiquement qui parle quand, directement intégrée au processus de transcription.

Voxtral Mini Transcribe V2 : les caractéristiques

Caractéristique	Détail
Type	Transcription batch
Diarisation	✅ Native, intégrée
Durée maximale	Jusqu'à 30 minutes par enregistrement
Langues	13 langues : FR, EN, ES, DE, IT, NL, PT, ZH, JA, KO, HI, AR, RU
Timestamps	Par segment et mot-à-mot
Context biasing	✅ Orientation vers un vocabulaire métier spécifique
WER	~4 % sur FLEURS
Traduction	❌ Non disponible
Pseudonymisation	❌ Non disponible

Petit glossaire

Diarisation : capacité à identifier et distinguer les différents interlocuteurs dans une conversation ("qui parle quand")
WER (Word Error Rate) : taux d'erreur par mot — plus il est bas, meilleure est la transcription. Un WER de 4 % signifie que 96 mots sur 100 sont correctement transcrits
Context biasing : capacité à orienter le modèle vers un vocabulaire métier spécifique (noms de produits, termes techniques) pour améliorer la précision
Timestamps par segment : horodatage de chaque segment de retranscription, permettant une synchronisation précise avec l'audio

La diarisation : un avantage décisif

Dans notre comparatif de modèles STT, nous soulignions l'importance de la diarisation pour l'analyse conversationnelle. Pour le Quality Monitoring, il faut savoir si c'est l'agent ou le client qui a prononcé une phrase. Pour la Conformité des Ventes, il faut attribuer chaque engagement au bon interlocuteur. Pour la Voix du Client, il faut isoler les verbatims du client.

Jusqu'ici, seuls Parakeet et Gemini 2.5 Pro atteignaient 5/5 en diarisation dans notre comparatif — mais Parakeet ne propose ni traduction ni pseudonymisation, et Gemini 2.5 Pro est le modèle le plus lent et le plus coûteux.

Voxtral Mini V2 change la donne : il combine une diarisation de premier plan avec le coût le plus bas du marché. C'est une option particulièrement pertinente pour les organisations qui traitent de gros volumes de conversations et qui ont besoin d'une identification fiable des interlocuteurs.

Performance : les chiffres

Voxtral Transcribe 2 affiche des résultats impressionnants dans les benchmarks indépendants :

Critère	Voxtral Mini V2	Positionnement
WER (FLEURS)	~4 %	Surpasse GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova
Durée max	30 minutes	Dans la moyenne
Langues	13	Couverture large incluant les langues asiatiques

Souveraineté et "Made in France"

L'intégration de Voxtral s'inscrit dans la continuité de notre stratégie d'indépendance technologique. Mistral AI est une entreprise française, fondée à Paris en 2023 par d'anciens chercheurs de Meta et Google DeepMind.

Pour les organisations françaises et européennes, choisir Voxtral pour la transcription audio répond aux mêmes enjeux que pour le LLM :

Souveraineté numérique : vos données audio sont traitées par une technologie européenne
Conformité réglementaire : un acteur soumis au RGPD et à l'AI Act
Écosystème local : soutien au développement de champions technologiques européens

Comparatif mis à jour : 8 modèles STT sur Raisetalk

En janvier, nous comparions 7 modèles STT. Voxtral vient enrichir cette offre. Voici le tableau mis à jour :

#	Modèle	Région	Durées	Trad.	Pseudo.	Coût	Rapidité	Qualité	Diarisation	Drift	Bonus	Total
1	`Voxtral`	EU	< 30 min	❌	❌	5/5	5/5	5/5	5/5	5/5	+8	33
2	`Light`	EU & US	Toutes	✅	✅	4/5	5/5	4/5	3/5	5/5	+20	41
3	`Best`	EU & US	Toutes	✅	✅	2/5	5/5	5/5	3/5	5/5	+20	40
4	`Gemini 2 Flash`	EU & US	< 10 min	✅	✅	5/5	5/5	4/5	4/5	2/5	+16	36
5	`Gemini 2.5 Flash`	EU & US	< 25 min	✅	✅	4/5	4/5	4/5	4/5	3/5	+17	36
6	`Gemini 2.5 Pro`	EU & US	< 45 min	✅	✅	1/5	1/5	5/5	5/5	4/5	+19	35
7	`Parakeet`	EU	Toutes	❌	❌	3/5	5/5	4/5	5/5	5/5	+8	30
8	`Whisper`	EU	Toutes	❌	❌	3/5	5/5	3/5	5/5	5/5	+8	29

Légende : tous les scores sont sur 5, plus c'est élevé mieux c'est. Le bonus fonctionnel récompense la disponibilité multi-région, le support des longues durées, la traduction et la pseudonymisation.

Notre recommandation : Voxtral est le choix idéal si vous recherchez la meilleure combinaison qualité + diarisation + coût, et que vous n'avez pas besoin de pseudonymisation ni de traduction. Pour les cas où la pseudonymisation est obligatoire, restez sur Light ou Best.

Quand choisir Voxtral ?

Voxtral est particulièrement adapté si :

La diarisation est importante pour vos analyses (Quality Monitoring, Conformité des Ventes)
Vous traitez de gros volumes et le coût est un critère déterminant
Vous valorisez la souveraineté technologique (solution française)
Vous n'avez pas besoin de pseudonymisation ni de traduction intégrées au STT
Vos enregistrements peuvent être moyennement longs (jusqu'à 30 minutes)

Voxtral n'est pas recommandé si :

La pseudonymisation au niveau STT est obligatoire dans votre contexte → privilégiez Light ou Best
Vous avez besoin de traduction intégrée → privilégiez Light, Best ou les modèles Gemini

Comment activer Voxtral sur Raisetalk ?

Sur Raisetalk, le choix du modèle STT se fait simplement au niveau de l'envoi de chaque analyse. Vous pouvez :

Tester Voxtral sur un échantillon de conversations et comparer les résultats avec vos modèles actuels
Mixer les approches selon vos cas d'usage

Notre équipe peut également vous accompagner pour identifier la configuration optimale en fonction de vos volumes, de votre budget et de vos exigences qualité.

Essayez par vous-même

La meilleure façon de juger, c'est de tester.

Notre espace d'essai vous permet de transcrire vos propres conversations avec le modèle de votre choix : https://app.raisetalk.com/try