L'essentiel à retenir

  • Voxtral Mini Transcribe V2 de Mistral AI est désormais disponible en production sur Raisetalk
  • Diarisation native : identification automatique des interlocuteurs, sans étape supplémentaire
  • Performance de référence : environ 4 % de WER, surpassant GPT-4o mini Transcribe, Gemini 2.5 Flash et Deepgram Nova
  • 13 langues supportées nativement, technologie 100 % française (Mistral AI, Paris)
  • Prix ultra-compétitif : simplement le moins cher proposé sur Raisetalk

Nouveau : Voxtral Transcribe 2 disponible sur Raisetalk

En janvier, nous annoncions l'intégration de Mistral AI comme moteur LLM pour l'analyse conversationnelle. Aujourd'hui, nous franchissons une nouvelle étape : Mistral AI entre dans la course au Speech-to-Text avec Voxtral Transcribe 2, et nous l'avons déployé en production sur Raisetalk.

Voxtral Mini Transcribe V2 est un modèle de transcription batch conçu pour les environnements professionnels exigeants. Il apporte une fonctionnalité très attendue : la diarisation native — c'est-à-dire la capacité à identifier automatiquement qui parle quand, directement intégrée au processus de transcription.

Voxtral Mini Transcribe V2 : les caractéristiques

CaractéristiqueDétail
TypeTranscription batch
Diarisation✅ Native, intégrée
Durée maximaleJusqu'à 30 minutes par enregistrement
Langues13 langues : FR, EN, ES, DE, IT, NL, PT, ZH, JA, KO, HI, AR, RU
TimestampsPar segment et mot-à-mot
Context biasing✅ Orientation vers un vocabulaire métier spécifique
WER~4 % sur FLEURS
Traduction❌ Non disponible
Pseudonymisation❌ Non disponible

Petit glossaire

  • Diarisation : capacité à identifier et distinguer les différents interlocuteurs dans une conversation ("qui parle quand")
  • WER (Word Error Rate) : taux d'erreur par mot — plus il est bas, meilleure est la transcription. Un WER de 4 % signifie que 96 mots sur 100 sont correctement transcrits
  • Context biasing : capacité à orienter le modèle vers un vocabulaire métier spécifique (noms de produits, termes techniques) pour améliorer la précision
  • Timestamps par segment : horodatage de chaque segment de retranscription, permettant une synchronisation précise avec l'audio

La diarisation : un avantage décisif

Dans notre comparatif de modèles STT, nous soulignions l'importance de la diarisation pour l'analyse conversationnelle. Pour le Quality Monitoring, il faut savoir si c'est l'agent ou le client qui a prononcé une phrase. Pour la Conformité des Ventes, il faut attribuer chaque engagement au bon interlocuteur. Pour la Voix du Client, il faut isoler les verbatims du client.

Jusqu'ici, seuls Parakeet et Gemini 2.5 Pro atteignaient 5/5 en diarisation dans notre comparatif — mais Parakeet ne propose ni traduction ni pseudonymisation, et Gemini 2.5 Pro est le modèle le plus lent et le plus coûteux.

Voxtral Mini V2 change la donne : il combine une diarisation de premier plan avec le coût le plus bas du marché. C'est une option particulièrement pertinente pour les organisations qui traitent de gros volumes de conversations et qui ont besoin d'une identification fiable des interlocuteurs.

Performance : les chiffres

Voxtral Transcribe 2 affiche des résultats impressionnants dans les benchmarks indépendants :

CritèreVoxtral Mini V2Positionnement
WER (FLEURS)~4 %Surpasse GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova
Durée max30 minutesDans la moyenne
Langues13Couverture large incluant les langues asiatiques

Souveraineté et "Made in France"

L'intégration de Voxtral s'inscrit dans la continuité de notre stratégie d'indépendance technologique. Mistral AI est une entreprise française, fondée à Paris en 2023 par d'anciens chercheurs de Meta et Google DeepMind.

Pour les organisations françaises et européennes, choisir Voxtral pour la transcription audio répond aux mêmes enjeux que pour le LLM :

  • Souveraineté numérique : vos données audio sont traitées par une technologie européenne
  • Conformité réglementaire : un acteur soumis au RGPD et à l'AI Act
  • Écosystème local : soutien au développement de champions technologiques européens

Comparatif mis à jour : 8 modèles STT sur Raisetalk

En janvier, nous comparions 7 modèles STT. Voxtral vient enrichir cette offre. Voici le tableau mis à jour :

#ModèleRégionDuréesTrad.Pseudo.CoûtRapiditéQualitéDiarisationDriftBonusTotal
1VoxtralEU< 30 min5/55/55/55/55/5+833
2LightEU & USToutes4/55/54/53/55/5+2041
3BestEU & USToutes2/55/55/53/55/5+2040
4Gemini 2 FlashEU & US< 10 min5/55/54/54/52/5+1636
5Gemini 2.5 FlashEU & US< 25 min4/54/54/54/53/5+1736
6Gemini 2.5 ProEU & US< 45 min1/51/55/55/54/5+1935
7ParakeetEUToutes3/55/54/55/55/5+830
8WhisperEUToutes3/55/53/55/55/5+829

Légende : tous les scores sont sur 5, plus c'est élevé mieux c'est. Le bonus fonctionnel récompense la disponibilité multi-région, le support des longues durées, la traduction et la pseudonymisation.

Notre recommandation : Voxtral est le choix idéal si vous recherchez la meilleure combinaison qualité + diarisation + coût, et que vous n'avez pas besoin de pseudonymisation ni de traduction. Pour les cas où la pseudonymisation est obligatoire, restez sur Light ou Best.

Quand choisir Voxtral ?

Voxtral est particulièrement adapté si :

  • La diarisation est importante pour vos analyses (Quality Monitoring, Conformité des Ventes)
  • Vous traitez de gros volumes et le coût est un critère déterminant
  • Vous valorisez la souveraineté technologique (solution française)
  • Vous n'avez pas besoin de pseudonymisation ni de traduction intégrées au STT
  • Vos enregistrements peuvent être moyennement longs (jusqu'à 30 minutes)

Voxtral n'est pas recommandé si :

  • La pseudonymisation au niveau STT est obligatoire dans votre contexte → privilégiez Light ou Best
  • Vous avez besoin de traduction intégrée → privilégiez Light, Best ou les modèles Gemini

Comment activer Voxtral sur Raisetalk ?

Sur Raisetalk, le choix du modèle STT se fait simplement au niveau de l'envoi de chaque analyse. Vous pouvez :

  • Tester Voxtral sur un échantillon de conversations et comparer les résultats avec vos modèles actuels
  • Mixer les approches selon vos cas d'usage

Notre équipe peut également vous accompagner pour identifier la configuration optimale en fonction de vos volumes, de votre budget et de vos exigences qualité.

Essayez par vous-même

La meilleure façon de juger, c'est de tester.

Notre espace d'essai vous permet de transcrire vos propres conversations avec le modèle de votre choix : https://app.raisetalk.com/try