Voxtral Transcribe 2: el último modelo de transcripción de Mistral AI disponible

10 de febrero de 2026 por Raisetalk 10 min de lectura

AiForGood

Speech To TextMistral AIDiarizaciónAnálisis ConversacionalMade in France

<b>Voxtral Transcribe 2</b>: el último modelo de transcripción de Mistral AI disponible

Lo esencial a recordar

Voxtral Mini Transcribe V2 de Mistral AI ya está disponible en producción en Raisetalk
Diarización nativa: identificación automática de los interlocutores, sin etapa adicional
Rendimiento de referencia: aproximadamente 4 % de WER, superando a GPT-4o mini Transcribe, Gemini 2.5 Flash y Deepgram Nova
13 idiomas soportados de forma nativa, tecnología 100 % francesa (Mistral AI, París)
Precio ultra-competitivo: simplemente el más económico disponible en Raisetalk

Novedad: Voxtral Transcribe 2 disponible en Raisetalk

En enero, anunciábamos la integración de Mistral AI como motor LLM para el análisis conversacional. Hoy, damos un nuevo paso: Mistral AI entra en la carrera del Speech-to-Text con Voxtral Transcribe 2, y lo hemos desplegado en producción en Raisetalk.

Voxtral Mini Transcribe V2 es un modelo de transcripción batch diseñado para entornos profesionales exigentes. Aporta una funcionalidad muy esperada: la diarización nativa — es decir, la capacidad de identificar automáticamente quién habla y cuándo, directamente integrada en el proceso de transcripción.

Voxtral Mini Transcribe V2: las características

Característica	Detalle
Tipo	Transcripción batch
Diarización	✅ Nativa, integrada
Duración máxima	Hasta 30 minutos por grabación
Idiomas	13 idiomas: FR, EN, ES, DE, IT, NL, PT, ZH, JA, KO, HI, AR, RU
Timestamps	Por segmento y palabra por palabra
Context biasing	✅ Orientación hacia un vocabulario profesional específico
WER	~4 % en FLEURS
Traducción	❌ No disponible
Seudonimización	❌ No disponible

Pequeño glosario

Diarización: capacidad de identificar y distinguir los diferentes interlocutores en una conversación ("quién habla cuándo")
WER (Word Error Rate): tasa de error por palabra — cuanto más bajo, mejor es la transcripción. Un WER del 4 % significa que 96 de cada 100 palabras se transcriben correctamente
Context biasing: capacidad de orientar el modelo hacia un vocabulario profesional específico (nombres de productos, términos técnicos) para mejorar la precisión
Timestamps por segmento: marca temporal de cada segmento de retranscripción, permitiendo una sincronización precisa con el audio

La diarización: una ventaja decisiva

En nuestro comparativo de modelos STT, destacábamos la importancia de la diarización para el análisis conversacional. Para el Quality Monitoring, es necesario saber si fue el agente o el cliente quien pronunció una frase. Para el Cumplimiento de Ventas, hay que atribuir cada compromiso al interlocutor correcto. Para la Voz del Cliente, es necesario aislar las palabras textuales del cliente.

Hasta ahora, solo Parakeet y Gemini 2.5 Pro alcanzaban 5/5 en diarización en nuestro comparativo — pero Parakeet no ofrece traducción ni seudonimización, y Gemini 2.5 Pro es el modelo más lento y costoso.

Voxtral Mini V2 cambia las reglas del juego: combina una diarización de primer nivel con el coste más bajo del mercado. Es una opción particularmente pertinente para las organizaciones que procesan grandes volúmenes de conversaciones y que necesitan una identificación fiable de los interlocutores.

Rendimiento: las cifras

Voxtral Transcribe 2 muestra resultados impresionantes en los benchmarks independientes:

Criterio	Voxtral Mini V2	Posicionamiento
WER (FLEURS)	~4 %	Supera a GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova
Duración máx.	30 minutos	En la media
Idiomas	13	Cobertura amplia incluyendo idiomas asiáticos

Soberanía y "Made in France"

La integración de Voxtral se inscribe en la continuidad de nuestra estrategia de independencia tecnológica. Mistral AI es una empresa francesa, fundada en París en 2023 por antiguos investigadores de Meta y Google DeepMind.

Para las organizaciones francesas y europeas, elegir Voxtral para la transcripción de audio responde a los mismos desafíos que para el LLM:

Soberanía digital: sus datos de audio son procesados por una tecnología europea
Cumplimiento normativo: un actor sujeto al RGPD y al AI Act
Ecosistema local: apoyo al desarrollo de campeones tecnológicos europeos

Comparativo actualizado: 8 modelos STT en Raisetalk

En enero, comparábamos 7 modelos STT. Voxtral viene a enriquecer esta oferta. Aquí está la tabla actualizada:

#	Modelo	Región	Duraciones	Trad.	Seudo.	Coste	Rapidez	Calidad	Diarización	Drift	Bonus	Total
1	`Voxtral`	EU	< 30 min	❌	❌	5/5	5/5	5/5	5/5	5/5	+8	33
2	`Light`	EU & US	Todas	✅	✅	4/5	5/5	4/5	3/5	5/5	+20	41
3	`Best`	EU & US	Todas	✅	✅	2/5	5/5	5/5	3/5	5/5	+20	40
4	`Gemini 2 Flash`	EU & US	< 10 min	✅	✅	5/5	5/5	4/5	4/5	2/5	+16	36
5	`Gemini 2.5 Flash`	EU & US	< 25 min	✅	✅	4/5	4/5	4/5	4/5	3/5	+17	36
6	`Gemini 2.5 Pro`	EU & US	< 45 min	✅	✅	1/5	1/5	5/5	5/5	4/5	+19	35
7	`Parakeet`	EU	Todas	❌	❌	3/5	5/5	4/5	5/5	5/5	+8	30
8	`Whisper`	EU	Todas	❌	❌	3/5	5/5	3/5	5/5	5/5	+8	29

Leyenda: todas las puntuaciones son sobre 5, mayor es mejor. El bonus funcional recompensa la disponibilidad multi-región, el soporte de duraciones largas, la traducción y la seudonimización.

Nuestra recomendación: Voxtral es la opción ideal si busca la mejor combinación calidad + diarización + coste, y no necesita seudonimización ni traducción. Para los casos en que la seudonimización es obligatoria, quédese con Light o Best.

¿Cuándo elegir Voxtral?

Voxtral es particularmente adecuado si:

La diarización es importante para sus análisis (Quality Monitoring, Cumplimiento de Ventas)
Procesa grandes volúmenes y el coste es un criterio determinante
Valora la soberanía tecnológica (solución francesa)
No necesita seudonimización ni traducción integradas en el STT
Sus grabaciones pueden ser de duración media (hasta 30 minutos)

Voxtral no se recomienda si:

La seudonimización a nivel de STT es obligatoria en su contexto -> prefiera Light o Best
Necesita traducción integrada -> prefiera Light, Best o los modelos Gemini

¿Cómo activar Voxtral en Raisetalk?

En Raisetalk, la elección del modelo STT se realiza simplemente a nivel del envío de cada análisis. Puede:

Probar Voxtral en una muestra de conversaciones y comparar los resultados con sus modelos actuales
Combinar enfoques según sus casos de uso

Nuestro equipo también puede acompañarle para identificar la configuración óptima en función de sus volúmenes, su presupuesto y sus exigencias de calidad.

Pruebe usted mismo

La mejor forma de juzgar es probar.

Nuestro espacio de prueba le permite transcribir sus propias conversaciones con el modelo de su elección: https://app.raisetalk.com/try