Lo esencial a recordar
- Voxtral Mini Transcribe V2 de Mistral AI ya está disponible en producción en Raisetalk
- Diarización nativa: identificación automática de los interlocutores, sin etapa adicional
- Rendimiento de referencia: aproximadamente 4 % de WER, superando a GPT-4o mini Transcribe, Gemini 2.5 Flash y Deepgram Nova
- 13 idiomas soportados de forma nativa, tecnología 100 % francesa (Mistral AI, París)
- Precio ultra-competitivo: simplemente el más económico disponible en Raisetalk
Novedad: Voxtral Transcribe 2 disponible en Raisetalk
En enero, anunciábamos la integración de Mistral AI como motor LLM para el análisis conversacional. Hoy, damos un nuevo paso: Mistral AI entra en la carrera del Speech-to-Text con Voxtral Transcribe 2, y lo hemos desplegado en producción en Raisetalk.
Voxtral Mini Transcribe V2 es un modelo de transcripción batch diseñado para entornos profesionales exigentes. Aporta una funcionalidad muy esperada: la diarización nativa — es decir, la capacidad de identificar automáticamente quién habla y cuándo, directamente integrada en el proceso de transcripción.
Voxtral Mini Transcribe V2: las características
| Característica | Detalle |
|---|---|
| Tipo | Transcripción batch |
| Diarización | ✅ Nativa, integrada |
| Duración máxima | Hasta 30 minutos por grabación |
| Idiomas | 13 idiomas: FR, EN, ES, DE, IT, NL, PT, ZH, JA, KO, HI, AR, RU |
| Timestamps | Por segmento y palabra por palabra |
| Context biasing | ✅ Orientación hacia un vocabulario profesional específico |
| WER | ~4 % en FLEURS |
| Traducción | ❌ No disponible |
| Seudonimización | ❌ No disponible |
Pequeño glosario
- Diarización: capacidad de identificar y distinguir los diferentes interlocutores en una conversación ("quién habla cuándo")
- WER (Word Error Rate): tasa de error por palabra — cuanto más bajo, mejor es la transcripción. Un WER del 4 % significa que 96 de cada 100 palabras se transcriben correctamente
- Context biasing: capacidad de orientar el modelo hacia un vocabulario profesional específico (nombres de productos, términos técnicos) para mejorar la precisión
- Timestamps por segmento: marca temporal de cada segmento de retranscripción, permitiendo una sincronización precisa con el audio
La diarización: una ventaja decisiva
En nuestro comparativo de modelos STT, destacábamos la importancia de la diarización para el análisis conversacional. Para el Quality Monitoring, es necesario saber si fue el agente o el cliente quien pronunció una frase. Para el Cumplimiento de Ventas, hay que atribuir cada compromiso al interlocutor correcto. Para la Voz del Cliente, es necesario aislar las palabras textuales del cliente.
Hasta ahora, solo Parakeet y Gemini 2.5 Pro alcanzaban 5/5 en diarización en nuestro comparativo — pero Parakeet no ofrece traducción ni seudonimización, y Gemini 2.5 Pro es el modelo más lento y costoso.
Voxtral Mini V2 cambia las reglas del juego: combina una diarización de primer nivel con el coste más bajo del mercado. Es una opción particularmente pertinente para las organizaciones que procesan grandes volúmenes de conversaciones y que necesitan una identificación fiable de los interlocutores.
Rendimiento: las cifras
Voxtral Transcribe 2 muestra resultados impresionantes en los benchmarks independientes:
| Criterio | Voxtral Mini V2 | Posicionamiento |
|---|---|---|
| WER (FLEURS) | ~4 % | Supera a GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova |
| Duración máx. | 30 minutos | En la media |
| Idiomas | 13 | Cobertura amplia incluyendo idiomas asiáticos |
Soberanía y "Made in France"
La integración de Voxtral se inscribe en la continuidad de nuestra estrategia de independencia tecnológica. Mistral AI es una empresa francesa, fundada en París en 2023 por antiguos investigadores de Meta y Google DeepMind.
Para las organizaciones francesas y europeas, elegir Voxtral para la transcripción de audio responde a los mismos desafíos que para el LLM:
- Soberanía digital: sus datos de audio son procesados por una tecnología europea
- Cumplimiento normativo: un actor sujeto al RGPD y al AI Act
- Ecosistema local: apoyo al desarrollo de campeones tecnológicos europeos
Comparativo actualizado: 8 modelos STT en Raisetalk
En enero, comparábamos 7 modelos STT. Voxtral viene a enriquecer esta oferta. Aquí está la tabla actualizada:
| # | Modelo | Región | Duraciones | Trad. | Seudo. | Coste | Rapidez | Calidad | Diarización | Drift | Bonus | Total |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | Voxtral | EU | < 30 min | ❌ | ❌ | 5/5 | 5/5 | 5/5 | 5/5 | 5/5 | +8 | 33 |
| 2 | Light | EU & US | Todas | ✅ | ✅ | 4/5 | 5/5 | 4/5 | 3/5 | 5/5 | +20 | 41 |
| 3 | Best | EU & US | Todas | ✅ | ✅ | 2/5 | 5/5 | 5/5 | 3/5 | 5/5 | +20 | 40 |
| 4 | Gemini 2 Flash | EU & US | < 10 min | ✅ | ✅ | 5/5 | 5/5 | 4/5 | 4/5 | 2/5 | +16 | 36 |
| 5 | Gemini 2.5 Flash | EU & US | < 25 min | ✅ | ✅ | 4/5 | 4/5 | 4/5 | 4/5 | 3/5 | +17 | 36 |
| 6 | Gemini 2.5 Pro | EU & US | < 45 min | ✅ | ✅ | 1/5 | 1/5 | 5/5 | 5/5 | 4/5 | +19 | 35 |
| 7 | Parakeet | EU | Todas | ❌ | ❌ | 3/5 | 5/5 | 4/5 | 5/5 | 5/5 | +8 | 30 |
| 8 | Whisper | EU | Todas | ❌ | ❌ | 3/5 | 5/5 | 3/5 | 5/5 | 5/5 | +8 | 29 |
Leyenda: todas las puntuaciones son sobre 5, mayor es mejor. El bonus funcional recompensa la disponibilidad multi-región, el soporte de duraciones largas, la traducción y la seudonimización.
Nuestra recomendación: Voxtral es la opción ideal si busca la mejor combinación calidad + diarización + coste, y no necesita seudonimización ni traducción. Para los casos en que la seudonimización es obligatoria, quédese con Light o Best.
¿Cuándo elegir Voxtral?
Voxtral es particularmente adecuado si:
- La diarización es importante para sus análisis (Quality Monitoring, Cumplimiento de Ventas)
- Procesa grandes volúmenes y el coste es un criterio determinante
- Valora la soberanía tecnológica (solución francesa)
- No necesita seudonimización ni traducción integradas en el STT
- Sus grabaciones pueden ser de duración media (hasta 30 minutos)
Voxtral no se recomienda si:
- La seudonimización a nivel de STT es obligatoria en su contexto -> prefiera
LightoBest - Necesita traducción integrada -> prefiera
Light,Besto los modelos Gemini
¿Cómo activar Voxtral en Raisetalk?
En Raisetalk, la elección del modelo STT se realiza simplemente a nivel del envío de cada análisis. Puede:
- Probar Voxtral en una muestra de conversaciones y comparar los resultados con sus modelos actuales
- Combinar enfoques según sus casos de uso
Nuestro equipo también puede acompañarle para identificar la configuración óptima en función de sus volúmenes, su presupuesto y sus exigencias de calidad.
Pruebe usted mismo
La mejor forma de juzgar es probar.
Nuestro espacio de prueba le permite transcribir sus propias conversaciones con el modelo de su elección: https://app.raisetalk.com/try

