Lo esencial a recordar

  • Voxtral Mini Transcribe V2 de Mistral AI ya está disponible en producción en Raisetalk
  • Diarización nativa: identificación automática de los interlocutores, sin etapa adicional
  • Rendimiento de referencia: aproximadamente 4 % de WER, superando a GPT-4o mini Transcribe, Gemini 2.5 Flash y Deepgram Nova
  • 13 idiomas soportados de forma nativa, tecnología 100 % francesa (Mistral AI, París)
  • Precio ultra-competitivo: simplemente el más económico disponible en Raisetalk

Novedad: Voxtral Transcribe 2 disponible en Raisetalk

En enero, anunciábamos la integración de Mistral AI como motor LLM para el análisis conversacional. Hoy, damos un nuevo paso: Mistral AI entra en la carrera del Speech-to-Text con Voxtral Transcribe 2, y lo hemos desplegado en producción en Raisetalk.

Voxtral Mini Transcribe V2 es un modelo de transcripción batch diseñado para entornos profesionales exigentes. Aporta una funcionalidad muy esperada: la diarización nativa — es decir, la capacidad de identificar automáticamente quién habla y cuándo, directamente integrada en el proceso de transcripción.

Voxtral Mini Transcribe V2: las características

CaracterísticaDetalle
TipoTranscripción batch
Diarización✅ Nativa, integrada
Duración máximaHasta 30 minutos por grabación
Idiomas13 idiomas: FR, EN, ES, DE, IT, NL, PT, ZH, JA, KO, HI, AR, RU
TimestampsPor segmento y palabra por palabra
Context biasing✅ Orientación hacia un vocabulario profesional específico
WER~4 % en FLEURS
Traducción❌ No disponible
Seudonimización❌ No disponible

Pequeño glosario

  • Diarización: capacidad de identificar y distinguir los diferentes interlocutores en una conversación ("quién habla cuándo")
  • WER (Word Error Rate): tasa de error por palabra — cuanto más bajo, mejor es la transcripción. Un WER del 4 % significa que 96 de cada 100 palabras se transcriben correctamente
  • Context biasing: capacidad de orientar el modelo hacia un vocabulario profesional específico (nombres de productos, términos técnicos) para mejorar la precisión
  • Timestamps por segmento: marca temporal de cada segmento de retranscripción, permitiendo una sincronización precisa con el audio

La diarización: una ventaja decisiva

En nuestro comparativo de modelos STT, destacábamos la importancia de la diarización para el análisis conversacional. Para el Quality Monitoring, es necesario saber si fue el agente o el cliente quien pronunció una frase. Para el Cumplimiento de Ventas, hay que atribuir cada compromiso al interlocutor correcto. Para la Voz del Cliente, es necesario aislar las palabras textuales del cliente.

Hasta ahora, solo Parakeet y Gemini 2.5 Pro alcanzaban 5/5 en diarización en nuestro comparativo — pero Parakeet no ofrece traducción ni seudonimización, y Gemini 2.5 Pro es el modelo más lento y costoso.

Voxtral Mini V2 cambia las reglas del juego: combina una diarización de primer nivel con el coste más bajo del mercado. Es una opción particularmente pertinente para las organizaciones que procesan grandes volúmenes de conversaciones y que necesitan una identificación fiable de los interlocutores.

Rendimiento: las cifras

Voxtral Transcribe 2 muestra resultados impresionantes en los benchmarks independientes:

CriterioVoxtral Mini V2Posicionamiento
WER (FLEURS)~4 %Supera a GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova
Duración máx.30 minutosEn la media
Idiomas13Cobertura amplia incluyendo idiomas asiáticos

Soberanía y "Made in France"

La integración de Voxtral se inscribe en la continuidad de nuestra estrategia de independencia tecnológica. Mistral AI es una empresa francesa, fundada en París en 2023 por antiguos investigadores de Meta y Google DeepMind.

Para las organizaciones francesas y europeas, elegir Voxtral para la transcripción de audio responde a los mismos desafíos que para el LLM:

  • Soberanía digital: sus datos de audio son procesados por una tecnología europea
  • Cumplimiento normativo: un actor sujeto al RGPD y al AI Act
  • Ecosistema local: apoyo al desarrollo de campeones tecnológicos europeos

Comparativo actualizado: 8 modelos STT en Raisetalk

En enero, comparábamos 7 modelos STT. Voxtral viene a enriquecer esta oferta. Aquí está la tabla actualizada:

#ModeloRegiónDuracionesTrad.Seudo.CosteRapidezCalidadDiarizaciónDriftBonusTotal
1VoxtralEU< 30 min5/55/55/55/55/5+833
2LightEU & USTodas4/55/54/53/55/5+2041
3BestEU & USTodas2/55/55/53/55/5+2040
4Gemini 2 FlashEU & US< 10 min5/55/54/54/52/5+1636
5Gemini 2.5 FlashEU & US< 25 min4/54/54/54/53/5+1736
6Gemini 2.5 ProEU & US< 45 min1/51/55/55/54/5+1935
7ParakeetEUTodas3/55/54/55/55/5+830
8WhisperEUTodas3/55/53/55/55/5+829

Leyenda: todas las puntuaciones son sobre 5, mayor es mejor. El bonus funcional recompensa la disponibilidad multi-región, el soporte de duraciones largas, la traducción y la seudonimización.

Nuestra recomendación: Voxtral es la opción ideal si busca la mejor combinación calidad + diarización + coste, y no necesita seudonimización ni traducción. Para los casos en que la seudonimización es obligatoria, quédese con Light o Best.

¿Cuándo elegir Voxtral?

Voxtral es particularmente adecuado si:

  • La diarización es importante para sus análisis (Quality Monitoring, Cumplimiento de Ventas)
  • Procesa grandes volúmenes y el coste es un criterio determinante
  • Valora la soberanía tecnológica (solución francesa)
  • No necesita seudonimización ni traducción integradas en el STT
  • Sus grabaciones pueden ser de duración media (hasta 30 minutos)

Voxtral no se recomienda si:

  • La seudonimización a nivel de STT es obligatoria en su contexto -> prefiera Light o Best
  • Necesita traducción integrada -> prefiera Light, Best o los modelos Gemini

¿Cómo activar Voxtral en Raisetalk?

En Raisetalk, la elección del modelo STT se realiza simplemente a nivel del envío de cada análisis. Puede:

  • Probar Voxtral en una muestra de conversaciones y comparar los resultados con sus modelos actuales
  • Combinar enfoques según sus casos de uso

Nuestro equipo también puede acompañarle para identificar la configuración óptima en función de sus volúmenes, su presupuesto y sus exigencias de calidad.

Pruebe usted mismo

La mejor forma de juzgar es probar.

Nuestro espacio de prueba le permite transcribir sus propias conversaciones con el modelo de su elección: https://app.raisetalk.com/try