Voxtral Transcribe 2: Das neueste Transkriptionsmodell von Mistral AI verfügbar

10. Februar 2026 von Raisetalk 10 Min. Lesezeit

AiForGood

Speech To TextMistral AIDiarisierungKonversationsanalyseMade in France

<b>Voxtral Transcribe 2</b>: Das neueste Transkriptionsmodell von Mistral AI verfügbar

Das Wichtigste auf einen Blick

Voxtral Mini Transcribe V2 von Mistral AI ist ab sofort produktiv auf Raisetalk verfügbar
Native Diarisierung: automatische Sprecheridentifikation, ohne zusätzlichen Verarbeitungsschritt
Referenz-Performance: ca. 4 % WER, übertrifft GPT-4o mini Transcribe, Gemini 2.5 Flash und Deepgram Nova
13 nativ unterstützte Sprachen, 100 % französische Technologie (Mistral AI, Paris)
Ultra-wettbewerbsfähiger Preis: schlicht der günstigste Tarif auf Raisetalk

Neu: Voxtral Transcribe 2 auf Raisetalk verfügbar

Im Januar haben wir die Integration von Mistral AI als LLM-Engine für die Gesprächsanalyse angekündigt. Heute gehen wir einen Schritt weiter: Mistral AI steigt in das Speech-to-Text-Rennen ein mit Voxtral Transcribe 2, und wir haben es produktiv auf Raisetalk bereitgestellt.

Voxtral Mini Transcribe V2 ist ein Batch-Transkriptionsmodell, das für anspruchsvolle professionelle Umgebungen entwickelt wurde. Es bringt eine lang erwartete Funktion mit: die native Diarisierung — also die Fähigkeit, automatisch zu erkennen, wer wann spricht, direkt in den Transkriptionsprozess integriert.

Voxtral Mini Transcribe V2: die Merkmale

Merkmal	Detail
Typ	Batch-Transkription
Diarisierung	✅ Nativ, integriert
Maximale Dauer	Bis zu 30 Minuten pro Aufnahme
Sprachen	13 Sprachen: FR, EN, ES, DE, IT, NL, PT, ZH, JA, KO, HI, AR, RU
Timestamps	Pro Segment und Wort für Wort
Context Biasing	✅ Ausrichtung auf fachspezifisches Vokabular
WER	~4 % auf FLEURS
Übersetzung	❌ Nicht verfügbar
Pseudonymisierung	❌ Nicht verfügbar

Kurzes Glossar

Diarisierung: Fähigkeit, verschiedene Sprecher in einem Gespräch zu identifizieren und zu unterscheiden ("wer spricht wann")
WER (Word Error Rate): Wortfehlerrate — je niedriger, desto besser die Transkription. Ein WER von 4 % bedeutet, dass 96 von 100 Wörtern korrekt transkribiert werden
Context Biasing: Fähigkeit, das Modell auf fachspezifisches Vokabular auszurichten (Produktnamen, Fachbegriffe), um die Genauigkeit zu verbessern
Timestamps pro Segment: Zeitstempel für jedes Transkriptionssegment, die eine präzise Synchronisierung mit dem Audio ermöglichen

Diarisierung: ein entscheidender Vorteil

In unserem Vergleich von STT-Modellen haben wir die Bedeutung der Diarisierung für die Gesprächsanalyse hervorgehoben. Für das Quality Monitoring muss bekannt sein, ob der Agent oder der Kunde einen Satz gesprochen hat. Für die Vertriebskonformität muss jede Zusage dem richtigen Sprecher zugeordnet werden. Für Voice of Customer müssen die Aussagen des Kunden isoliert werden.

Bisher erreichten nur Parakeet und Gemini 2.5 Pro die Note 5/5 bei der Diarisierung in unserem Vergleich — aber Parakeet bietet weder Übersetzung noch Pseudonymisierung, und Gemini 2.5 Pro ist das langsamste und teuerste Modell.

Voxtral Mini V2 ändert die Spielregeln: Es kombiniert eine erstklassige Diarisierung mit den niedrigsten Kosten auf dem Markt. Eine besonders relevante Option für Organisationen, die große Gesprächsvolumina verarbeiten und eine zuverlässige Sprecheridentifikation benötigen.

Performance: die Zahlen

Voxtral Transcribe 2 zeigt beeindruckende Ergebnisse in unabhängigen Benchmarks:

Kriterium	Voxtral Mini V2	Positionierung
WER (FLEURS)	~4 %	Übertrifft GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova
Max. Dauer	30 Minuten	Im Durchschnitt
Sprachen	13	Breite Abdeckung einschließlich asiatischer Sprachen

Souveränität und "Made in France"

Die Integration von Voxtral steht im Einklang mit unserer Strategie der technologischen Unabhängigkeit. Mistral AI ist ein französisches Unternehmen, 2023 in Paris von ehemaligen Forschern von Meta und Google DeepMind gegründet.

Für französische und europäische Organisationen adressiert die Wahl von Voxtral für die Audio-Transkription dieselben Herausforderungen wie beim LLM:

Digitale Souveränität: Ihre Audiodaten werden mit europäischer Technologie verarbeitet
Regulatorische Konformität: ein Akteur, der der DSGVO und dem AI Act unterliegt
Lokales Ökosystem: Unterstützung der Entwicklung europäischer Technologie-Champions

Aktualisierter Vergleich: 8 STT-Modelle auf Raisetalk

Im Januar verglichen wir 7 STT-Modelle. Voxtral bereichert nun dieses Angebot. Hier die aktualisierte Tabelle:

#	Modell	Region	Dauer	Übers.	Pseudo.	Kosten	Geschw.	Qualität	Diarisierung	Drift	Bonus	Gesamt
1	`Voxtral`	EU	< 30 Min	❌	❌	5/5	5/5	5/5	5/5	5/5	+8	33
2	`Light`	EU & US	Alle	✅	✅	4/5	5/5	4/5	3/5	5/5	+20	41
3	`Best`	EU & US	Alle	✅	✅	2/5	5/5	5/5	3/5	5/5	+20	40
4	`Gemini 2 Flash`	EU & US	< 10 Min	✅	✅	5/5	5/5	4/5	4/5	2/5	+16	36
5	`Gemini 2.5 Flash`	EU & US	< 25 Min	✅	✅	4/5	4/5	4/5	4/5	3/5	+17	36
6	`Gemini 2.5 Pro`	EU & US	< 45 Min	✅	✅	1/5	1/5	5/5	5/5	4/5	+19	35
7	`Parakeet`	EU	Alle	❌	❌	3/5	5/5	4/5	5/5	5/5	+8	30
8	`Whisper`	EU	Alle	❌	❌	3/5	5/5	3/5	5/5	5/5	+8	29

Legende: alle Punktzahlen sind von 5, höher ist besser. Der Funktionsbonus belohnt Multi-Region-Verfügbarkeit, Unterstützung langer Dauern, Übersetzung und Pseudonymisierung.

Unsere Empfehlung: Voxtral ist die ideale Wahl, wenn Sie die beste Kombination aus Qualität + Diarisierung + Kosten suchen und keine Pseudonymisierung oder Übersetzung benötigen. Wenn Pseudonymisierung erforderlich ist, bleiben Sie bei Light oder Best.

Wann Voxtral wählen?

Voxtral ist besonders geeignet, wenn:

Die Diarisierung für Ihre Analysen wichtig ist (Quality Monitoring, Vertriebskonformität)
Sie große Volumina verarbeiten und die Kosten ein entscheidendes Kriterium sind
Sie technologische Souveränität schätzen (französische Lösung)
Sie keine Pseudonymisierung oder Übersetzung im STT benötigen
Ihre Aufnahmen mittellang sein können (bis zu 30 Minuten)

Voxtral wird nicht empfohlen, wenn:

Pseudonymisierung auf STT-Ebene in Ihrem Kontext verpflichtend ist -> bevorzugen Sie Light oder Best
Sie eine integrierte Übersetzung benötigen -> bevorzugen Sie Light, Best oder die Gemini-Modelle

Wie aktivieren Sie Voxtral auf Raisetalk?

Auf Raisetalk erfolgt die Wahl des STT-Modells einfach beim Senden jeder Analyse. Sie können:

Voxtral an einer Stichprobe von Gesprächen testen und die Ergebnisse mit Ihren aktuellen Modellen vergleichen
Die Ansätze je nach Anwendungsfall kombinieren

Unser Team kann Sie auch dabei unterstützen, die optimale Konfiguration basierend auf Ihren Volumina, Ihrem Budget und Ihren Qualitätsanforderungen zu identifizieren.

Testen Sie selbst

Der beste Weg zu urteilen ist, es auszuprobieren.

Unser Testbereich ermöglicht es Ihnen, Ihre eigenen Gespräche mit dem Modell Ihrer Wahl zu transkribieren: https://app.raisetalk.com/try