Das Wichtigste auf einen Blick
- Voxtral Mini Transcribe V2 von Mistral AI ist ab sofort produktiv auf Raisetalk verfügbar
- Native Diarisierung: automatische Sprecheridentifikation, ohne zusätzlichen Verarbeitungsschritt
- Referenz-Performance: ca. 4 % WER, übertrifft GPT-4o mini Transcribe, Gemini 2.5 Flash und Deepgram Nova
- 13 nativ unterstützte Sprachen, 100 % französische Technologie (Mistral AI, Paris)
- Ultra-wettbewerbsfähiger Preis: schlicht der günstigste Tarif auf Raisetalk
Neu: Voxtral Transcribe 2 auf Raisetalk verfügbar
Im Januar haben wir die Integration von Mistral AI als LLM-Engine für die Gesprächsanalyse angekündigt. Heute gehen wir einen Schritt weiter: Mistral AI steigt in das Speech-to-Text-Rennen ein mit Voxtral Transcribe 2, und wir haben es produktiv auf Raisetalk bereitgestellt.
Voxtral Mini Transcribe V2 ist ein Batch-Transkriptionsmodell, das für anspruchsvolle professionelle Umgebungen entwickelt wurde. Es bringt eine lang erwartete Funktion mit: die native Diarisierung — also die Fähigkeit, automatisch zu erkennen, wer wann spricht, direkt in den Transkriptionsprozess integriert.
Voxtral Mini Transcribe V2: die Merkmale
| Merkmal | Detail |
|---|---|
| Typ | Batch-Transkription |
| Diarisierung | ✅ Nativ, integriert |
| Maximale Dauer | Bis zu 30 Minuten pro Aufnahme |
| Sprachen | 13 Sprachen: FR, EN, ES, DE, IT, NL, PT, ZH, JA, KO, HI, AR, RU |
| Timestamps | Pro Segment und Wort für Wort |
| Context Biasing | ✅ Ausrichtung auf fachspezifisches Vokabular |
| WER | ~4 % auf FLEURS |
| Übersetzung | ❌ Nicht verfügbar |
| Pseudonymisierung | ❌ Nicht verfügbar |
Kurzes Glossar
- Diarisierung: Fähigkeit, verschiedene Sprecher in einem Gespräch zu identifizieren und zu unterscheiden ("wer spricht wann")
- WER (Word Error Rate): Wortfehlerrate — je niedriger, desto besser die Transkription. Ein WER von 4 % bedeutet, dass 96 von 100 Wörtern korrekt transkribiert werden
- Context Biasing: Fähigkeit, das Modell auf fachspezifisches Vokabular auszurichten (Produktnamen, Fachbegriffe), um die Genauigkeit zu verbessern
- Timestamps pro Segment: Zeitstempel für jedes Transkriptionssegment, die eine präzise Synchronisierung mit dem Audio ermöglichen
Diarisierung: ein entscheidender Vorteil
In unserem Vergleich von STT-Modellen haben wir die Bedeutung der Diarisierung für die Gesprächsanalyse hervorgehoben. Für das Quality Monitoring muss bekannt sein, ob der Agent oder der Kunde einen Satz gesprochen hat. Für die Vertriebskonformität muss jede Zusage dem richtigen Sprecher zugeordnet werden. Für Voice of Customer müssen die Aussagen des Kunden isoliert werden.
Bisher erreichten nur Parakeet und Gemini 2.5 Pro die Note 5/5 bei der Diarisierung in unserem Vergleich — aber Parakeet bietet weder Übersetzung noch Pseudonymisierung, und Gemini 2.5 Pro ist das langsamste und teuerste Modell.
Voxtral Mini V2 ändert die Spielregeln: Es kombiniert eine erstklassige Diarisierung mit den niedrigsten Kosten auf dem Markt. Eine besonders relevante Option für Organisationen, die große Gesprächsvolumina verarbeiten und eine zuverlässige Sprecheridentifikation benötigen.
Performance: die Zahlen
Voxtral Transcribe 2 zeigt beeindruckende Ergebnisse in unabhängigen Benchmarks:
| Kriterium | Voxtral Mini V2 | Positionierung |
|---|---|---|
| WER (FLEURS) | ~4 % | Übertrifft GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova |
| Max. Dauer | 30 Minuten | Im Durchschnitt |
| Sprachen | 13 | Breite Abdeckung einschließlich asiatischer Sprachen |
Souveränität und "Made in France"
Die Integration von Voxtral steht im Einklang mit unserer Strategie der technologischen Unabhängigkeit. Mistral AI ist ein französisches Unternehmen, 2023 in Paris von ehemaligen Forschern von Meta und Google DeepMind gegründet.
Für französische und europäische Organisationen adressiert die Wahl von Voxtral für die Audio-Transkription dieselben Herausforderungen wie beim LLM:
- Digitale Souveränität: Ihre Audiodaten werden mit europäischer Technologie verarbeitet
- Regulatorische Konformität: ein Akteur, der der DSGVO und dem AI Act unterliegt
- Lokales Ökosystem: Unterstützung der Entwicklung europäischer Technologie-Champions
Aktualisierter Vergleich: 8 STT-Modelle auf Raisetalk
Im Januar verglichen wir 7 STT-Modelle. Voxtral bereichert nun dieses Angebot. Hier die aktualisierte Tabelle:
| # | Modell | Region | Dauer | Übers. | Pseudo. | Kosten | Geschw. | Qualität | Diarisierung | Drift | Bonus | Gesamt |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | Voxtral | EU | < 30 Min | ❌ | ❌ | 5/5 | 5/5 | 5/5 | 5/5 | 5/5 | +8 | 33 |
| 2 | Light | EU & US | Alle | ✅ | ✅ | 4/5 | 5/5 | 4/5 | 3/5 | 5/5 | +20 | 41 |
| 3 | Best | EU & US | Alle | ✅ | ✅ | 2/5 | 5/5 | 5/5 | 3/5 | 5/5 | +20 | 40 |
| 4 | Gemini 2 Flash | EU & US | < 10 Min | ✅ | ✅ | 5/5 | 5/5 | 4/5 | 4/5 | 2/5 | +16 | 36 |
| 5 | Gemini 2.5 Flash | EU & US | < 25 Min | ✅ | ✅ | 4/5 | 4/5 | 4/5 | 4/5 | 3/5 | +17 | 36 |
| 6 | Gemini 2.5 Pro | EU & US | < 45 Min | ✅ | ✅ | 1/5 | 1/5 | 5/5 | 5/5 | 4/5 | +19 | 35 |
| 7 | Parakeet | EU | Alle | ❌ | ❌ | 3/5 | 5/5 | 4/5 | 5/5 | 5/5 | +8 | 30 |
| 8 | Whisper | EU | Alle | ❌ | ❌ | 3/5 | 5/5 | 3/5 | 5/5 | 5/5 | +8 | 29 |
Legende: alle Punktzahlen sind von 5, höher ist besser. Der Funktionsbonus belohnt Multi-Region-Verfügbarkeit, Unterstützung langer Dauern, Übersetzung und Pseudonymisierung.
Unsere Empfehlung: Voxtral ist die ideale Wahl, wenn Sie die beste Kombination aus Qualität + Diarisierung + Kosten suchen und keine Pseudonymisierung oder Übersetzung benötigen. Wenn Pseudonymisierung erforderlich ist, bleiben Sie bei Light oder Best.
Wann Voxtral wählen?
Voxtral ist besonders geeignet, wenn:
- Die Diarisierung für Ihre Analysen wichtig ist (Quality Monitoring, Vertriebskonformität)
- Sie große Volumina verarbeiten und die Kosten ein entscheidendes Kriterium sind
- Sie technologische Souveränität schätzen (französische Lösung)
- Sie keine Pseudonymisierung oder Übersetzung im STT benötigen
- Ihre Aufnahmen mittellang sein können (bis zu 30 Minuten)
Voxtral wird nicht empfohlen, wenn:
- Pseudonymisierung auf STT-Ebene in Ihrem Kontext verpflichtend ist -> bevorzugen Sie
LightoderBest - Sie eine integrierte Übersetzung benötigen -> bevorzugen Sie
Light,Bestoder die Gemini-Modelle
Wie aktivieren Sie Voxtral auf Raisetalk?
Auf Raisetalk erfolgt die Wahl des STT-Modells einfach beim Senden jeder Analyse. Sie können:
- Voxtral an einer Stichprobe von Gesprächen testen und die Ergebnisse mit Ihren aktuellen Modellen vergleichen
- Die Ansätze je nach Anwendungsfall kombinieren
Unser Team kann Sie auch dabei unterstützen, die optimale Konfiguration basierend auf Ihren Volumina, Ihrem Budget und Ihren Qualitätsanforderungen zu identifizieren.
Testen Sie selbst
Der beste Weg zu urteilen ist, es auszuprobieren.
Unser Testbereich ermöglicht es Ihnen, Ihre eigenen Gespräche mit dem Modell Ihrer Wahl zu transkribieren: https://app.raisetalk.com/try

