Maschine hat bei Spracherkennung aufgeholt

Wer kann Sprache besser erkennen: Mensch oder Maschine? In geräuschvoller Umgebung erreichen moderne Spracherkennungssysteme eine beeindruckende Präzision und übertreffen teilweise sogar Menschen.

Die automatische Spracherkennung (ASR) hat in den letzten Jahren bemerkenswerte Fortschritte gemacht, insbesondere bei global häufig verwendeten Sprachen wie Englisch. «Während man noch vor 2020 davon ausging, dass menschliche Spracherkennungsfähigkeiten denen von automatischen Systemen weit überlegen sind, zeigen einige ak­tuelle Systeme eine vergleichbare Leistung», schreibt die Universität Zürich –kurz UZH – in einer Mitteilung.

Ziel der Weiterentwicklung von ASR war, die Fehlerrate zu minimieren, unabhängig davon, wie gut Menschen in der gleichen Geräuschumgebung abschneiden. Denn auch Menschen erreichen in geräuschvollen Umgebungen keine perfekte Genauigkeit.

Neuestes Open-AI-System ist besser

In ihrer aktuellen Studie verglich die UZH-Computerlinguistin Eleanor Chod­roff gemeinsam mit ihrer Kollegin Chloe Patman von der Cambridge University die Spracherkennungsleistung zweier ­beliebter Systeme – wav2vec 2.0 von Meta und Whisper von Open-AI – direkt mit ­britischen Muttersprachlerinnen und Muttersprachlern. Sie testeten die ASR-Systeme unter Bedingungen wie sprachähnlichem Rauschen oder Kneipenlärm, jeweils mit und ohne Gesichtsmaske aus Baumwolle.

Die Ergebnisse zeigten, dass Menschen beiden ASR-Systemen überlegen waren. Allerdings übertraf das neueste Open-AI-System Whisper large‑v3 die menschliche Leistung in allen getesteten Bedingungen deutlich, ausser bei realistischem Kneipenlärm, wo es mit der menschlichen Leistung mithalten konnte.

Whisper large‑v3 bewies damit seine Fähigkeit, die akustischen Eigenschaften von Sprache zu verarbeiten und sie erfolgreich einem Satz zuzuordnen. «Dies war beeindruckend, als die getesteten Sätze aus dem Zusammenhang gerissen wurden und es auch schwierig war, ein Wort aus den vorhergehenden Wörtern vorherzusagen», lässt sich UZH-Expertin Eleanor Chodroff in der Mitteilung zitieren.

Riesige Mengen an Trainingsdaten – auch 500 Jahre alte

Ein genauerer Blick auf die ASR-Systeme und ihre Trainingsmethoden zeigt, wie bemerkenswert die menschliche Leistung nach wie vor ist. Beide getesteten Systeme basieren auf Deep Learning, aber das leistungsstärkste System Whisper benötigt immense Mengen an Trainingsdaten. Während wav2vec 2.0 von Meta mit 960 Stunden englischer Sprachdaten trainiert wurde, griff das Standardsystem von Whisper auf mehr als 75 Jahre Sprachdaten zurück.

Das System, das die menschlichen Fähigkeiten tatsächlich übertraf, nutzte ­sogar mehr als 500 Jahre Sprachdaten. «Menschen erreichen diese Leistung in nur wenigen Jahren», betont Chodroff. «Ausserdem bleibt die automatische Spracherkennung in fast allen anderen Sprachen weiterhin eine grosse Herausforderung.»

Unterschiedliche Fehler

Die Studie zeigte auch, dass Menschen und ASR-Systeme unterschiedliche Fehler machen. Englische Hörerinnen und Hörer bildeten fast immer grammati­kalisch korrekte Sätze, schrieben aber häufig Satzfragmente, anstatt zu versuchen, für jeden Teil des gesprochenen Satzes ein geschriebenes Wort zu liefern. ­wav2vec 2.0 hingegen produzierte unter schwierigsten Bedingungen häufig Kauderwelsch. Whisper lieferte zwar grammatikalisch korrekte Sätze, neigte aber dazu, Lücken mit völlig falschen Informationen zu füllen.(pd.)

Gwunderbrunnen

19.12.2025 - 14:00
28.11.2025 - 14:00
31.10.2025 - 14:00
29.09.2025 - 14:00
26.09.2025 - 14:00
25.09.2025 - 09:00
22.09.2025 - 14:00
Zur Agendaübersicht