So gut versteht der Computer Schweizerdeutsch

Digitale Spracherkennung Töggl.ch fertigt Transkriptionen von Aufnahmen in den Schweizer Dialekten an. Wir testen das mit «Tschugger», einer unbekannten Freiheitsheldin – und Alain Berset.

Matthias Schüssler

Computer und Handys verstehen uns Menschen inzwischen gut. Sie nehmen gesprochene Aufträge entgegen. Und sie sind gar nicht so schlecht darin, längere Gespräche, Interviews oder Debatten zu verschriftlichen. Das Verständnis – respektive die Fähigkeit, gesprochenes Wort in Text umzuwandeln – hat indes Grenzen. Das funktioniert meist nur bei weitverbreiteten Sprachen wie Englisch, Französisch oder Hochdeutsch. An Mundart und Dialekten scheitern die Systeme. Doch auch das Schweizerdeutsche soll der maschinellen Transkription nicht weiter Widerstand leisten. Ein Webdienst verspricht, er erkenne «problemlos alle Schweizer Sprachen und Dialekte».

Er stammt von Recapp, einem auf Spracherkennung spezialisierten Unternehmen, das seine Systeme mit Audiodateien von SRF trainieren konnte. Wie die «Handelszeitung» berichtet, kommt im Gegenzug beim SRF die Recapp-Software zum Einsatz. Die Software gibt es für Parlamente und Institutionen (Mediaparl.ch) und unter Töggl.ch in einer Variante für Unternehmen und Privatanwender. Wie gut Letztere funktioniert, zeigt ein Test an drei Beispielen:

1 Dialog aus der Fernsehserie «Tschugger»

Da das Start-up Recapp aus dem Wallis kommt, kann die erste Aufgabe nur darin bestehen, eine Passage in jenem Schweizer Dialekt zu verschriftlichen, mit dem selbst viele Landsleute gewisse Mühe bekunden. Und was läge da näher, als Töggl eine Szene aus der aktuellen SRF-Serie «Tschugger» vorzusetzen?

In der Szene trifft der Walliser Bax auf die Fedpol-Inspektorin Annette Brotz. Nachdem sie ihn zurechtweist, weil er sein Auto auf dem Behindertenparkplatz parkiert hat, sagt er: «Lüeg, hie im Wallis seit me däm Parkplatz für Mänsche mit besundere Bedürfnis. Und diesche hie hät im Momänt es bschunders Bedürfnis. Ah, und ich bi Tschugger.»

Die Software versteht den Satz ziemlich gut, ausser, dass sie anstelle von «seit» (sagen) das Verb «haben» transkribiert. Allerdings lässt sie den zweiten Teil, die Proklamation von Bax, er sei Polizist, komplett weg. Das könnte an den Hintergrundgeräuschen in der Szene liegen: Die Qualität der automatischen Verschriftlichung hängt direkt mit der Tonqualität zusammen. Ohne ein gutes Mikrofon und eine saubere Aufnahme sind keine brauchbaren Resultate zu erhoffen.

2 «Babette von Interlaken» von Umberto Eco

Um Töggl unter Idealbedingungen zu testen, verwende ich eine eigene Aufnahme aus einer Radiosendung, in der es um Babette von Interlaken geht. Die Beschreibung stammt aus Umberto Ecos Roman «Der Friedhof in Prag»: «D Babette isch in Lug und Trug gebore. Si isch under Süüfer, Räuber und Mörder uufgwachse. Si hätt de Lieb Gott nur us dene Flüech kännt, wo si ständig ghört hät.»

Die Software transkribiert das wie folgt: «Babette ist in Lug und trug geboren, sie ist unter Saufen, Räuber und Mörder aufgewachsen. Sie hätten lieb Gott nur aus diesen Fluch kannt, wo sie ständig gehört hat.»

Töggl erkennt die meisten der wichtigen Worte, doch die Verschriftlichung ist im Rohzustand nicht nachvollziehbar. Für einen verständlichen Text muss man einen beträchtlichen Aufwand in die Nachbearbeitung investieren. Auffällig ist, dass die Transkription nicht in Mundart erfolgt, sondern in Hochdeutsch, eine Version in Hochsprache, bei der das Dialekt-Original stark durchschimmert. Es zeigt sich die besondere Hürde, die sich Töggl stellt: Die Software muss zwei schwierige Schritte, die Spracherkennung in den Dialekten und die Übertragung in die Standardsprache, simultan bewältigen. Das ist deutlich schwieriger als die Aufgabe, mit der die Systeme von Microsoft, Google und Apple konfrontiert sind.

3 Die Pressekonferenz des Bundesrats

Eine wichtige Aufgabe für eine Transkriptionssoftware sind Protokolle. Töggl soll auch den Herausforderungen eines mehrsprachigen Landes gewachsen sein und mit dem schweizerdeutsch gefärbten Hochdeutsch umgehen können, das für viele Politiker typisch ist. Ein Test mit einem Ausschnitt aus einer Medienkonferenz von Bundesrat Alain Berset zeigt, dass einige wenige falsch verstandene Wörter das Leseverständnis beeinträchtigen: Man darf von einer solchen Software keine Wunder, sondern allenfalls Unterstützung für Protokolle und Verschriftlichungen von Interviews und Gesprächen erwarten. Um die Nachbearbeitung kommt man nicht herum. Es bleibt vom Anwendungsfall abhängig, ob die Transkription eine Arbeitserleichterung bringt.

Für Aufnahmen in deutschem oder Schweizer Hochdeutsch und Französisch verrechnet Töggl einen halben Credit, für Schweizer Dialekt, Französisch und Deutsch gemischt und für Romanisch einen Credit pro Minute. Ein Credit kostet einen Franken plus Mehrwertsteuer.

Man darf keine Wunder erwarten. Um die Nachbearbeitung kommt man nicht herum.

Tipps für die Transkription

— Trint.com transkribiert Aufnahmen u.a. in Deutsch, Englisch, Französisch und Italienisch. Die Resultate sind ausgezeichnet, sofern die Aufnahmequalität stimmt und ein gängiges Vokabular Verwendung findet. Einzelne Transkriptionen sind während der Testphase gratis; Abos gibt es ab 60 Dollar pro Jahr.

— In Word aus Microsoft 395 gibt es seit wenigen Monaten eine eingebaute Spracherkennung, die sich insbesondere durch die gute Interpunktion auszeichnet. Über die Windows- und Mac-Variante von Word werden Gespräche ab Mikrofon transkribiert. Die Browser-Variante von Word verschriftlicht auch Audiodateien.

— Otter.ai ist eine ausgezeichnete Transkriptionssoftware fürs Mobiltelefon (iPhone und Android). Die App verschriftlicht Gespräche während der Aufnahme, etwa bei Sitzungen – bislang nur in Englisch. Als Besonderheit erstellt diese Anwendung auch Transkripte von Zoom-Meetings, sodass sich nachträglich einfach Protokolle erstellen lassen. Dieses Abo kostet 100 Dollar pro Jahr.

Quelle: Tages-Anzeiger, Mittwoch, 15. Dezember 2021

Rubrik und Tags:

Faksimile
211215 TA Seite 29.pdf

Die Faksimile-Dateien stehen nur bei Artikeln zur Verfügung, die vor mindestens 15 Jahren erschienen sind.

Metadaten
Thema: Aufmacher
Nr: 8664
Ausgabe:
Anzahl Subthemen: 1

Obsolete Datenfelder
Bilder:
Textlänge:
Ort:
Tabb: FALSCH