Die Spracherkennung ist endlich alltagstauglich

Software im Büro Vor bald 25 Jahren kamen die ersten Programme auf den Markt, mit denen man Texte diktieren kann. Doch erst jetzt sind sie ausgereift und komfortabel genug, um von der breiten Masse genutzt zu werden.

Matthias Schüssler

Als 1997 die ersten kommerziellen Spracherkennungsprogramme lanciert wurden, geschah dies mit vollmundigen Versprechen: «Die Spracheingabe wird für den PC wichtiger werden als die Maus oder der Scanner», behauptete der Schweizer Marketingverantwortliche von Dragon Systems, als damals das Programm Naturally Speaking lanciert worden war. Doch der Test des Journalisten, der die Software für die Zeitschrift «Cash» geprüft hatte, war vernichtend: Die Hardwareanforderungen waren enorm. Sie musste stundenlang trainiert werden, um die Sprechweise des Nutzers zu lernen. Und trotz allem war die Erkennungsrate ungenügend.

Ein Vierteljahrhundert später sind die Erwartungen auf ein realistisches Mass geschrumpft: Niemand mehr geht ernsthaft davon aus, dass Spracherkennung und -steuerung die Tastatur und die Maus verdrängen werden. Dafür sind die Sprachfunktionen inzwischen so ausgereift und unkompliziert in der Verwendung, dass sich sinnvolle Anwendungsbereiche auftun.

Aus der Experimentier-Ecke in die Textverarbeitung

Zum Beispiel bei Microsoft Office, das inzwischen Microsoft 365 heisst: In der abonnierten Version der Bürosoftware gibt es eine Diktierfunktion. Ursprünglich war sie ein Projekt der Experimentierabteilung Microsoft Garage, das nun standardmässig in der Textverarbeitung Word zu finden ist: im Menüband in der Rubrik «Start» am rechten Rand über dem Knopf «Diktat».

Diese Diktierfunktion versteht hervorragend, was man ihr sagt: Ohne dass sie erst trainiert werden müsste, wandelt sie das gesprochene Wort in Text um – und das in über 60 Sprachen. Es braucht auch kein spezielles Headset und vor allem keine besonders sorgfältige Sprechweise, bei der etwa jedes einzelne Wort separat gesprochen wird. Die Spracherkennung beherrscht inzwischen einen beachtlichen Wortschatz und vor allem auch die Interpunktion – ohne dass man Satzzeichen auch diktieren müsste.

Ironischerweise zeigt sich erst jetzt, wo die Spracherkennung allmählich alltagstauglich geworden ist, dass diese Errungenschaft die Tastatur längst nicht überflüssig macht – zumindest nicht für den Grossteil der Leute, der nicht aus dem Stegreif druckreif formuliert. Die Software wartet zwar brav, während man nachdenkt, aber damit der Punkt am Ende richtig gesetzt wird, muss man den Satz als Ganzes doch noch relativ zügig sprechen.

Unumgänglich ist indes die Nachbearbeitung des diktierten Textes, und für diese kommt man ebenfalls nicht um Maus und Tastatur herum: Man muss den Text manuell in Abschnitte einteilen und Korrekturen bei Eigennamen und seltenen Wörtern vornehmen.

Ideal, wenn man rasch Ideen festhalten will

Es kommt mitunter auch vor, dass die Software sich verhört – und es bleibt dabei unübersehbar, dass die Software den Sinn eines Textes nicht wirklich versteht, sondern lediglich Schallwellen in Buchstaben umwandelt.

Trotzdem stellt die Diktierfunktion einen echten Fortschritt dar: Sie macht Leuten das Leben leichter, die keine geübten Tipper sind – oder die einen Text in einer Sprache erfassen müssen, die sie mündlich besser als schriftlich beherrschen. Sie hilft, wenn man viele Ideen schnell festhalten möchte.

Ferner ist sie beim Digitalisieren eines Textes nützlich, der zum Beispiel handschriftlich vorliegt und sich darum nicht einscannen lässt: Vorlesen geht allemal schneller vonstatten als Abtippen.

In der Windows- und der Mac-Version unterstützt Word nur das Diktat per Mikrofon. In der Onlineversion unter Office.com freilich kann Word auch Aufnahmen verschriftlichen: Klicken Sie dazu bei der «Diktieren»-Schaltfläche auf den Winkel am rechten Rand und wählen Sie «Transkribieren» aus dem Kontextmenü. Sie können dann die Audiodatei auswählen, die verschriftlicht werden soll. Nach der Umwandlung geben Sie an, ob nur der Text übernommen werden soll oder ob das Transkript auch Daten zum Sprecher und Zeitstempel enthalten soll.

In manchen Berufsfeldern, wie hier in der Radiologie, hat sich die Spracherkennung längst etabliert. Mit dem Fortschritt wird sie nun auch für andere Bereiche interessant Foto: PD

Word unterstützt nur das Diktat per Mikrofon. Doch die Onlineversion kann Aufnahmen verschriftlichen.

Quelle: Tages-Anzeiger, Mittwoch, 21. April 2021

Rubrik und Tags:

Faksimile
210421 TA Seite 29.pdf

Die Faksimile-Dateien stehen nur bei Artikeln zur Verfügung, die vor mindestens 15 Jahren erschienen sind.

Metadaten
Thema: Aufmacher
Nr: 15645
Ausgabe:
Anzahl Subthemen: 1

Obsolete Datenfelder
Bilder:
Textlänge:
Ort:
Tabb: FALSCH