Office-Software

Die Spracherkennung ist endlich brauchbar

Vor bald 25 Jahren kamen die ersten Programme auf den Markt, mit denen man Texte diktieren kann. Doch erst jetzt liefern sie genug Qualität und Komfort, um sie im Alltag zu nutzen.

Matthias Schüssler

In manchen Berufsfeldern, wie hier in der Radiologie, hat sich die Spracherkennung längst etabliert. Für die universelle Nutzung hatten die Programme lange Zeit einen zu geringen Wortschatz – doch das ändert sich nun.

1997 kamen die ersten kommerziellen Spracherkennungsprogramme auf den Markt – mit vollmundigen Versprechen: «Die Spracheingabe wird für den PC wichtiger werden als die Maus oder der Scanner», behauptete der Schweizer Marketingverantwortliche von Dragon Systems, als damals das Programm Naturally Speaking lanciert worden war. Doch der Test des Journalisten, der die Software für die Zeitschrift «Cash» getestet hatte, fiel vernichtend aus: Die Hardwareanforderungen der Software waren enorm. Sie musste stundenlang trainiert werden, um die Sprechweise des Nutzers zu lernen. Und trotz allem war die Erkennungsrate ungenügend.

Die ersten Spracherkennungsprogramme mussten auf die eigene Sprechweise trainiert werden; wie hier das Programm Powerdictate von G Data in der Version von 1998.

Fast ein Vierteljahrhundert später sind die Erwartungen auf ein realistisches Mass geschrumpft: Niemand mehr geht ernsthaft davon aus, dass Spracherkennung und -steuerung Tastatur und Maus verdrängen werden. Dafür sind die Sprachfunktionen inzwischen so ausgereift und unkompliziert in der Verwendung, dass sich sinnvolle Anwendungsbereiche auftun.

Aus der Expermentierecke in die Textverarbeitung

Zum Beispiel bei Microsoft Office, das inzwischen Microsoft 365 heisst: In der abonnierten Version der Bürosoftware gibt es eine Diktierfunktion. Ursprünglich war sie ein Projekt der Experimentierabteilung Microsoft Garage, das nun standardmässig in der Textverarbeitung Word zu finden ist: im Menüband in der Rubrik «Start» am rechten Rand über den Knopf «Diktat».

Diese Diktierfunktion versteht hervorragend, was man ihr sagt: Ohne dass die Software erst trainiert werden müsste, wandelt sie das gesprochene Wort in Text um – und das in über 60 Sprachen. Es braucht auch kein spezielles Headset und vor allem keine besonders sorgfältige Sprechweise, bei der zum Beispiel jedes einzelne Wort separat gesprochen wird. Die Spracherkennung beherrscht inzwischen einen beachtlichen Wortschatz und vor allem auch die Interpunktion – ohne, dass man Satzzeichen auch diktieren müsste.

Ohne Nachbearbeitung geht es nicht: Die rot markierten Passagen mussten im transkribierten Text korrigiert werden. Es sind zwar alles nur Kleinigkeiten, aber die summieren sich trotzdem.

Ironischerweise zeigt sich erst jetzt, wo die Spracherkennung alltagstauglich geworden ist, dass diese Errungenschaft die Tastatur längst nicht überflüssig macht – zumindest nicht für den Grossteil der Leute, der nicht aus dem Stegreif druckreif formuliert. Die Software wartet zwar brav, während man nachdenkt, aber damit der Punkt am Ende richtig gesetzt wird, muss man den Satz als Ganzes relativ zügig sprechen.

Ums Redigieren kommt man nicht herum

Unumgänglich ist die Nachbearbeitung, und für diese kommt man ebenfalls nicht um Maus und Tastatur herum: Man muss den Text manuell in Abschnitte einteilen und Korrekturen bei Eigennamen und seltenen Wörtern vornehmen. Es kommt mitunter auch vor, dass die Software sich verhört – und es bleibt unübersehbar, dass die Software den Sinn eines Textes nicht versteht, sondern letztlich Schallwellen in Buchstaben umwandelt.

So diktieren Sie mit Google und Smartphone

Diktieren am iPhone und iPad. Über die Bildschirmtastatur lässt sich auch Text per Sprache eingeben. Um zu diktieren, tippen Sie auf das Mikrofonsymbol in der rechten unteren Bildschirmecke. Damit dieses Symbol erscheint, müssen Sie in den Einstellungen bei «Allgemein > Tastatur» die Option «Diktierfunktion aktivieren» einschalten. Auch Siri nimmt Diktate entgegen. Sie können sich beispielsweise mit der Frage «Was ist meine letzte Nachricht?» Ihre letzte SMS vorlesen lassen und im Anschluss eine Antwort diktieren, wenn Sie möchten – ideal für die Korrespondenz, während Sie beispielsweise auf dem Velo sitzen.

Diktieren bei Android. Bei Smartphones mit Google-Betriebssystem finden Sie unter «System > Sprachen und Eingabe > Bildschirmtastatur» die Einstellungen fürs Diktat. Die «Gboard»-Tastatur stellt in der Symbolleiste auch ein Mikrofon für Spracheingaben zur Verfügung; wählen Sie, falls nötig, diese aus. Auch die «Google Spracheingabe» sollte hier aktiviert sein – die Vorgehensweise kann allerdings je nach Android-Modell und Telefonhersteller abweichen. Bei Android können Sie über das Schlüsselwort «OK Google» Nachrichten diktieren oder per Sprache beantworten.

Spracheingabe bei Google Docs. Um bei Googles Textverarbeitung Docs Texte per Sprache zu erfassen, müssen Sie den Chrome-Browser verwenden – in den anderen Browsern steht die Funktion nicht zur Verfügung. Sie starten das Diktat über «Tools > Spracheingabe». Im Eingabefeld wählen Sie die Sprache und klicken fürs Diktat aufs Mikrofon. Der entscheidende Nachteil zu Word: Google setzt bislang keine automatischen Satzzeichen.

Spracherkennungs-Apps von Drittherstellern. Es gibt eine Reihe von Apps, die ab Mikrofon transkribieren oder Aufnahmen ins geschriebene Wort überführen. Trint.com (auch für iPhone) verschriftlicht auf hohem Niveau Audioaufnahmen und Videos, benötigt allerdings ein Monatsabo ab 44 Euro (für einzelne Transkriptionen kann man auch die kostenlose Testphase nutzen). Die App Otter.ai (für Android und iPhone) schreibt Sitzungen und Gespräche mit und unterscheidet einzelne Sprecher. Für die gelegentliche Nutzung ist die App gratis, sonst kostet die Monatsgebühr 8.35 US-Dollar. (schü)

Diesen Einschränkungen zum Trotz ist die Diktierfunktion ein echter Fortschritt: Sie macht Leuten das Leben leichter, die keine geübten Tipper sind – oder die einen Text in einer Sprache erfassen müssen, die sie mündlich besser als schriftlich beherrschen. Sie hilft, wenn man viele Ideen schnell festhalten möchte. Und sie ist beim Digitalisieren eines Textes nützlich, der zum Beispiel handschriftlich vorliegt und sich darum nicht einscannen lässt: Denn Vorlesen geht allemal schneller als Abtippen.

Die Browser-Version von Word verschriftlicht auch Audioaufnahmen. Sie setzt auf Wunsch Zeitmarken und hält verschiedene Sprecher auseinander. (Transkribiert haben wir die Originaltonspur dieses Videos hier.)
Screenshot: schü.

Auch Google Docs lässt sich Text diktieren. Der Unterschied zu Word besteht darin, dass Satzzeichen nicht automatisch gesetzt werden. Man muss sie entweder diktieren oder nachträglich hinzufügen.
Screenshot: schü.

Auch iPhone und iPad nehmen gesprochenen Text entgegen, kümmern sich bislang aber nicht um die Interpunktion.
Screenshot: schü.

In der Windows- und Mac-Version unterstützt Word nur das Diktat per Mikrofon. In der Onlineversion unter Office.com kann Word auch Aufnahmen verschriftlichen: Klicken Sie bei der «Diktieren»-Schaltfläche auf den Winkel am rechten Rand und wählen Sie «Transkribieren» aus dem Kontextmenü. Sie können dann die Audiodatei auswählen, die verschriftlicht werden soll. Nach der Umwandlung geben Sie an, ob nur der Text übernommen werden soll oder ob das Transkript auch Angaben zum Sprecher und Zeitstempel enthalten soll.

Quelle: Newsnetz, Donnerstag, 22. April 2021

Rubrik und Tags:

Metadaten
Thema: Newsnetz
Nr: 15647
Ausgabe:
Anzahl Subthemen: 1

Obsolete Datenfelder
Bilder:
Textlänge:
Ort:
Tabb: FALSCH