Reden Sie Tacheles mit Ihrem Computer!

Man muss kein Sklaventreiber sein, um sich einen Computer zu wünschen, der aufs (gesprochene!) Wort gehorcht. Bei der Spracherkennungssoftware ViaVoice von IBM hört der Computer hin, was Sie ihm zu sagen haben. Angenehm: Sie müssen sich keine abgehackte Diktierweise angewöhnen, sondern können kontinuierlich sprechen.

Von Matthias Schüssler. IBM hat schon seit einigen Jahren Spracherkennungssoftware im Angebot. Bisherige Lösungen wie «Simply Speaking Gold» haben jedoch den Nachteil, dass der Sprecher seine Diktierweise anpassen muss, damit seine Worte EDV-seitig auf Gehör stossen. IBM nennt die Sprechweise «diskret» oder «isolierend», wenn der Sprecher zwischen jedem Wort mit der Stimme absetzt. ViaVoice braucht keine «akustischen Wortzwischenräume», sondern kann kontinuerlich gesprochene Sätze verarbeiten.

ViaVoice beherrscht zwei Modi: Einen Steuerungsmodus, mit dem Sie Ihren PC per Sprache bedienen und einen Diktiermodus. Im Steuerungsmodus spricht man beispielsweise «Schaltfläche Start» ins Mikrofon , und wie von Geisterhand öffnet sich das Windows 95-Startmenü. Sämtliche Menübefehle einer Anwendung und die des Betriebssystems können so via Stimme aufgerufen werden – ebenso eine ganze Anzahl von Markierungs- und Cursornavigationsbefehlen. Im Diktiermodus – diesen ruft man selbstverständlich über den gesprochenen Befehl «Diktat starten» auf – erkennt die Software die Sprache und überträgt sie ins Dokumentfenster einer Textverarbeitung oder des «SpeakPad». Die Spracherkennung im Diktiermodus ist dann treffsicher, wenn man natürlich spricht, und möglichst wenig nuschelt oder vor sich hinbrabbelt. Satzzeichen müssen gesprochen werden. Beispielsweise: «Komma», «Punkt», «Anführung Anfang» und viele weitere Sonder- und Interpunktionszeichen. Mit «neuer Absatz», resp. «neue Zeile» wird der Text gegliedert. Bei Bedarf kann auch buchstabiert oder ein Wort mittels phonetischem Alphabet diktiert werden. Das unbekannte Wort «CPU» diktiert man dem System folgendermassen: «Grossbuchstaben – Cäsar – Paula – Ulrich – Kleinschreibung». Beim Diktieren ist erstmal ein wenig verwirrend, dass die Worte nicht sofort nach der Artikulation auf dem Bildschirm erscheinen. Dies liegt daran, dass ViaVoice den Kontext bei der Analyse miteinbezieht. ViaVoice wartet erst mal ab, bis man den Satz mit einem «Punkt» abgeschlossen hat. So kann die Software den Satz als Einheit verarbeiten und eher das richtige Wort aus gleichlautenden herauspicken (z.B. bei «Meer» und «mehr»).

Keine leeren Versprechungen

Betreffend ViaVoices Erkennungsrate und Einsatzgebiet macht IBM keine leeren Versprechungen. In der Dokumentation arbeitet IBM mit dem Beispiel eines Röntgenarztes. Für diesen ist ViaVoice ideal: Ein begrenztes Fachvokabular macht der Spracherkennungssoftware die Arbeit leicht. Ausserdem profitiert der Arzt davon, wenn er seine Rapporte diktieren kann und dabei die Hände frei hat. So bietet IBM denn für diese Berufsgruppe viele Fachvokabulare an, mit denen Fachtermini nachgerüstet werden können. Erhältlich sind Erweiterungen u.a. für Radiologen, Gynäkologen, Pathologen, aber auch Recht-/Wirtschaftswissenschafter oder für Technische Gutachter.

An Begriffsvielfalt scheitert ViaVoice

Für Journalisten oder fleissige Briefschreiber, die ihre E-Mails lieber sprechen statt tippen würden, ist ViaVoice weniger geeignet. Die Begriffsvielfalt, aus der ein Jornalist schöpft, ist für die Software nicht zu bewältigen und mit umgangssprachlichen Begriffen oder Dialektausdrücken kann ViaVoice nichts anfangen. In diesem Bereich liesse sich ein Einsatz von ViaVoice als luxuriöses Diktiergerät denken: Beim Diktieren zeichnet die Software den ganzen Text auf. Beim Klick auf ein Wort im «SpeakPad» spielt das Programm die aufgezeichnete Tondatei ab, wodurch man sehr einfach durch ein längeres Tondokument navigieren kann.

Feuertaufe

Der Text in diesen Kasten wurde nicht mit der Tastatur eingegeben, sondern in einem Mikrofon diktiere. Dabei habe sich die Zeichen, welche die Software nicht richtig erkannt hat, mit Brot markiert. Sie sehen – wenn man für sich (kontinuierlich) und natürlich spricht, hat die Software eine ziemlich gute Erkennungsleistung.

Sie können die Erkennungsleistung von ViaVoice verbessern, indem sie das Programm auf ihre Aussprache und Ihre Stimme trainieren. Dazu müssen sie eine Reihe von Pest Sätzen (Testsätzen) ins Mikrophon sprechen. Diese Daten werden vom Programm analysiert und in einem Profil ihrer Stimme ausgewertet.

Damit Sie (die) Erkennung lautet (klappt), müssen sie ihr Mikrofon richtig auf Steuern (aussteuern). Dabei hilft ihnen ein Inter aktiv fördern (interaktiver) Dialog. Eine Geräusch Arme (geräuscharme) und ruhige Umgebung ist natürlich ein absolutes Muss.

Quelle: M+K Computer-Markt, Montag, 1. Juni 1998

Rubrik und Tags:

Metadaten
Thema: IBM ViaVoice gold
Nr: 218
Ausgabe: 98-7
Anzahl Subthemen: 2

Obsolete Datenfelder
Bilder: 2
Textlänge: 500
Ort:
Tabb: FALSCH