Zürcher Sprachtechnologie im Google-Handy

Das Unternehmen Svox bringt Mobiltelefonen und Auto-Navigationsgeräten das Sprechen bei – und das Zuhören.

Von Matthias Schüssler

Mensch und Maschine kommunizieren auf unterschiedlichen Wegen. Klassisch passiert dies per Bildschirm, Tastatur und Maus. Das iPhone und das iPad reagieren auf Berührung, die Spielkonsole Wii auf die Bewegung des Controllers. Und Microsoft will beim «Projekt Natal» der Xbox beibringen, Mimik und Bewegungen des Nutzers zu erkennen.

Das Zürcher Unternehmen Svox setzt ganz auf die Sprache. Im Jahr 2000 als Spin-off der ETH gegründet, entwickelten die Sprachforscher anfänglich Systeme zur Sprachausgabe. Heute gehört auch die Spracherkennung und -steuerung zum Repertoire.

Bei Automodellen von BMW, Audio, Porsche, Volkswagen, Mercedes und anderen vermitteln die Systeme zwischen dem Fahrer und der Bordelektronik. Ohne die Hände vom Steuerrad zu nehmen, gibt der Automobilist Anweisungen ans Navigationsgerät. Dieses wiederum gibt die Richtungshinweise per Sprache aus. Das verhindert den risikoreichen Blick auf das Display des Geräts. Und das Autoradio wechselt auf Zuruf den Sender.

Auch Google setzt auf Technologie von Svox. Sie stellt auf Mobiltelefonen mit dem Android-Betriebssystem eine Sprachsteuerung bereit. Handys mit der Android 2.1, namentlich das Nexus One (siehe TA vom 8. März), gehorchen aufs Wort. Per Sprache lässt sich erfragen, wann der nächste Termin ansteht und wie viele neue Mails eingetroffen sind.

Auch die Antwort erfolgt selbstverständlich sprechenderweise. Das Telefon reagiert auch auf Aufforderungen zum Anwählen einer Telefonnummer und sogar der Text in SMS, E-Mails oder beliebigen Textfeldern kann per Diktat eingetragen werden. Dieses Diktiersystem stammt allerdings nicht von Svox. Google hat es selbst entwickelt, und es kennt bislang nur die englische Sprache.

Erkennen ja, Verstehen nein

Die Erkennung von Svox gibt es für 30 Sprachen. Chefentwickler Johan Wouters erläutert, dass Spracherkennung, so wie die Systeme sie heute betreiben, kein Sprachverständnis beinhaltet. Die Systeme verstehen nicht, was gesagt wird, sondern erkennen bekannte Muster. Für jede Sprache liegt eine Liste aller Wörter vor, mit denen das System umgehen kann. Jedes Wort wird zu einer Lautfolge transformiert, die dann für Vergleiche mit dem Sprachsignal herangezogen werden kann, das System hat einen klar begrenzten Wortschatz.

Eine Ausnahme bilden die Namen im Adressbuch, die das Telefon ebenfalls kennen muss, damit per Sprachbefehl gewählt werden kann. Dabei kommt eine Technik namens «Graphem to Phonem» zum Einsatz. Weniger technisch gesprochen: Das System versucht zu raten, wie ein Name ausgesprochen klingt. Unterschiedliche Sprechweisen, Sprechvarianten und die Eigenheiten verschiedener Sprecher werden über statistische Modelle abgefangen. Diese werden mit verschiedenen Sprechern, wechselnden Umgebungsgeräuschen, im Auto und in der Menschenmenge trainiert, damit die Erkennung auch im lärmigen Umfeld und bei nuschelnden Nutzern einigermassen verlässlich funktioniert.

100 Sprachexperten im Einsatz

Unterschiedliche Sprachen werden mit separaten statistischen Modellen abgedeckt. Svox beschäftigt in Zürich rund 100 Sprachexperten aus aller Herren Länder. Für diese Forschung sei ein offener Arbeitsmarkt in der Schweiz zentral – Offenheit nicht nur für Arbeitnehmer aus den EU-Ländern. Bei Svox trägt man sich mit dem Gedanken, im Hinblick auf die Fussball-WM afrikanische Sprachen zu erschliessen. «Wenn es um Sprache geht, ist ein multikulturelles Erbe ein grosser Vorteil», so das Credo des Unternehmens.

Für die Maschine sind längst nicht alle Sprachen gleich. Den Forschern bereiten aber nicht die Idiome Mühe, die man landläufig als schwierig ansehen würde. Das vermeintlich einfache Englisch ist alles andere als pflegeleicht, weil es viele Koartikulationen gibt. Bei diesen beeinflusst der nachfolgende Laut den vorherigen. Ein k, auf das ein u folgt, klingt beispielsweise anders als ein k mit anschliessendem i. Im Chinesischen gibt es eine überschaubare Zahl von Schriftzeichen, deutlich weniger, als es Worte im Englischen gibt. «Und das macht gewisse Teile der Lösung einfacher», wie es Chefentwickler Johan Wouters ausdrückt. Relativ einfach, was die Laute angeht, sind Spanisch oder Japanisch.

Die Königsdisziplin in der Sprachverarbeitung ist die Übersetzung gesprochener Sprache in Echtzeit. Was heute machbar ist, demonstriert die iPhone-App Jibbigo (www.jibbigo.com). Sie erkennt gesprochene Sätze, übersetzt sie in eine andere Sprache und spricht das Resultat mit Hilfe der Sprachsynthese von Svox. Die App existiert für die Sprachpärchen Spanisch-Englisch und Japanisch-Englisch, sie ersetzt zwar nicht den Simultandolmetscher, doch immerhin den Sprachführer. Sie übersetzt geläufige Sätze, fragt etwa nach dem nächsten Hotel oder reklamiert bei Ungeziefer in der Dusche.

In den Mund gelegte Worte

Die Sprachsynthese ist die akustische Ausgabe von schriftlichem Text. Svox verhilft Android-Handys zu einer Stimme und ist auch in den eBook-Readern von Asus integriert. Nachdem Computer schon Ende der Sechzigerjahre sprechen gelernt haben, bemühen sich die Forscher heute um eine möglichst natürliche und abwechslungsreiche Darbietung, genannt «expressive speech». Dem Text sind Informationen hinterlegt, die die Stimme dazu bringen, Emotionen und Nuancen zu vermitteln. Die Stimmen in den Systemen haben menschliche Vorbilder.

Laut Wouters können Stimmen inzwischen so überzeugend nachgebildet werden, dass es den Herstellern von automatisierten Telefonantwortsystemen zu viel wird: Wenn die Sprache gar nicht nach Roboter klingt, realisieren viele Anrufer nicht, dass sie kein menschliches Gegenüber am Draht haben.

Kann man Leuten demnach auch Dinge in den Mund legen, die sie nie gesagt haben? «Ganz klar», sagt Johan Wouters. «Aber beim visuellen Bereich kennen wir das. Man kann mit Photoshop Leute in Situationen versetzen, in denen diese nie waren. Daran sind wir gewöhnt. Mit der Stimme wird das genauso sein.»

Chefentwickler Johan Wouter im Tonstudio der Firma Svox. Foto: Nicola Pitaro

Quelle: Tages-Anzeiger, Montag, 12. April 2010

Rubrik und Tags:

Faksimile
100412 Seite 42.pdf

Die Faksimile-Dateien stehen nur bei Artikeln zur Verfügung, die vor mindestens 15 Jahren erschienen sind.

Metadaten
Thema: Aufmacher
Nr: 9397
Ausgabe:
Anzahl Subthemen: 1

Obsolete Datenfelder
Bilder: 1
Textlänge: 600
Ort:
Tabb: FALSCH