Teils gruselig, oft überraschend – und manchmal sogar schön

Künstliche Intelligenz kreiert Bilder

Wir haben fünf Systeme verglichen, die mittels künstlicher Intelligenz Textbeschreibungen in digitale Illustrationen verwandeln. Die Resultate der Text-zu-Bild-Revolution.

Matthias Schüssler

Ein Bild, erzeugt von einer künstlichen Intelligenz: Irritierend und gruselig.

Von der «Text-zu-Bild-Revolution» ist zu lesen – und für einmal ist das nicht zu hoch gegriffen. Denn was derzeit passiert, verändert unser Verständnis davon, was ein Computer ist und was er kann. Bislang haben wir sie als Maschinen wahrgenommen, die unglaublich schnell, aber auch komplett fantasielos sind.

Doch diese Revolution versetzt die Maschinen in eine neue Rolle: Sie sollen sich kreativ betätigen. Auf Zuruf zwar – denn wir Menschen geben die Aufgabe vor –, doch wie ein System sie umsetzt, ist ihm überlassen. In den letzten Monaten sind eine Reihe solcher Systeme aufgetaucht, die sich teils frei, teils mit Zugangsbeschränkungen testen lassen. Ein Meilenstein in dieser Entwicklung ist Dall-e 2, ein System, das unter anderem von Elon Musk und Microsoft finanziert wird. Und neulich hat Stable Diffusion für Furore gesorgt: Diese Software ist Open Source, sodass die Nutzerinnen und Nutzer sie selbst betreiben und auch modifizieren können – das entsprechende Fachwissen und leistungsfähige Hardware vorausgesetzt.

Kunst aus der Maschine

Was taugen diese Systeme – und wie unterscheiden sie sich? Um einen Eindruck davon zu bekommen, haben wir fünf Systeme verglichen – und zwar anhand von zwei unterschiedlichen Aufgaben. Erstens wollten wir «die schönste Frau der Erde mit Fuchsohren und einem Hasenschwänzchen» sehen, zweitens das «Matterhorn aus Schokolade mit einem Hut aus Schlagrahm». Wir haben fünf Systemen diese Aufgabe gestellt, nämlich das von Elon Musk und Microsoft mit mehreren Millionen US-Dollar ausgestattete Dall·e 2, die Open-Source-Software Stable Diffusion plus die drei Herausforderer Craiyon, Artbreeder und Starryai.

Und das sind die Resultate:

Die Chimäre

Dall-e 2: Diese Software liefert vier Varianten in unterschiedlichen Stilen. Allerdings bleibt das Hasenschwänzchen aussen vor.

Stable Diffusion: Eine eindrückliche Umsetzung, doch das aus der Hand wachsende Häschen entspricht nicht den Anforderungen.

Craiyon (vormals Dall-e Mini): Diese Software liefert neun Varianten mit guten Ansätzen, doch die Gesichtszüge wirken gruselig.

Artbreeder: Die Zahl der Ohren ist irritierend – und die Mimik ist es auch.

Starryai: Dieses Kunstwerk bringt uns zum Schluss, dass KIs – wenn sie denn so steuern, wie sie malen – noch lange keine autonomen Autos lenken sollten.

Eindrücklich ist die Bandbreite der Kreationen. Die weniger entwickelten Systeme leiden unter dem «Uncanny Valley»-Effekt: Er besagt, dass künstlich erzeugte Bild, die lebensecht wirken sollen, uns schon mit kleinen Fehlern so sehr irritieren, dass wir sie ablehnen und als gruselig empfinden. Die weniger weit entwickelten Systeme stellen vor allem die menschliche Anatomie so fehlerhaft und deformiert dar, dass sie abschreckend und albtraumhaft wirken.

Im Vergleich dazu sind illustrative und comicartige Darstellungen so überzeugend, dass sie in einem Buch oder Magazin nicht weiter auffallen würden. Wir können davon ausgehen, dass uns solche Kreationen im Bereich der Illustration bald öfter begegnen werden.

Das Matterhorn aus Schokolade

Dall-e 2: Diese Dessertkreationen sind so fantasievoll, dass wir sie unbedingt probieren würden. Die Schokolade ist vorhanden, der Schlagrahm ebenfalls. Kritisieren kann man, dass das Arrangement zwar in Form eines Bergs erfolgt ist, doch das Matterhorn nicht als solches zu erkennen ist.

Stable Diffusion: Das Matterhorn ist da, die Schokolade auch – aber natürlich hätten wir gern beides in kombinierter Form gesehen.

Craiyon: Das sind alles fantasievolle Dessertkreationen in Bergform – doch wiederum ist das Matterhorn zu wenig erkennbar.

Artbreeder: Aufgabe nicht erfüllt: Das ist kein wirklicher Berg, und der Schlagrahm sitzt an der falschen Stelle.

Starryai: Auch bei dieser Aufgabe scheitert Starryai krachend: Die Berge sind zwar da, scheinen aber aus Geldnoten und nicht aus Schokolade zu bestehen.

Dieses Beispiel zeigt, dass die Systeme ihre liebe Mühe mit abstrakten Vorgaben haben: Einen Berg in ein Dessert zu verwandeln, dass sein ikonisches Wesen erhalten bleibt, überfordert die KI. Ein Künstler aus Fleisch und Blut würde eine solche Aufgabe locker bewältigen – und ausserdem die Gelegenheit wahrnehmen, dem Werk seinen Stempel aufzudrücken.

Schöpfungskraft aus enormer Rechenleistung

Wir sollten uns an dieser Stelle daran erinnern, dass wir solchen Systemen zwar «künstliche Intelligenz» attestieren, sie aber nicht wirklich kreativ sind. Sie ziehen ihre Schöpfungskraft aus einer enormen Rechenleistung und aus riesigen Datenbeständen: Die Systeme werden auf Milliarden von verschlagworteten Fotos trainiert, was ihnen hilft, konventionelle Ideen zu reproduzieren. Doch auf den göttlichen Funken warten wir vergebens.

Originelle Kunst wird durch die digitale Konkurrenz einen Aufschwung erfahren, je mehr die synthetische Kunst im Alltag anzutreffen sein wird – genauso, wie die handgezeichneten Disneyfilme heute noch aus der Masse der CGI-Animationen herausragen. Doch bei der weniger anspruchsvollen Illustration ist mit einem Preiszerfall zu rechnen – ähnlich wie in der Fotografie, wo Plattformen wie Pexels oder Unsplash eine riesige Auswahl an Stockfotos zum Nulltarif bereithalten.

Related