Das riesige Blamagepotenzial der KI-generierten Videos
Hollywood hat Angst vor der künstlichen Intelligenz (KI). Vor einem Jahr warnten Filmschaffende wie Justine Bateman vor der «KI-Apokalypse». Die Schauspielerin sieht Jobs und die Qualität in Gefahr und fürchtet eine Entwertung der kreativen Arbeit. Glenn Close und Ben Affleck haben sich ähnlich geäussert. Und Nicolas Cage sprach letzte Woche an einer Preisverleihung den Robotern die Fähigkeit ab, «das Menschsein für uns zu reflektieren».
Diese Furcht wird von KIs wie Sora genährt. Diese Software erzeugt anhand einer Textbeschreibung eine Filmsequenz. Sie stammt wie Chat-GPT von Open AI und ist seit letztem Dezember für zahlende Kundinnen und Kunden zugänglich. In der Schweiz kann Sora bislang offiziell nicht genutzt werden, aber mittels VPN klappt es. Diese Software führt den Zugriff über einen Server in den USA.
Sora erzeugt Sequenzen von bis zu einer Minute Länge. Während frühere Film-KIs lediglich Standbilder mit Animationseffekten versahen, lässt sich mit Open AI ein kurzer Handlungsablauf entwickeln. In unserem ersten Testvideo soll eine Ameise auf einem Velo bei ihrer Tour durch die Graslandschaft auf eine Schnecke treffen und mit ihr den Weg fortsetzen.
Aus dieser kurzen Beschreibung erzeugt Sora ein Storyboard. Das ist ein Ablauf, der beschreibt, wie die Ameise aufs Velo steigt und unterwegs auf die Ameise trifft. Zum Video lassen sich einige formale Einstellungen wie Auflösung, Seitenverhältnis und Länge einstellen. Bei meinem Test beträgt die maximale Dauer 10 Sekunden. Für längere Filme braucht es das Pro-Abo, das 200 Dollar pro Monat kostet.
Das Resultat verblüfft in doppelter Hinsicht. Die kleine Ameise, die Schnecke, die Graslandschaft, sie sind alle vorhanden. Auch der visuelle Stil passt ausgezeichnet. In ausgebauter Form könnte dieses Abenteuer im Kinderfernsehen laufen. Und auch wenn wir uns an die Möglichkeiten der KI gewöhnt haben, ist es dennoch faszinierend, eine Idee Augenblicke später als Bewegtbild vorgeführt zu bekommen.
Verblüffend ist jedoch auch, wie schnell einem Fehler auffallen. Während die Ameise aufsteigt, verschmilzt ihr Hinterteil auf seltsame Weise mit dem Rad. Der Vorgang des Velofahrens stellt die KI vor Probleme: Mal bewegen sich die Beine, mal nicht, mal ist nur ein Ameisenbein zu sehen und mal sind die Pedale unsichtbar. Und die Schnecke? Die kriecht nicht über den Boden, sondern saust mit Karacho dahin – um sich unvermittelt in Luft aufzulösen.
Und das Irrste: Am Ende der Szene erscheint ein Mensch, der nicht im Drehbuch stand und mit der Schnecke einen Fistbump vollführt. Warum auch immer Sora diese unerwartete Wendung eingeführt hat, beweist sie doch eines: Dass Nicolas Cage mit seiner Kritik völlig richtig liegt. Die künstliche Intelligenz versteht nichts von der Welt: Sie weiss nicht, wie man Velo fährt – wie will sie eine Geschichte erzählen, die für Menschen eine Bedeutung hat?
Darum keine Angst, dass im Kino bald nur noch Filme laufen, die ein KI-Freak an seinem Laptop gebastelt hat. Aber wozu lässt sich Sora ernsthaft verwenden? Der Videogenerator ist nicht in der Lage, eine Tonspur zu erzeugen: Man kann mit ihm kein Schulungsvideo erzeugen, in dem ein Avatar durch die Lektionen führt. Das ist aber mit anderen KIs möglich, etwa von D-id.com oder von Hourone.ai.
Für wenig ambitionierte Projekte lässt sich Sora einsetzen. Je simpler die Aufgabe, desto besser die zu erwartenden Resultate – mit abstrakten Vorstellungen kommt die KI schlecht zurecht. Und ein Potenzial hat Sora als Spielwiese – denn selbst wenn die Kreationen nicht immer über alle Zweifel erhaben sind, so bringen sie uns doch oft auf gute Ideen.
Matthias Schüssler ist Digitalredaktor der SonntagsZeitung.

