Two golden retrievers podcasting on top of a mountain

Sora

KI-basierte Videosoftware #Sora

Sora ist die nächste bahnbrechende KI-Entwicklung der US-Softwareschmiede OpenAI, die zuletzt mit dem ChatBot ChatGPT internationale Berühmtheit erlangte. Mit der Software Sora lassen sich Videos allein durch eine beschreibende Eingabeaufforderung erstellen. Schon bestehende Videos können erweitert werden, allerdings mit Stand von Februar 2024 nur durch das Anfügen von Sequenzen vor und nach dem schon bestehenden Video. Noch ist Sora nicht für die breite Öffentlichkeit zugänglich. OpenAI lässt die Künstliche Intelligenz aktuell durch Kreative testen, unter denen sich viele Filmemacher befinden.

 

Was kann Sora?

 

Die Software macht aus einem sogenannten Prompt, also einer per Text eingegebenen Beschreibung, ein Video mit einer Länge von derzeit maximal 60 Sekunden. Nach den Aussagen von Insidern und angesichts einiger veröffentlichter Ergebnisse gelingt das bereits auf recht beeindruckende Weise, auch wenn bislang noch kleine Fehler erkennbar sind. So beißt etwa in einer Szene eine Person von einem Keks ab, doch dieser ist danach im Ursprungszustand ohne die Bissspuren zu sehen. Diese Kinderkrankheiten dürften alsbald ausgemerzt sein, auch ChatGPT war anfangs damit aufgefallen. Als dessen neues Geschwisterkind gilt nun die Video-KI Sora, die am 15. Februar 2024 erstmals durch OpenAI vorgestellt wurde. Ansonsten genügt es, eine Anweisung wie „Person läuft über den New Yorker Times Square, ist unauffällig gekleidet und von viel Reklame umgeben“ als Prompt einzugeben: Schon entsteht diese Squenz sekundenschnell. Der Markt für diese Anwendung ist gigantisch.

Selbst die noch sehr kurzen Videos dürften massenhaft entstehen, denn damit ließen sich fast ohne Aufwand beispielsweise aus Produktbeschreibungen von schon vorhandenen Artikeln, wie sie etwa eTrado publiziert, im Handumdrehen unterstützende Videos generieren. Der OpenAI-CEO Sam Altman hat schon mehrere Sora-Videos mitsamt ihren Prompts vorgestellt. Seine neue KI erschafft Landschaften, Häuser und ganze Städte, aber auch Menschen und Tiere mit verblüffender Genauigkeit. Die Realisierung von Menschen gilt als Meisterklasse bei der KI-gestützten Videoproduktion. Dass dies Sora gelingt, ist für Experten ein Ausweis für das Potenzial der Künstlichen Intelligenz. Ihre Videos sind detailgenau, zeigen realistische Reflexionen und Staubeffekte, stellen kräuselnde Wellen naturgetreu dar und simulieren sogar Kamerafahrten.

 

Wo gibt es noch Schwächen?

Noch ist Sora nicht ganz perfekt, wie OpenAI unumwunden zugibt. Schwierig ist wohl die exakte Darstellung von Szenen, die auf physikalischen Gesetzen basieren: Ein Stein fällt ins Wasser und löst dort eine Wellenbewegung aus. Wie verbreiten sich die Wellen? Wer genau hinschaut, entdeckt Unstimmigkeiten und weiß dementsprechend, dass er es mit einem KI-generierten Video zu tun hat. In einer anderen auffälligen Szene versucht eine ältere Dame, die Kerzen ihres Geburtstagskuchens auszupusten.

Das war die Anweisung im Prompt. Folgerichtig bläst die Frau die Flammen an, doch sie bewegen sich nicht einmal und erlöschen erst recht nicht. Die Ergebnisse gelten dennoch als Meilenstein für die Entwicklung von KI-Videos. Insgesamt ist das Bildmaterial unglaublich beeindruckend. Es liefert tollende Hundewelpen und belebte Straßenszenen, die jetzt schon für einen Kinofilm verwendet werden könnten.

Sora ist übrigens nicht die erste Video-KI. Ein Vorläufermodell zeigte Anfang 2023 den US-Schauspieler Will Smith, wie er Spaghetti verschlang. Das sah urkomisch aus und dementsprechend ein echter Lacher, aber nicht allein wegen der Idee, sondern weil es absolut unecht und eher wie eine Persiflage und Karrikatur auf den Megastar wirkte. Er agierte wie in einem Horror-Comic: Zwar war er deutlich zu erkennen, doch dass er nicht real war, sahen die Zuschauer auf den ersten Blick. Die kurzen Clips zeigten sein Gesicht auf monströse Weise. Unförmige Nudeln wucherten ihm aus der Nase, bevor sie in seinen Ohren verschwanden. Bei Sora hingegen muss man sehr genau hinschauen, um noch kleine KI-typische Fehler zu erkennen.

 

Einige Szenen von Sora

 

  • Eine Frau läuft nachts durch Tokio. Es regnet, der nasse Asphalt spiegelt die neonfarbenen Lichter. Die Frau hat eine Sonnenbrille mit schwarzen Gläsern auf, in denen sich die Straßen spiegeln.
  • Drei Golden-Retriever-Welpen tollen durch ein Schneelandschaft. Schneeflocken und- kristalle fliegen in Zeitlupe um die jungen Hunde. Von ihrem Fell bewegt sich jedes Haar mit.
  • Eine Drohne fliegt über die zerklüftete kalifornische Steilküste. In der goldenen Abendsonne rollen die Wellen des Pazifiks majestätisch gegen Felsen am Ufer, wo sie in weißem Schaum zerbersten.
  • Zwei Golden Retriever nehmen einen Podcast auf.
  • Fische veranstalten ein Radrennen auf dem Meer.
  • Mammuts stapfen durch den Schnee.

 

Die anmutigen, fast schon cineastischen Clips wurden komplett durch Sora erschaffen. Kein einziges der sichtbaren Pixel ist real. Die KI-Software kombiniert hierfür zwei Technologien: ChatGPT und den Bildgenerator Dall-E. Letzterer ist inzwischen imstande, Textanweisungen in Bilder zu übersetzen. Er generiert zunächst winzigste Videoschnipsel und setzt sie dann zu einem Film zusammen, der wie bei den Texten von ChatGPT dem wahrscheinlichen, durch die KI errechneten Ablauf folgt. Wie der ChatBot wurde auch Sora mit Unmengen von Material trainiert und hat daraus gelernt, wie realistische Bewegungen aussehen, wie Licht auch Schatten erzeugt und welche Texturen bestimmte Oberflächen haben. Fehler gibt es nach wie vor, wie oben beschrieben, doch zum Teil muss man sie mit der Lupe suchen. So läuft die Frau in Tokio etwas zu schwebend, Passanten auf der Straße erinnern ein wenig an Figuren aus einem Computerspiel.
Die Wellen des Pazifiks gleiten mehr über die Felsen an der kalifornischen Küste hinweg, sie brechen an ihnen nicht wirklich realistisch. Der zerstäubende Schnee kann manchmal seine Richtung in der Luft ändern. Doch einige Effekte sind sogar gewollt: Fische wie die auf den Fahrrädern, die das Wasser durchflügen, gibt es teilweise gar nicht. Das werden viele Betrachter nicht schlimm finden, weil es einen großen Reiz KI-generierter Videos ausmacht. Sie erweitern die Bildsprache um unsere unendliche Fantasie und fügen dieser zusätzlich noch die Fantasie der Künstlichen Intelligenz hinzu.

 

Wie kommt es zum Namen „Sora“?

 

Sora ist kein Fantasiewort, sondern der japanische Begriff für Himmel. Die Schöpfer von OpenAI wollten mit der Namensgebung das grenzenlose Potenzial verdeutlichen, das sie ihrer KI zuschreiben. Damit liegen sie wahrscheinlich goldrichtig. Das Publikum darf sich auf eine bislang kaum zu erahnende Bildsprache freuen, derer sich Marketingspezialisten ebenso wie Filmemacher und andere Künstler umgehend bemächtigen werden.

 

Gibt es Missbrauchspotenzial?

 

Auf jeden Fall. Es ist zu erwarten, dass Sora in wenigen Monaten perfekte Videos liefert, in die reale Personen eingebaut werden. Das dürften dann Politiker sein, denen ein böswilliger Akteur falsche Aussagen unterschiebt. Solche Videos gibt es jetzt schon, sie entstehen mit Vorläuferversionen von Video-KI. Noch sind sie realitiv leicht als Fake zu identifizieren, aber Sora läutet mit hoher Wahrscheinlichkeit ein neues Level ein. Daher denken Sam Altman und sein Team bei OpenAI schon jetzt darüber nach, digitale Wasserzeichen in Sora einzubauen, die jedes Video als KI-generiert kennzeichnen. Außerdem sollen bestimmte Prompts zu keinen Ergebnissen führen. Das wären etwa Aufforderungen zu Gewalt- und Pornodarstellungen sowie die Verwendung von urheberrechtlich geschütztem Material.
Es bleibt abzuwarten, wie konsequent OpenAI wirklich solche Schutzmechanismen integriert. Bekanntlich kursieren gegenwärtig jede Menge Fake-Videos im Netz, von denen viele ebenfalls mithilfe von KI entstanden sind. Ein prominenter Fall ist die US-Sängerin Taylor Swift, die bekennend die Demokraten unterstützt und für das Trump-Lager aufgrund ihrer sagenhaften Beliebtheit eine echte Gefahr darstellt. Von ihr gibt es sexualisierte KI-Fakes, die offenkundig mit dem Bildgenerator Dall-E produziert wurden. Dieser gilt beim Abwehren von Fakes als unzuverlässig. Er verfügt zwar über entsprechende Schutzmechanismen, doch diese lassen sich wohl relativ leicht aushebeln. Ob die Koppelung von ChatGPT und Dall-E in dieser Hinsicht besser funktioniert, bleibt abzuwarten.

 

 

#sora #prompt# Ideen #update (19. Feb.2024)

Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.

Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.

Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.

 

Two golden retrievers podcasting on top of a mountain

 

Bicycle race on ocean with different animals as athletes riding the bicycles with drone camera view

 

Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

 

An gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.

 

Cybernetic German Shepherd

 

Beautiful, snowy Muelheim city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

 

pov footage of an ant navigating the inside of an ant nest

 

monkey playing chess in a park

 

Eine stilvolle Frau geht eine Straße in Tokio entlang, die mit warm leuchtendem Neon und animierten Stadtschildern gefüllt ist. Sie trägt eine schwarze Lederjacke, ein langes rotes Kleid und schwarze Stiefel und trägt eine schwarze Handtasche. Sie trägt eine Sonnenbrille und roten Lippenstift. Sie geht selbstbewusst und lässig. Die Straße ist feucht und reflektierend, wodurch ein Spiegeleffekt der bunten Lichter entsteht. Viele Fußgänger laufen herum.

 

Stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually. the street is damp and reflective, creating a mirror effect of the colorful lights. many pedestrians walk about.

2 Kommentare

Trackbacks & Pingbacks

  1. […] und Perspektiven. Die KI schreibt nicht nur Texte oder kreiert Filme (die brandneue Software Sora konnten Léa Steinacker und Miriam Meckel noch nicht erwähnen, es gibt sie erst seit Februar […]

  2. […] Potenzial von Prompts in der Welt der KI und Automatisierung ist enorm und sollte nicht übersehen werden. In regelmäßigen Abständen werden wir hier weitere […]

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert