OpenAI tar ett jättekliv

...men det handlar egentligen inte om video.

Tidigare i veckan höll vi en stor presentation hos en kund om olika typer av AI-verktyg. Under rubriken video tog vi upp bland annat Kaiber, som skapar fantasifulla videos av promptar.

Jag (Kalle) har kallat de AI-videos som har kunnat genereras med olika verktyg fram till nu för ”rörlig stillbild”, då modellen som skapar de här mardrömslika videoklippen inte har någon egentlig uppfattning om rum, tid eller fysik. Varje ny bildruta är genererad från föregående samt en prompt, vilket skapar den här flytande känslan.

Det var tidigare i veckan. Sen blev det plötsligt framtiden, när OpenAI (som gör ChatGPT och DALL·E) igår publicerar de första resultaten av Sora, deras kommande text to video-modell. Resultaten från den är häpnadsväckande. Olika typer av kameraåkningar kombineras med varierande motiv synbarligen helt utan artefakter. Det här går inte att göra med en vanlig text to image-modell, som är tränad på stillbilder.

Prompt: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. (...)

Mycket riktigt så skriver de att modellen är tränad på hur verkligheten fungerar, med större framtida mål i sikte. Det är alltså inte bara en modell för att generera verklighetstrogen video.

We’re teaching AI to understand and simulate the physical world in motion, with the goal of training models that help people solve problems that require real-world interaction. https://openai.com/sora

Så det finns mål bortom att generera video.

Det finns svagheter i modellen, som visas med videoexempel på sidan, som att fysik i komplexa scener kan bli fel, eller att orsak och verkan inte alltid fungerar som i verkligheten.

De fokuserar även på säkerhet och spårbarhet för att motverka användning av verktyget för desinformation, hat och fördomar, vilket kommer bli extra viktigt nu under valåret i USA.

För OpenAI är Sora alltså inte bara en modell för generativ video, utan även ett viktigt steg mot faktisk artificiell intelligens.

Sora serves as a foundation for models that can understand and simulate the real world, a capability we believe will be an important milestone for achieving AGI. https://openai.com/sora