Společnost OpenAI, která stojí za vlivnými nástroji umělé inteligence ChatGPT a Dall-E, představila svou nejnovější inovaci – model pro generování videí s umělou inteligencí nazvaný Sora. Tento nový průlom v oblasti umělé inteligence má potenciál být tím dosud nejúžasnějším, ačkoli existuje mnoho nezodpovězených otázek ohledně jeho fungování.
Podle výzkumné práce OpenAI funguje Sora jak jako „difuzní model“, tak i jako „transformer“, podobně jako Dall-E a ChatGPT. To mu umožňuje předpovídat sekvence nebo vzory, v tomto případě video, na základě rozsáhlých tréninkových dat. Nicméně, specifika použitých tréninkových dat zůstávají neznámá.
Sora je nástroj pro převod textu na video, který je schopen vytvářet širokou škálu fotorealistických, animovaných a dokonce bizarních videí až do délky šedesáti sekund. Ačkoliv ještě není k dispozici pro veřejnost, série ukázkových videí vydaných OpenAI vyvolala poptávku po jeho uvolnění.
„Sora je zatím nejúžasnější nástroj pro převod textu na video, jaký jsme viděli,“ řekl mluvčí OpenAI. „Je schopen vytvářet složité scény s více postavami, simulovat fyzický svět v pohybu a pochopit, jak by objekty měly v tomto světě existovat.“
Navzdory svým působivým schopnostem není Sora bez omezení. Společnost OpenAI přiznává, že nástroj může mít problémy s přesnou simulací fyziky složité scény, pochopením konkrétních případů příčin a následků a někdy může zaměnit prostorové detaily výzvy. Kromě toho zůstávají nezveřejněna specifika modelu GPT použitého k sestavení nástroje Sora, data, na kterých byl vycvičen, ani to, kdy bude uvolněn pro veřejnost.
Přesto je potenciál Sory nesporný. Od vytváření přesvědčivých sci-fi trailerů, fotorealistických lidí až po animované krátké filmy ve stylu Pixar může tento nástroj zásadně proměnit oblasti videa, kamer, filmů, her a dokonce i gifů. Zatímco čekáme na další podrobnosti, svět s napětím sleduje, kam nás tento nový průlom v technologii umělé inteligence zavede.