Doposud byl lídrem v oblasti umělých inteligencí „text na obrázek“ program DALL-E, který vytvořila společnost OpenAI. Včera však společnost Google představila vlastní model Imagen, který DALL-E sesadil v kvalitě a rychlosti. Informoval o tom server The Verge.
AI „text na obrázek“ přijmou textový vstup, jako například „pes na kole“, a vytvoří odpovídající obrázek. Tato technologie je tu už léta, ale v poslední době došlo k obrovskému skoku v kvalitě a dostupnosti. Podle Jeffa Deana, vedoucího oddělení umělé inteligence ve společnosti Google, mohou takovéto systémy umělé inteligence „uvolnit společnou kreativitu člověka a počítače“.
Úžasné schopnosti Imagen nejlépe pochopíte, když si prostě prohlédnete některé snímky, které dokáže vytvořit. Další příklady si můžete prohlédnout na speciální stránce společnosti Google.
Přestože jsou tyto snímky nesporně působivé svou uceleností a přesností, je třeba je brát s rezervou. Když výzkumné týmy, jako je Google Brain, zveřejní nový model umělé inteligence, mají tendenci vybírat ty nejlepší výsledky. Takže i když všechny tyto obrázky vypadají dokonale, nemusí představovat průměrný výsledek.
Google říká, že vede nad konkurencí
Vygenerované obrázky často vypadají nedokončeně, rozmazaně nebo neostře – tyto problémy jsou často zaznamenané u obrázků generovaných programem DALL-E. Společnost Google však tvrdí, že Imagen produkuje trvale lepší obrázky než DALL-E, a to na základě nového benchmarku, který pro tento projekt vytvořila pod názvem DrawBench.
Jde v podstatě o seznam přibližně 200 textových zadání, která tým společnosti Google vložil do programu Imagen a dalších generátorů pro převod textu na obrázek, přičemž výstupy jednotlivých programů pak hodnotili lidé. Jak ukazují níže uvedené grafy, společnost Google zjistila, že lidé obecně dávají přednost výstupu z programu Imagen před výstupem konkurenčních programů.
Je však těžké posoudit pravdivost tohoto benchmarku, protože Google model Imagen nezpřístupňuje veřejnosti. Má k tomu i dobrý důvod. Přestože modely převodu „text na obrázek“ mají fantastický tvůrčí potenciál, mají také řadu problematických aplikací. Představte si, že by se systém, který generuje v podstatě libovolný obrázek, používal například k falešným zprávám, hoaxům nebo obtěžování.