Společnost Adobe každoročně na konferenci Adobe Max představuje takzvané výzkumné projekty, které se jednou mohou, ale nemusí, dostat mezi komerční produkty. Letošní rok není výjimkou a naštěstí pro nás jsme dostali náhled ještě před samotnou konferencí. Informoval o tom server TechCrunch.
Jednou z novinek je projekt „Clever Composites“, který využívá umělou inteligenci k automatickému skládání obrázků. Přesněji řečeno, automaticky předpovídá měřítko objektu a určuje, kde je nejlepší místo pro jeho vložení do obrázku. Poté normalizuje barvy objektu, odhaduje světelné podmínky a generuje stíny v souladu s estetikou obrazu.
Adobe’s AI prototype pastes objects into photos while adding realistic lighting and shadows https://t.co/bGUpqz6tyF by @kyle_l_wiggers
— TechCrunch (@TechCrunch) October 19, 2022
Kompozice je často ruční, zdlouhavý a časově náročný proces. Obvykle zahrnuje nalezení vhodného obrázku objektu nebo předmětu, pečlivé vyříznutí a úpravu jeho barvy, tónu, měřítka a stínů tak, aby jeho vzhled odpovídal zbytku scény, do které je vkládán. Prototyp společnosti Adobe tento proces odstraňuje.
„Vyvinuli jsme inteligentnější a automatizovanou techniku pro skládání obrazových objektů pomocí nové technologie vyhledávání s ohledem na kompozici,“ uvedl e-mailem pro server TechCrunch Zhifei Zhang, výzkumný inženýr společnosti Adobe, který se na projektu podílel.
Beyond The Seen
Druhým projektem, o kterém společnost Adobe rovněž poskytla několik informací, je „Beyond The Seen“. Jedná se o generátor obrázků, který pomocí umělé inteligence rozšiřuje hranice dvourozměrných snímků a dokonce z nich dokáže vytváří pohlcující trojrozměrné scény.
Generátor funguje tak, že vezme krajinu nebo fotografii z interiéru budovy a rozšíří ji do 360stupňového sférického panoramatu kolem kamery. Samozřejmě nemůže vědět, co se ve skutečnosti nachází za kamerou. Proto používá strojové učení k vytvoření věrohodného a plynulého prostředí. Generátor dokáže odhadnout 3D geometrii prostředí, což umožňuje měnit bod pohledu, a dokonce i to, že se kamera zdánlivě pohybuje po prostředí.
Beyon The Seen se od obecnějších generátorů obrázků, jako jsou DALL-E 2 a Stable Diffusion, liší ve dvou zásadních ohledech. Zaprvé je vycvičen na mnohem omezenějším souboru dat s konkrétním účelem. DALL-E 2 a Stable Diffusion byly vyškoleny na miliardách dvojic text a obrázek. Generátor společnosti Adobe byl vycvičen na datové sadě zhruba 250 000 360stupňových panoramat s vysokým rozlišením.
Druhým rozdílem je omezená funkcionalita. Projekt Beyon The Seen neumí generovat obrázek pomocí textu – jedná se o specializovaný nástroj. V tomto ohledu je to ale pozitivní vlastnost.