Výzkumný tým společnosti Google představil nový nástroj, který ukazuje, jak až může být AI nápomocná při editování fotografií. Informoval o tom server Tom’s Guide a TechRadar.
Ve spolupráci se společností Maxe Plancka vytvořili výzkumníci z Googlu nástroj pro „point-based“ manipulaci s obrázky nazvaný DragGAN, neboli „Drag-based Generative Adversarial Network“. Nástroj je v podstatě schopen postupně přesouvat více bodů obrázku podél cílové trajektorie definované uživatelem. Umělá inteligence dokáže změny realisticky interpretovat. Výsledky nejsou vždy dokonalé, ale jsou působivé.
Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
— AK (@_akhaliq) May 19, 2023
paper page: https://t.co/Gjcm1smqfl pic.twitter.com/XHQIiMdYOA
Editování pro každého
Ačkoli podobné efekty úprav fotografií již existují, zejména v nástrojích Photoshopu (například Perspective Warp), DragGAN posouvá tento nápad a uživatelské rozhraní na novou úroveň. Na rozdíl od tradičních nástrojů pro úpravu obrázků, které pouze zkreslují nebo ořezávají stávající pixely, dokáže DragGAN vytvořit nový obsah. Pokud například přetáhnete ústa osoby na fotografii, aby se usmála, editor nejen roztáhne rty, ale také vygeneruje zuby a odpovídajícím způsobem upraví výraz obličeje.
Mezi další příklady, které výzkumníci uvedli, patří změna výšky hory, změna postoje ženy, změna velikosti jejího oděvu a otevření nebo zavření lví tlamy, aby se naznačil řev. „Prostřednictvím DragGAN může kdokoli deformovat obraz s přesnou kontrolou nad tím, kam se pixely přesunou, a manipulovat tak s pózou, tvarem, výrazem a rozložením různých kategorií, jako jsou zvířata, auta, lidé, krajiny atd.“ napsali výzkumníci v článku.
Pokud nechcete měnit celou fotografii, můžete na část použít masku, například na hlavu psa, a algoritmus ovlivní pouze tento výběr. Tato úroveň kontroly by také měla pomoci snížit množství artefaktů a chyb. Výzkumný tým také slíbil, že v blízké budoucnosti plánuje „rozšířit bodové úpravy na 3D generativní modely“.
DragGAN by mohl být použit ve spojení s nástrojem pro generování textu na obraz, jako je Midjourney nebo Runway. Pokud by výstup z textového vstupu nebyl podle vašich představ, mohli byste jej pomocí DragGAN rychle upravit. Zatím není jasné, kdy bude nástroj DragGAN uvolněn pro běžné použití. Nicméně poznámka na GitHubu naznačuje, že kód bude k dispozici v červnu 2023. Až se hotová verze této technologie nakonec dostane do chytrých telefonů, budou nedokonalé fotografie minulostí.