Generování obrázků pomocí AI

V roce 2022 jsme byli svědky průlomu v oblasti generátorů obrázků, které vytvářejí jedinečné vizuály na základě textového popisu. Od podivných, nesourodých počátků se v průběhu necelého roku vyvinuly do takové míry, že vytvářejí obrázky nerozeznatelné od skutečných fotografií. Jeden německý fotograf dokonce zvítězil v prestižní soutěži s dílem vytvořeným umělou inteligencí. Nikdo nepoznal, že za tím stojí stroj.

Midjourney

Midjourney je v současnosti nejlepší generátor obrázků. Na počátku dal uživatelům otevřený přístup. Výhodou se ukázal i poněkud netradiční způsob ovládání, a to prostřednictvím komunikační platformy Discord. Proč? Když jsem poprvé v létě 2022 představoval kamarádům tuto úchvatnou technologii, říkal jsem: „Vymysli cokoliv a stroj to za pár sekund nakreslí!“ Odpovědi byly většinou: „já nevím, třeba jablko" a když stroj vygeneroval jablko, nadšení bylo pochopitelně nulové: „Hmm, jablko.“ Ale díky Discordu se lidé mohli navzájem inspirovat navzájem a brzy vymýšleli mnohem kreativnější prompty, jako třeba „beautiful pale cyberpunk female with heavy black eyeliner, blue eyes, shaved side haircut, hyper detail, cinematic lighting, magic neon, dark red city“. A výsledky byly parádní.

Jak začít s Midjourney?

Zaregistruj se na Discordu a přijmi pozvánku na kanál Midjourney
Přejdi na kanál #newbies, zadej příkaz /subscribe a vyber si svůj tarif (základní dělá $10 měsíčně)
Poté se vrať na Discord a začni generovat obrázky pomocí příkazu /imagine následovaným popisem obrázku

Nastavení můžeš měnit pomocí příkazu /settings, například se přepnout na nejnovější verzi modelu. K dispozici je také řada parametrů, užitečný je třeba --ar pro nastavení poměru stran obrázku. Příjemnou zábavu!

Dall‑E

Dall-E od OpenAI byl první generátor obrázků, který se dostal do povědomí širší veřejnosti. Jenže přístup byl dlouho možný jen přes pozvánky, takže lidé dali přednost Midjourney. A ten jej předběhl co do kvality výstupu o pár koňských délek. Ale OpenAI neusnulo a na podzim 2023 představilo třetí verzi, která krok zase srovnala. Její velkou předností je schopnost porozumět zadání. Jde o první generátor, který třeba pochopil zadání „převrácený automobil Volvo v zimní krajině a sob“. Schválně srovnej výsledek u Dall-E versus Midjourney.

Dall-E je součástí placeného ChatGPT. Jednoduše napíšeš: „Vytvoř obrázek …“ a chat ho vygeneruje. Existuje finta, jak používat Dall-E bezplatně, a to pomocí Bingu.

Adobe Photoshop

Program, který se stal synonymem pro retušování – fotošopování. Používám ho už od verze 4. Podle mého názoru byly největšími inovacemi zavedení vícenásobného undo v roce 1998 a generativní výplně s pomocí AI v roce 2023.

Chceš přidat něco nového do fotky? Vezmi nástroj laso, označ oblast, řekni, co tam chceš mít, a zmáčkni tlačítko Generate. Photoshop zanalyzuje každý pixel fotky, zhodnotí osvětlení, perspektivu, barvy i stíny a během okamžiku vykouzlí objekt, který tam sedne jako prdel na hrnec. A když se nelíbí, klikáš dál a generuješ další varianty. Nutno ovšem říct, že Photoshop nedosahuje kvalit Midjourney nebo SDXL, a hlavně se nijak nezlepšuje, takže palec dolů.

Odstraňování objektů? Rovněž hračka. Označ oblast a nech pole pro text prázdné. Photoshop překreslí objekty jejich pozadím. Takhle jsem za pár minut zbavil Elektrické podniky, chráněnou to kulturní památkou, hromady vizuálního smogu (koukni na video):

Zábava je zvětšovat šířku nebo výšku obrázků a sledovat, jak Photoshop doplní zbytek. Můžeš se podívat na demo, co jsem předváděl na Festivalu Banát.

A teď to hlavní: jak se k Photoshopu dostat? Jelikož generativní kouzla se provádějí na serverech Adobe (tedy v cloudu), nepomůže si program čórnout a kreknout. Musíš ho mít legálně, přes to nejde vlak. Přitom to vůbec nemusí stát majlant. Podívej se na tuhle nabídku, konkrétně „Plán pro digitální fotografii 20GB“. Ten zahrnuje Photoshop a vychází na jářku 9,67€ měsíčně, což je asi 230 Kč včetně DPH. Tedy míň než boxík u KFC. A když tě to po měsíci přestane bavit, můžeš to zrušit.

Stable Diffusion

Stable Diffusion, vyvinutý start-upem Stability AI, je dalším významným aktérem v oblasti generátorů obrázků. Vyznačuje se tím, že je open source (tedy jeho kód je vývojářům volně k dispozici), a je navržen tak, aby mohl být provozován i na domácím hardware. Ačkoli dříve za Midjourney trochu zaostával, jeho nejnovější verze XL (tj. SDXL) je opravdu pecka. Vyzkoušet jej můžeš třeba v aplikaci DreamStudio nebo na Clipdropu.

Díky tomu, že je Stable Diffusion open source, vznikla široká škála derivátů a nádstaveb. Zvláště oblíbené jsou služby typu dreambooth, kde uživatelé nahrávají své fotografie a poté obdrží sadu stylových avatarů. Další zajímavé aplikace zahrnují generátory videí, které dlouho připomínaly svět po požití koňské dávky LSD, ale neustále se zlepšují a videa budou příští velká věc.

Clipdrop

Clipdrop je webová služba, která využívá umělou inteligenci k poskytování pokročilých nástrojů pro manipulaci s obrázky. Lze ji použít k odstranění nežádoucích prvků z fotografií, změně nasvícení, zvětšení obrázků i ke generování pomocí textu. K dispozici je i jako mobilní aplikace nebo plugin pro Adobe Photoshop. Provozuje ji nám již známý start-up Stability AI.

ControlNet

ControlNet je kouzelné rozšíření pro Stable Diffusion, které nám dává možnost vedle textového promptu ovládat generátor druhým pomocným obrázkem. Na něm může být třeba náčrtek požadovaného rozmístění objektů. Nebo lze zaznamenat několika tahy pozici člověka, které pak všechny vygenerované postavy budou odpovídat. Můžeš transformovat svoje dětské kresby do realistických obrázků Nebo vytvářet tyhle fantastické QR kódy (opravdu fungují, zkus na ně namířit mobil, což chápu, že může být trošku oříšek, pokud tohle na mobilu čteš).

ControlNet si můžeš vyzkoušet na HuggingFace nebo třeba HappyAccidents.

Podívej se na tento úžasný obrázek:

Vrtá ti hlavou, jak vznikl? Sím, sím, to náhodou vím!!! Takže… Vyrobil ho samozřejmě ControlNet. Nejprve z obrázku opery v Sydney vygeneruje takzvanou hloubkovou mapu. A tu pak použije při generování obrázku nového. Jako prompt stačí zadat něco jako „nádobí na odkapávači, dřevěný kuchyňský stůl“ a ControlNet se postará o to, aby nově vzniklý obrázek zachoval hloubkovou mapu původního, a v tom je celé kouzlo. Další příklady:

Boží co? A jak asi vznikly tyhle pareidolie? A co vůbec znamenená slovo pareidolie?

Slovo si vygoogli. Co se týče obrázku, tak prompt zněl zcela triviálně: středověký hrad v případě prvního a malé jezero u druhého. Magii opět obstaral ControlNet. Jen tentokrát nehlídal hloubkovou mapu předlohy, ale její tmavá a světlá místa, úplně stejně, jako při generování QR kódů. Můžeš si to vyzkoušet třeba na Illusion Diffusion.

Tipy na další nástroje

Mrkni na přehled AI nástrojů.

← Mýty, dohady a zajímavosti

↑ Úvod

→ Rozpoznávání a generování řeči