Generování obrázků pomocí AI

V roce 2022 jsme byli svědky průlomu v oblasti generátorů obrázků, které vytvářejí jedinečné vizuály na základě textového popisu. Od podivných, nesourodých počátků se v průběhu necelého roku vyvinuly do takové míry, že vytvářejí obrázky nerozeznatelné od skutečných fotografií. Jeden německý fotograf dokonce zvítězil v prestižní soutěži s dílem vytvořeným umělou inteligencí. Nikdo nepoznal, že za tím stojí stroj.

Midjourney

Midjourney je v současnosti nejlepší generátor obrázků. Na počátku dal uživatelům otevřený přístup. Výhodou se ukázal i poněkud netradiční způsob ovládání, a to prostřednictvím komunikační platformy Discord. Proč? Když jsem poprvé v létě 2022 představoval kamarádům tuto úchvatnou technologii, říkal jsem: „Vymysli cokoliv a stroj to za pár sekund nakreslí!“ Odpovědi byly většinou: „já nevím, třeba jablko" a když stroj vygeneroval jablko, nadšení bylo pochopitelně nulové: „Hmm, jablko.“ Ale díky Discordu se lidé mohli navzájem inspirovat navzájem a brzy vymýšleli mnohem kreativnější prompty, jako třeba „beautiful pale cyberpunk female with heavy black eyeliner, blue eyes, shaved side haircut, hyper detail, cinematic lighting, magic neon, dark red city“. A výsledky byly parádní.

Jak začít s Midjourney?

  • Zaregistruj se na Discordu a přijmi pozvánku na kanál Midjourney
  • Přejdi na kanál #newbies, zadej příkaz /subscribe a vyber si svůj tarif (v době, kdy toto čteš, mohou i nemusí být k dispozici obrázky zdarma)
  • Poté se vrať na Discord a začni generovat obrázky pomocí příkazu /imagine následovaným popisem obrázku

Nastavení můžeš měnit pomocí příkazu /settings, například se přepnout na nejnovější verzi modelu. K dispozici je také řada parametrů, užitečný je třeba --ar pro nastavení poměru stran obrázku. Příjemnou zábavu!

Stable Diffusion

Stable Diffusion, vyvinutý start-upem Stability AI, je dalším významným aktérem v oblasti generátorů obrázků. Vyznačuje se tím, že je open source (tedy jeho kód je vývojářům volně k dispozici), a je navržen tak, aby mohl být provozován i na domácím hardware. Ačkoli dříve za Midjourney trochu zaostával, jeho nejnovější verze XL (tj. SDXL) je opravdu pecka. Vyzkoušet jej můžeš třeba v aplikaci DreamStudio.

Díky tomu, že je Stable Diffusion open source, vznikla široká škála derivátů a nádstaveb. Zvláště oblíbené jsou služby typu dreambooth, kde uživatelé nahrávají své fotografie a poté obdrží sadu stylových avatarů. Další zajímavé aplikace zahrnují generátory videí, které dlouho připomínaly svět po požití koňské dávky LSD, ale neustále se zlepšují a videa budou příští velká věc.

ControlNet

ControlNet je kouzelné rozšíření pro Stable Diffusion, které nám dává možnost vedle textového promptu ovládat generátor pomocným obrázkem. Na něj můžeš třeba načrtnout požadované rozmístění objektů. Zaznamenat několika tahy pozici člověka, které pak všechny vygenerované postavy budou odpovídat. Může transformovat svoje dětské kresby (pardon, svých potomků) do realistických obrázků Nebo vytvářet tyhle kulervoucí QR kódy (opravdu fungují, namiř na ně mobil).

ControlNet si můžeš vyzkoušet na HuggingFace nebo třeba HappyAccidents.

Podívej se na tento úžasný obrázek:

Vrtá ti hlavou, jak vznikl? Sím, sím, to náhodou vím!!! Takže… Vyrobí ho ControlNet. Z obrázku opery v Sydney vygeneruju takzvanou hloubková mapu. A tu pak použije při generování obrázku nového. Jako prompt stačí zadat něco jako „nádobí na odkapávači, dřevěný kuchyňský stůl“ a ControlNet se postará o to, aby nově vzniklý obrázek zachoval hloubkovou mapu původního:

Boží co? A jak asi vznikly tyhle pareidolie? A co vůbec znamenená slovo pareidolie?

Slovo si vygoogli. Co se týče obrázku, tak prompt zněl úplně jednoduše: středověký hrad a malé jezero. Magii opět obstaral ControlNet, jen tentokrát nehlídal hloubkovou mapu předlohy, ale její tmavá a světlá místa, úplně stejně, jako při generování QR kódů.

Adobe Photoshop

Program, který se stal synonymem pro retušování – fotošopování. Používám ho už od verze 4. Podle mého názoru byly největšími inovacemi zavedení vícenásobného undo v roce 1998 a generativní výplně s pomocí AI v roce 2023.

Chceš přidat něco nového do fotky? Vezmi nástroj laso, označ oblast, řekni, co tam chceš mít, a zmáčkni tlačítko Generate. Photoshop zanalyzuje každý pixel fotky, zhodnotí osvětlení, perspektivu, barvy i stíny a během okamžiku vykouzlí objekt, který tam sedne jako prdel na hrnec. A když se nelíbí, klikáš dál a generuješ další varianty. Nutno ovšem říct, že Photoshop zatím nedosahuje kvalit Midjourney nebo SDXL.

Odstraňování objektů? Rovněž hračka. Označ oblast a nech pole pro text prázdné. Photoshop překreslí objekty jejich pozadím. Takhle jsem za pár minut zbavil Elektrické podniky, chráněnou to kulturní památkou, hromady vizuálního smogu (koukni na video):

Zábava je zvětšovat šířku nebo výšku obrázků a sledovat, jak Photoshop doplní zbytek. Můžeš se podívat na demo, co jsem předváděl na Festivalu Banát.

A teď to hlavní: jak se k Photoshopu dostat? Jelikož generativní kouzla se provádějí na serverech Adobe (tedy v cloudu), nepomůže si program čórnout a kreknout. Musíš ho mít legálně, přes to nejde vlak. Přitom to vůbec nemusí stát majlant. Podívej se na tuhle nabídku, konkrétně „Plán pro digitální fotografii 20GB“. Ten zahrnuje Photoshop a vychází na jářku 9,67€ měsíčně, což je asi 230 Kč včetně DPH. Tedy míň než boxík u KFC. A když tě to po měsíci přestane bavit, můžeš to zrušit.

Dall-E

Dall-E od OpenAI byl první generátor obrázků, který se dostal do povědomí širší veřejnosti. Jenže přístup byl dlouho možný jen přes pozvánky, takže lidé dali přednost Midjourney. A ten jej předběhl co do kvality výstupu o pár koňských délek. Ale OpenAI neusnulo a na podzim 2023 představilo třetí verzi, která krok zase srovnala. Její velkou předností je schopnost porozumět zadání. Jde o první generátor, který třeba pochopil zadání „převrácený automobil Volvo v zimní krajině a sob“. Schválně srovnej výsledek u Dall-E versus Midjourney.

Existuje finta, jak používat Dall-E bezplatně, a to pomocí Bing Chatu. Stačí napsat, co chceš nakreslit, a to dokonce i v češtině.

Další

  • AI Eye contact – upraví video s mluvící hlavou tak, abyste se dívala do kamery
  • PimEyes – najde fotografie konkrétní osoby napříč celým internetem
  • HeyGen – vytvoří video s mluvčím nebo digitálním učitelem
  • Human Generator – vytvářejte realistické fotografie lidí na několik kliknutí

Stay tuned, doplňují stále nová hesla.