Generování AI obrázků

V roce 2022 se objevily první generátory obrázků a lidé z nich měli strandu. O rok později německý fotograf Boris Eldagsen přihlásil do Sony World Photography Awards obrázek, který celý vytvořila AI. Vyhrál – a pak cenu odmítl, aby ukázal, že soutěže na AI vůbec nejsou připravené. Dnes stačí napsat do ChatGPT „nakresli mi to a to“ a máš výsledek, ze kterého padá čelist.

ChatGPT Images

V březnu 2025 OpenAI zapnulo v ChatGPT generování obrázků. A internet se zbláznil. Najednou všichni posílali obrázky ve stylu studia Ghibli – sebe, svých dětí, svých koček, svých koček oblečených jako postavy z Cesty do fantazie. Sociální sítě se změnily v jednu velkou japonskou pohádku. Sam Altman hlásil, že „GPU se tavěj“ a servery OpenAI to málem položilo.

Od té doby OpenAI generátor dále vylepšovalo. Aktuální model se jmenuje GPT Image 1.5 (prosinec 2025), je 4× rychlejší a výrazně lepší v editaci – umí přesně měnit barvy, osvětlení, přesouvat objekty nebo mazat lidi z fotek. V Aréně, kde uživatelé anonymně hlasují pro lepší obrázek, je ChatGPT na prvních příčkách. A to jak v generování, tak v editaci.

Čím to? Protože je to zaboha nejjednodušší způsob, jak generovat obrázky. Žádné speciální nástroje, žádné složité prompty. Napíšeš do chatu „nakresli mi dinosaura, jak jede na kole přes Karlův most“ a dostaneš výsledek. Chceš změnit barvu kola? Řekneš to. Chceš přidat Říp do pozadí? Řekneš to. Prostě si s ním pokecáš česky a ono to funguje. Občas mu sice ujede perspektiva nebo počet prstů na ruce, ale to se rapidně zlepšuje.

Co to stojí? Bezplatní uživatelé dostanou pár generování denně, pak je konec. S placeným ChatGPT Plus ($20 měsíčně) dostaneš výrazně vyšší limit. Pro občasnou srandu stačí free verze, pro vážnější práci se bez Plus neobejdeš.

Gemini (Google)

Google nenechal OpenAI klidně spát. Generátor obrázků v Gemini se jmenuje Nano Banana (jeho vylepšená verze Nano Banana Pro, musíš si pohlídat, že máš vybranou verzi „Pro“). Ano, v Google mají radši ovoce než čísla verzí. V Aréně se drží těsně vedle ChatGPT.

Funguje to podobně jako v ChatGPT – popíšeš, co chceš, a Gemini to vygeneruje. Navíc umí editovat existující obrázky: prstem nebo kurzorem zakroužkuješ oblast, popíšeš změnu, a Gemini upraví jen to místo. Udržuje konzistentní postavy, zvládá míchání více obrázků do jednoho a generuje v rozlišení až 4096 pixelů. Zkrátka takový Google Fotky na steroidech.

Základní generování je v Gemini zdarma pro všechny, což je jeho hlavní trumf. Na rozdíl od ChatGPT nemusíš platit, abys mohl generovat obrázky průběžně. A jak uvidíš níže, Nano Banana se dostal i do Photoshopu.

Midjourney

Midjourney zůstává králem, co se týče vizuální kvality, když chceš obrázek, který vypadá jako z časopisu.

Na počátku dal uživatelům otevřený přístup. Výhodou se ukázal i poněkud netradiční způsob ovládání – přes Discord. Proč? Protože se lidi mohli navzájem inspirovat a viděli, co generují ostatní.

Když jsem poprvé v létě 2022 představoval kamarádům generování obrázků, říkal jsem: „Vymysli cokoliv a stroj to nakreslí!“ Odpovědi byly většinou: „já nevím, třeba jablko“ a když stroj vygeneroval jablko, nadšení bylo pochopitelně nulové: „Hmm, jablko.“ Ale lidé na Discordu, protože se vzájemně inspirovali, brzy vymýšleli mnohem kreativnější prompty, jako třeba „beautiful pale cyberpunk female with heavy black eyeliner, blue eyes, shaved side haircut, hyper detail, cinematic lighting, magic neon, dark red city“. A výsledky byly parádní.

Jak začít? Dnes už nepotřebuješ Discord. Zaregistruj se přímo na webu midjourney.com, vyber si tarif (základní je za $10 měsíčně) a jedeš. Na rozdíl od ChatGPT tu ale nemáš konverzaci – musíš vědět, co chceš, a napsat to do promptu. Žádná free verze neexistuje.

Šikovná funkce je --cref, díky které dokážeš generovat konzistentní postavy napříč více obrázky. Hodí se, když děláš třeba komiks nebo prezentaci a potřebuješ, aby hlavní hrdina vypadal pořád stejně. Víc o tom v článku Jak vykouzlit konzistentní postavy.

Grok

Grok od xAI (firma Elona Muska) se v Aréně drží na předních příčkách mezi generátory obrázků. Technicky je to slušný nástroj.

Jenže Grok se proslavil hlavně něčím jiným. Na přelomu roku 2025/2026 vypukl obří skandál, když uživatelé na síti X zjistili, že Grok ochotně „svléká“ lidi na fotkách – stačilo nahrát fotku a požádat o verzi v bikinách. Generoval přitom sexualizované obrázky reálných lidí včetně nezletilých, a to v řádu tisíců za hodinu. Musk to zpočátku komentoval vtípky, což situaci ještě zhoršilo.

Výsledek? Indonésie a Malajsie Groka rovnou zablokovaly, Indie dala xAI 72 hodin na nápravu pod hrozbou ztráty právní ochrany a v únoru 2026 francouzská policie za asistence Europolu prohledala pařížské kanceláře X. Odstrašující ukázka toho, co se stane, když se obrázkový generátor nasadí bez bezpečnostních brzd. Víc o rizicích AI.

Dall-E

Dall-E od OpenAI byl v roce 2021 první generátor obrázků, který se dostal do povědomí širší veřejnosti. Jenže přístup byl dlouho možný jen přes pozvánky, takže mu utekl vlak a lidé dali přednost Midjourney. OpenAI postupně vydalo druhou a třetí verzi, ale dnes je Dall-E v podstatě překonaný – generátor obrázků přímo v ChatGPT je o třídu lepší a pohodlnější. Klasický případ, kdy tě předběhne vlastní mladší sourozenec.

Leonardo.AI

Oblíbená alternativa pro ty, kteří chtějí víc kontroly než v ChatGPT, ale nechtějí platit Midjourney ani si zařizovat lokální výpočetní infrastrukturu. Leonardo.AI nabízí štědrý bezplatný tier s denními kredity a celou řadu modelů — od Fluxu přes vlastní Phoenix až po modely specializované na herní assety a concept art.

Ovládání je propracovanější než v chatbotech: vybíráš model, rozměry, styl, guidance scale. Zvládá generování i editaci, má Image Guidance (ControlNet-like funkce) a Canvas pro kombinování obrázků. Hodí se pro kreativce a designéry, kteří chtějí větší kontrolu, ale neradi řeší terminály a CUDA drivery.

Open source: od Stable Diffusion k Fluxu

Vedle komerčních chatbotů existuje bohatý open-source svět, kde si můžeš stáhnout model a rozjet ho na vlastním počítači. Odstartoval to Stable Diffusion od Stability AI v roce 2022. To byla pecka. Vznikla obrovská komunita, která vytvářela deriváty, nadstavby a specializované modely na všechno možné – od anime přes fotorealistické portréty po architektonické vizualizace.

Jenže příběh samotné firmy Stability AI dopadl hůř než scénář české telenovely. Finanční problémy, odchody klíčových lidí, CEO podal demisi. Nové modely SD 3 a 3.5 komunitu moc nenadchly. Open-source svět se tím ale nenechal rozhodit – lidi z původního týmu založili v Německu Black Forest Labs (jméno mají po Schwarzwaldu) a udělali Flux.

Flux je dnes jednička open-source generování. V Aréně se drží za komerčními giganty ChatGPT a Gemini, ale jako suverénně nejlepší open-source model. Skvěle zvládá text v obrázcích (což byla dlouho Achillova pata generátorů) a rozumí složitým kompozicím.

Flux existuje v několika variantách. Flux.2 Pro a Dev nabízejí nejvyšší kvalitu, Flux.2 Klein (leden 2026) je open-source, běží na běžném počítači a je bleskurychlý. Za zmínku stojí taky Flux.1 Kontext, který umí editovat existující obrázky – popíšeš, co chceš změnit, a on upraví jen to, aniž bys generoval od nuly.

Kde ho vyzkoušet? Online třeba na Replicate nebo fal.ai. Pro lokální spuštění byl dřív králem Automatic1111 (neboli A1111, stable-diffusion-webui) — klasické webové rozhraní, které komunita kolem Stable Diffusion doslova milovala. Pořád funguje a má obrovskou knihovnu rozšíření, ale dnes ho z velké části nahradilo ComfyUI — vizuální editor, kde si pomocí uzlů (nodes) poskládáš vlastní pipeline pro generování. Vypadá to jako schéma elektrického obvodu a na první pohled to působí komplikovaně, ale dává ti totální kontrolu. Podporuje Flux, Stable Diffusion i další modely. Pro borce, kteří chtějí mít vše pod palcem, je to nástroj číslo jedna.

Adobe Photoshop

Program, který se stal synonymem pro retušování – fotošopování. Používám ho už od verze 4. Podle mého názoru byly největšími inovacemi zavedení vícenásobného undo v roce 1998 a generativní výplně s pomocí AI v roce 2023.

Chceš přidat něco nového do fotky? Vezmi nástroj laso, označ oblast, řekni, co tam chceš mít, a zmáčkni tlačítko Generate. Photoshop zanalyzuje každý pixel fotky, zhodnotí osvětlení, perspektivu, barvy i stíny a během okamžiku vykouzlí objekt, který tam sedne jako prdel na hrnec. A když se nelíbí, klikáš dál a generuješ další varianty.

Výchozí generativní engine je Adobe Firefly, který se od prvního uvedení znatelně zlepšil. Ale pozor: od podzimu 2025 si v Generative Fill můžeš přepnout na Nano Banana (Google) nebo Flux Kontext Pro (Black Forest Labs). Stačí kliknout na dropdown vedle textového pole. Firefly je nejlepší volba pro komerčně bezpečné výsledky, Nano Banana pro stylizované prvky a Flux pro přesné zasazení do kontextu fotky. Najednou máš v jednom programu tři různé generátory.

Odstraňování objektů? Taky hračka. Označ oblast a nech pole pro text prázdné. Photoshop překreslí objekty jejich pozadím. Takhle jsem za pár minut zbavil Elektrické podniky, chráněnou to kulturní památkou, hromady vizuálního smogu (koukni na video):

Zábava je zvětšovat šířku nebo výšku obrázků a sledovat, jak Photoshop doplní zbytek. Můžeš se podívat na demo, co jsem předváděl na Festivalu Banát.

A teď to hlavní: jak se k Photoshopu dostat? Jelikož generativní kouzla se provádějí na serverech Adobe (tedy v cloudu), nepomůže si program čórnout a kreknout. Musíš ho mít legálně, přes to nejde vlak. Přitom to vůbec nemusí stát majlant. Mrkni na aktuální nabídku Adobe – tarify se mění, ale Photoshop s Lightroomem pořídíš od $15 měsíčně. Tedy pořád míň než boxík u KFC. A když tě to po měsíci přestane bavit, můžeš to zrušit.

ControlNet

ControlNet je šikovné rozšíření, které původně vzniklo pro Stable Diffusion, ale princip se dnes uplatňuje i u dalších modelů včetně Fluxu. Dává ti možnost vedle textového promptu ovládat generátor druhým pomocným obrázkem. Na něm může být třeba náčrtek požadovaného rozmístění objektů. Nebo lze zaznamenat několika tahy pozici člověka, které pak všechny vygenerované postavy budou odpovídat. Můžeš transformovat svoje dětské kresby do realistických obrázků Nebo vytvářet tyhle fantastické QR kódy (opravdu fungují, zkus na ně namířit mobil, což chápu, že může být trošku oříšek, pokud tohle na mobilu čteš).

Podívej se na tento úžasný obrázek:

Vrtá ti hlavou, jak vznikl? Sím, sím, to náhodou vím!!! No jasně, vyrobil ho ControlNet. Nejprve z obrázku opery v Sydney vygeneruje takzvanou hloubkovou mapu. A tu pak použije při generování obrázku nového. Jako prompt stačí zadat něco jako „nádobí na odkapávači, dřevěný kuchyňský stůl“ a ControlNet se postará o to, aby nově vzniklý obrázek zachoval hloubkovou mapu původního, a v tom je celé kouzlo. Další příklady:

Boží co? A jak asi vznikly tyhle pareidolie? A co vůbec znamená slovo pareidolie?

Slovo si vygoogli. Co se týče obrázku, tak prompt zněl zcela triviálně: středověký hrad v případě prvního a malé jezero u druhého. Magii opět obstaral ControlNet. Jen tentokrát nehlídal hloubkovou mapu předlohy, ale její tmavá a světlá místa, úplně stejně, jako při generování QR kódů. Můžeš si to vyzkoušet třeba na Illusion Diffusion.

Rozpoznávání obrázků

Zatím jsme mluvili o tom, jak AI obrázky tvoří. Ale ona jim taky rozumí. Vyfoť kytku na zahrádce a pošli ji do ChatGPT – řekne ti, že je to levandule, a přidá tipy na péči. Vyfoť účtenku z restaurace – přečte ji a spočítá spropitné. Vyfoť rovnici ze sešitu – vyřeší ji a vysvětlí postup. Vyfoť ceduli v Japonsku – přeloží ji. Tohle umí dneska každý větší chatbot: ChatGPT, Claude, Gemini.

A nejde jen o fotky. ChatGPT v mobilní aplikaci umí koukat přes kameru v reálném čase. Namíříš telefon na poličku s kořením a ptáš se: „Které z těch koření se hodí do guláše?“ A ono ti odpovídá, zatímco se díváš. Podobnou funkci má Gemini Live. Připadáš si přitom jako v sci-fi filmu, ale je to realita roku 2026.

V Aréně pro rozpoznávání obrázků patří mezi nejlepší modely od Google a OpenAI. Tohle je oblast, kde Google tradičně exceluje – a je to jedna z mála oblastí, kde se to dá říct bez pocitu, že přeháním.

Pro vývojáře existuje Vision API, které umožňuje rozpoznávání obrázků zabudovat do vlastních aplikací. Firmy ho používají třeba pro automatické čtení faktur, kontrolu kvality na výrobní lince nebo analýzu satelitních snímků. Ale i bez programování si vystačíš – stačí chatbotovi poslat fotku a zeptat se.

Jak funguje generování obrázků?

Většina dnešních generátorů funguje na principu zvaném difuze. Představ si to tak, že vezmeš fotografii a postupně do ní přidáváš šum, jako když se obraz na staré televizi rozpadá do sněžení. Neuronová síť se učí tento proces obrátit – z čistého šumu postupně „vyčistit“ obrázek. A protože tréninkem viděla miliony obrázků s popisky, dokáže z náhodného šumu vykouzlit cokoliv, co jí popíšeš textem.

Je to trochu jako sochař, který říká, že v bloku mramoru už socha je, stačí jen odsekat přebytečný kámen. Tady akorát ten blok mramoru je náhodný šum a dláto je neuronová síť. Pokud tě zajímají detaily, mrkni na článek Jak AI dělá ze šumu Scarlett Johansson.

Poslední aktualizace: únor 2026

← Inspirativní způsoby, jak využít ChatGPT

↑ Úvod

→ Generování videa