Generování AI videa

Ještě v roce 2024 se o generování videa mluvilo jako o „příští velké věci“. Dneska je to tady. Napíšeš pár vět, zmáčkneš tlačítko a za minutu máš videoklip, u kterého tvůj mozek odmítá uvěřit, že ho nevytvořil člověk s kamerou. Není to dokonalé – občas se odnikud vynoří postava nebo se fyzika chová jako po třech pivech – ale tempo vývoje je děsivé.

Sora (OpenAI)

Sora od OpenAI je pravděpodobně nejznámější generátor videa na světě. A to paradoxně dřív, než si ji kdokoliv mohl vyzkoušet. V únoru 2024 OpenAI zveřejnilo ukázkové videa, ze kterých se AI komunita zbláznila. Pak se skoro rok nic nedělo a lidi začali vtipkovat, že Sora je jako ten kamarád, co slíbí, že přijde na párty, a pak nepřijde.

V prosinci 2024 Sora konečně vyšla – a byla zastaralá :-( Naštěstí OpenAI si napravilo reputaci, když spustilo v září 2025 Sora 2, která je o třídu lepší. Jen v EU je stále nedostupná. Drhne to na GDPR a EU AI Act. Takže zatímco Američané generují videa, my v Čechách si můžeme maximálně přečíst, jak je to super. Sora? Sorry.

Dá se to obejít: na webu stačí VPN nastavená na USA. Ale klíčové je mít aplikaci Sora na iPhonu, a tam VPN nepomůže – je potřeba si založit americký Apple ID. Trochu opruz, ale kdo chce Soru, ten si tím projít musí.

Sora 2 představuje výrazný skok. Generuje video a zvuk zároveň – tedy neslyšíš jen ticho nebo přilepený podkres, ale skutečné zvuky odpovídající tomu, co se na videu děje. Zvládne rozlišení 1080p a délku až 20 sekund, což zní jako málo, ale pro AI video je to slušná porce. Navíc to není jen generátor videí, je to kompletní socíální síť.

Co to stojí? V rámci ChatGPT Plus ($20 měsíčně) dostaneš omezený přístup – video ve 720p s vodoznakem a s omezeným počtem generování. Plný přístup v 1080p bez vodoznaku vyžaduje ChatGPT Pro za $200 měsíčně. To je jako platit Netflix pro celou vesnici.

Kling

A teď překvapení z Číny. Kling od firmy Kuaishou se v Aréně pro generování videa z textu drží na špici. Nejnovější Kling 3.0 (únor 2026) se pere o přední příčky se Sorou, Googlem i Runwayem.

Čím to? Kling generuje klipy v délce 10–15 sekund, které jde řetězit do delších sekvencí – a výsledky vypadají zatraceně dobře. Od verze 2.6 generuje i zvuk. Silný je v anime stylu, ilustracích a speciálních vizuálních efektech. A ceny? Placené tarify startují pod $10 měsíčně, přičemž existuje i bezplatná verze s 66 kredity denně. Dostupný je celosvětově na klingai.com.

Kling je ukázkou toho, že v AI už zdaleka nehrají jen Američané. DeepSeek otřásl trhem v jazykových modelech a Kling dělá totéž ve videu. Silicon Valley, pozor na záda.

Google Veo

Google vsadil na integraci. Generátor videa Veo (aktuálně ve verzi 3.1) je zabudovaný přímo v Gemini Advanced, tedy v placeném tarifu za $20 měsíčně. Kupuješ chatbota, generátor obrázků a k tomu dostaneš video. Tříchodové menu za cenu jednoho.

Veo generuje klipy v délce 8 sekund, ale jde je prodlužovat až na cca 2,5 minuty. Hlavní trumf je nativní generování zvuku včetně dialogů – postavy v generovaném videu opravdu mluví a zvuk odpovídá pohybu rtů. V Aréně pro image-to-video se drží na prvních pozicích.

Kde má Veo slabinu? Krátká základní délka (8 sekund) a poněkud roztříštěný přístup – najdeš ho v Gemini, v Google AI Studiu i v samostatné aplikaci Flow, ale nikde to nepůsobí úplně jako hotový produkt. Google styl.

Runway

Runway je mezi filmaři a tvůrci videoobsahu něco jako Photoshop mezi grafiky. Nejde jen o generování z textu – Runway dává kontrolu nad každým detailem. Motion Brush pro řízení pohybu, Director Mode pro nastavení kamery, referenční obrázky pro konzistentní postavy.

Aktuální verze Gen-4.5 (prosinec 2025) se v Aréně drží na předních příčkách. Generuje klipy v délce 5–10 sekund v rozlišení 1080p. To zní krátce, ale pro filmovou produkci je důležitější kvalita a kontrola než délka.

Cena? Od $12 měsíčně za základní tarif, kolem $76 za neomezený. Runway cílí na profíky, ne na hráče. Pokud děláš reklamu, hudební klip nebo krátký film a potřebuješ přesně ovládat, co kamera dělá, Runway je tvůj nástroj.

Pika a další

Generátorů videí jsou dnes desítky. Tady jsou tři, které stojí za zmínku:

Pika je nejrychlejší z celé party – video máš za minutu. Sází na krátká videa pro sociální sítě a má bezplatnou verzi. Ideální pro TikTok a Reels, kde stejně nikdo nesleduje nic delšího než 10 sekund.

Hailuo od čínského MiniMaxu překvapuje kvalitou za cenu kolem $10 měsíčně. Umí „jednoklikové“ generování videa, kde si systém sám vybere nejlepší model pro tvůj prompt. Další čínská firma, která tiše drtí konkurenci.

A pak je tu Seedance 2.0 od ByteDance (ano, to je firma za TikTokem). Ten na začátku roku 2026 způsobil poprask, protože uživatelé s ním generovali videa k nerozeznání od hollywoodských filmů. Disney pohrozil žalobami a ByteDance musel přitáhnout bezpečnostní šrouby.

AI dabování a lip-sync

Tohle je blízká budoucnost YouTube. Nahraješ video, kde mluvíš česky, a systém ti ho přeloží do 175 jazyků – a přitom ti upraví pohyby rtů, aby odpovídaly novému jazyku. Výsledek vypadá, jako bys opravdu mluvil anglicky, japonsky nebo svahilsky.

Nejznámější nástroj je HeyGen (od cca $29 měsíčně). Klonuje tvůj hlas, překládá a synchronizuje rty. Alternativa je Rask AI, ale lip-sync je tam za příplatek a finální cena rychle roste. Ceny se u obou služeb často mění, takže si ověř aktuální nabídku.

Kde to má reálné využití? Představ si českou firmu, která chce promo video pro zahraniční trh. Místo natáčení pěti verzí s pěti herci: jedno natáčení, zbytek zařídí AI. Úspora času i peněz je obrovská. Hlasy občas zní trochu roboticky, ale vizuálně to sedí.

Jak AI generuje video?

Princip je podobný jako u generování obrázků – jde o difuzi. Model se učí odstraňovat šum, ale tentokrát ne z jednoho obrázku, nýbrž z celé sekvence snímků najednou. Musí přitom zajistit, aby se postava na snímku číslo 1 podobala téže postavě na snímku číslo 48.

Představ si to jako flipbook – knížku, kde na každé stránce je trochu jiný obrázek a když je rychle prolistuješ, vznikne animace. AI generátor kreslí všechny stránky najednou a hlídá, aby na sebe navazovaly. Celé se to děje v komprimovaném prostoru (aby to nejedlo paměť jako dinosaurus), a text tvého promptu slouží jako návod pro to, co se na videu má dít. Víc o principu difuze najdeš v článku Jak AI dělá ze šumu Scarlett Johansson.

Na co si dát pozor

Generování videa s sebou nese stejná rizika jako u obrázků, ale v mnohem větším měřítku. Video je přesvědčivější než fotka – a deepfake video může napáchat obrovské škody.

Čísla mluví jasně: počet deepfake videí se zneužívajícím obsahem roste meziročně řádově o stovky procent. Finanční podvody s využitím deepfake videí způsobují škody v řádu stovek milionů dolarů čtvrtletně. A to jsme teprve na začátku.

Na druhou stranu: AI video šetří čas i peníze. Reklamní spot, který dřív stál statisíce a trval týdny, dnes vyrobíš za dva dny a pár tisícovek. Firma Kalshi natočila reklamu pro NBA Finals s rozpočtem $2 000. To úplně mění pravidla hry – otázka je, jestli k lepšímu nebo k horšímu.

Poslední aktualizace: únor 2026

← Generování obrázků

↑ Úvod

→ Rozpoznávání a syntéza řeči