Otázky a zajímavosti kolem generování obrázků a videí

V roce 2022 jsme byli svědky průlomu v oblasti generátorů obrázků, které vytvářejí jedinečné vizuály na základě textového popisu. Od podivných, nesourodých počátků se v průběhu necelého roku vyvinuly do takové míry, že vytvářejí obrázky nerozeznatelné od skutečných fotografií. Jeden německý fotograf dokonce zvítězil v prestižní soutěži s dílem vytvořeným umělou inteligencí. Nikdo nepoznal, že za tím stojí stroj.

Proč tak špatně generují text?

Myslím, že ho zvládají stejně dobře jako cokoliv jiného. To jen my jsme na text nesmírní puntičkáři. Úpěnlivě trváme na jediném správném pořadí písmen a jejich prohození netolerujeme. Ani z estetických důvodů. Trváme na jednotném stylu, velikosti a přesných proporcích. Hodnotíme přísným okem tloušťku každičkého tahu. Vyhovět nám je opravdu nesmírně těžké.

Ale když budou na obrázku čínské znaky, tohle naše puntičkářství zmizí. A pak už není problém souhlasit, že text zvládá stejně dobře jako cokoliv jiného, ne?

Hands or it didn't happen!

Generované obrázky jsou dnes neuvěřitelně přesvědčivé. Ale stále je dokáží prozradit dlaně (hands). Mají s nimi jakýsi handicap ;-) Důvod bude podobný jako v případě textů: záleží na pořadí prstů, všechny musí vyrůstat z dlaně a mít správný poměr velikostí. Pro nás samozřejmost, pro generátory překvapivě oříšek. Takže díky prstům můžeme řadu vygenerovaných obrázků odhalit. A pokud na něm nejsou vidět, dá se namítnout: Ukaž ruce nebo se to nestalo!

Jak vyrobit fejkové video?

Jak vyrobit fejkové video, ve kterém bude třeba Biden ohlašovat konec světa nebo Honza Tuna dělat reportáž o pejskovi s kočičkou, co pekli dort?

Je to opravdu jednoduché. Můžeš k tomu použít napříkladu službu Rask AI, která slouží k předabování videí. Stačí do ní nahrát video, vybrat si jeden z 60 jazyků, do kterého se má přeložit, chvíli to chroustá a pak se stane zázrak: vidíš původní video, kde všechny postavy hovoří svým hlasem, svou jedinečnou dikcí, ale v jiném jazyce. Dokonce zachová původní hudbu nebo zvukové efekty v pozadí.

Tuhle službu použijeme trošku jiným způsobem: místo překladu do cizího jazyka zvolíme jako cílový jazyk ten původní. Využijeme tak čistě schopnost klonovat hlasy a nahrazovat ve videu původní mluvené slovo za jiné. Přeložené dialogy poté v editoru nahradíme za vlastní text a je hotovo.

Služba Rask AI umožňuje předabovat až 3 minuty videa zdarma. Bohužel v bezplatném tarifu není funkce lip-sync, tedy synchronizace rtů s tím, co osoba říká. Nemusí to vadit, pokud nové dialogy napíšeš tak, aby se „trefily do pusy“ (tedy tak, jak opravdu dabing funguje). Nebo pusa není úplně jasně vidět v záběru, a tak dále. V ostatních situacích je synchronizace obrazu se zvukem docela žádoucí.

Jestli kvůli tomu nechceš platit tarif, lze k lip-syncu využít jinou službu (ovládání je složitější). Do ní nahraješ původní video, vygenerovanou zvukovou stopu z Rask AI, zase to necháš chvíli počítat a výsledkem je video, kde se pusa hýbe podle zvukové stopy. Problém je, že rozhýbá všechny pusy v záběru, což samozřejmě není žádoucí, ale je to docela vtipné 🙂