Blog Uměligence

Mýty, fakta a skrytá tajemství strojového učení (1/2)

Stále panuje tolik nejistot ohledně nebezpečí a rizik, které nám hrozí ze strany umělé inteligence. A vůbec nejasností kolem jejich fungování.

Když se téma otevře na internetu, pochopitelně každý má názor: pro jednoho je ChatGPT „prostý tipovací stroj“, jiný tvrdí, že „rozumí realitě světa“, že „funguje jako lidský mozek“ a navíc „vědci přiznávají, že se v něm už nevyznají“. Což diskusi nijak neposouvá.

Na školeních ChatGPT věnuju dobrých 30 minut na to, abych poměrně do hloubky vysvětlil, jak v jádru funguje. Aby lidé odcházeli se střízlivou představu nezatíženou mýty o tom, co je to neuronová sít a strojové učení.

Právě strojové učení bývá obestřeno největším tajemnem. Lidé si to často představují jako tajemnou skříňku, kam naházíte kupu fotek a ona – mávnutím kouzelného proutku – začne rozpoznávat, co na nich je.

Strojové učení je spíš jako výchova štěněte. Řízená člověkem, teda programem, který člověk vymyslel a rozumí mu. Tomu, koho učí, se říká neuronová síť. Technicky vzato je to záplava čísel, ale na chvíli si ji představme jako partu muzikantů tvořících orchestr.

V začátcích jsou všichni absolutní amatéři. Dáte jim za úkol zahrát první tóny Mozarta a výsledek? Víc než tragedie.

Ale pak na scénu vstupuje dirigent s andělskou trpělivostí. A začne s korekcemi. Prvnímu vysvětlí: „Kamaráde, kytara není dechový nástroj.“ Dalšímu, už trochu pokročilejšímu, jemně naznačí: „Hele, jsi celých pět tónů vedle.“ A tak dále. Každý si radu částečně vezme k srdci. Při dalším pokusu je to stále katastrofa, ale už míň apokalyptická. A s každým dalším pokusem se zlepšují, až se z toho absolutního chaosu začne pomalu vyklubávat něco, co by se dalo nazvat hudbou.

pokračování ➡️

Jak vyrobit fejkové video?

Jak vyrobit fejkové video, ve kterém bude třeba Biden ohlašovat konec světa nebo Honza Tuna dělat reportáž o pejskovi s kočičkou, co pekli dort?

Je to opravdu jednoduché. Můžeš k tomu použít napříkladu službu Rask AI, která slouží k předabování videí. Stačí do ní nahrát video, vybrat si jeden z 60 jazyků, do kterého se má přeložit, chvíli to chroustá a pak se stane zázrak: vidíš původní video, kde všechny postavy hovoří svým hlasem, svou jedinečnou dikcí, ale v jiném jazyce. Dokonce zachová původní hudbu nebo zvukové efekty v pozadí.

Tuhle službu použijeme trošku jiným způsobem: místo překladu do cizího jazyka zvolíme jako cílový jazyk ten původní. Využijeme tak čistě schopnost klonovat hlasy a nahrazovat ve videu původní mluvené slovo za jiné. Přeložené dialogy poté v editoru nahradíme za vlastní text a je hotovo.

Služba Rask AI umožňuje předabovat až 3 minuty videa zdarma. Bohužel v bezplatném tarifu není funkce lip-sync, tedy synchronizace rtů s tím, co osoba říká. Nemusí to vadit, pokud nové dialogy napíšeš tak, aby se „trefily do pusy“ (tedy tak, jak opravdu dabing funguje). Nebo pusa není úplně jasně vidět v záběru, a tak dále. V ostatních situacích je synchronizace obrazu se zvukem docela žádoucí.

Jestli kvůli tomu nechceš platit tarif, lze k lip-syncu využít jinou službu (ovládání je složitější). Do ní nahraješ původní video, vygenerovanou zvukovou stopu z Rask AI, zase to necháš chvíli počítat a výsledkem je video, kde se pusa hýbe podle zvukové stopy. Problém je, že rozhýbá všechny pusy v záběru, což samozřejmě není žádoucí, ale je to docela vtipné 🙂

Proč obrázkové generátory nezvládají text?

Myslím, že ho zvládají stejně dobře jako cokoliv jiného. To jen my jsme na text nesmírní puntičkáři. Úpěnlivě trváme na jediném správném pořadí písmen a jejich prohození netolerujeme. Ani z estetických důvodů. Trváme na jednotném stylu, velikosti a přesných proporcích. Hodnotíme přísným okem tloušťku každičkého tahu. Vyhovět nám je opravdu nesmírně těžké.

Ale když budou na obrázku čínské znaky, tohle naše puntičkářství zmizí. A pak už není problém souhlasit, že text zvládá stejně dobře jako cokoliv jiného, ne?

Podobný případ jsou lidské dlaně. Mají s nimi jakýsi handicap ;-) Důvod bude podobný: záleží na pořadí prstů, všechny musí vyrůstat z dlaně a mít správný poměr velikostí. Pro nás samozřejmost, pro generátory překvapivě oříšek. Takže díky prstům můžeme řadu vygenerovaných obrázků odhalit. A pokud na něm nejsou vidět, dá se namítnout: Ukaž ruce nebo se to nestalo!

Hands or it didn't happen!