Blog Uměligence

ChatGPT bude mít paměť jako slon

Všiml sis toho písmenka „P“ ve zkratce „GPT“? Je těžké si ho nevšimnout. Tak ono „P“ znamená „předtrénovaný“. Jinými slovy, tyhle modely se sice učí z neskutečně obrovského množství textů, ale jakmile jednou dokončí svůj trénink, dál se nenaučí nic. Ani z rozhovorů s námi, uživateli.

Proč to tak je? Učení je šíleně drahý a náročný proces, takže učit se průběžně by stálo majlant. Místo toho se vývojáři snaží vymyslet fígle, jak to obejít. A jedním z nich je zbrusu nová funkce Memory, tedy paměť.

Paměť funguje jako takový malý zápisníček. Kdykoliv během konverzace ChatGPT narazí na něco zapamatováníhodného, tak si to do něj poznamená. A před každou další konverzací si tyhle poznámky připomene. Takže nemusíš pořád dokola opakovat, že jsi z Brna, máš dvě kočky a rád jíš pizzu. ChatGPT si to bude pamatovat.

Na ty jeho poznámky se můžeme mrknout i my, uživatelé. V nastavení je sekce, kde je všechny vidíme, a když se nám něco nezdá, tak to můžeme smazat. Tedy máme kontrolu nad složkou, co si o nás ten digitální parťák vede.

Nebo můžeme funkci úplně deaktivovat. Nebo otevřít tzv. „dočasný chat“, při kterém vůbec nebude vytahovat zápisník s poznámkami.

Tahle funkce zatím funguje jen pro šťastlivce mimo Evropskou unii. My tady v EU máme tak přísné zákony na ochranu osobních údajů, že si na Memory budeme muset ještě chvíli počkat. Já vím, funkce je to zcela transparentní a pamatuje si jen to, co jsi sám řekl, takže s osobními údaji nemůže … já vím, nedává to smysl. Zvykej si, že v EU holt bude všechno se zpožděním. Ledaže bys měl po ruce nějakou šikovnou VPN…

Claude: Tajný trumf konečně dostupný pro všechny

Na svých školeních už dlouho mluvím o tajném trumfu mezi chatboty – Claude od Anthropic. Co to je Anthropic? Je to firma, kterou založili někdejší průkopníci OpenAI, tvůrci ChatGPT. A jejich vlajkovou lodí je právě chatbot Claude.

Až dosud bylo jeho používání pro nás v EU docela oříšek, protože jsme k němu neměli oficiální přístup a museli vymýšlet složité triky s VPN a shánět falešná telefonní čísla.

Ale teď se karta obrací. Minulý týden Anthropic konečně otevřel dveře i pro české uživatele.

Takže pokud jsi ještě neměl tu čest, honem to naprav. Claude je přeborník v psaní textů. Eseje, povídky, scénáře … jeho výstupy působí originálně, dost možná proto, že na ChatGPT jsme si za ten rok a půl zvykli. A jasně, umí i česky.

Navíc má Claude obrovskou výhodu v podobě širokého kontextového okna. Pojme mnohem delší dokumenty. Jestliže chatboti GPT‑4 a 4o zvládnou 32 tisíc tokenů, Claude jich dá 6× tolik. To se skvěle hodí třeba pro analýzu dat nebo rešerše. A chápe i obrázky. Pošli mu fotku a on ti řekne, co na ní vidí.

Můžeš si vybrat z několika verzí Clauda, některé jsou zdarma, za jiné zaplatíš stejný bakšiš jako za ChatGPT.

Upřímně, Claude se u mě pomalu stává chatbotem první volby. Ale je spousta věcí, hlavně v rozhraní, co mi v něm citelně chybí. Takže stále pendluju mezi více nástroji. Nicméně Claude je nezastupitelný. Vyzkoušej ho, ideálně placenou verzi, a myslím, že si ho oblíbíš.

ChatGPT: dostaneš víc inteligence zdarma

Nemáš placené ChatGPT Plus? Nevadí! OpenAI se rozhodlo vylepšit i bezplatnou verzi ChatGPT a přidat do ní funkce, které bys čekal spíš u prémiových modelů.

Takže co se chystá? Zaprvé, free uživatelé dostanou přístup k inteligenci na úrovni GPT‑4, konkrétně k GPT‑4o. To je hodně velký skok oproti současnému stavu. Nový model je totiž mnohem chytřejší a všestrannější než starší modely. Takže se připrav na kvalitnější konverzace a přesnější odpovědi.

Za druhé, ChatGPT bude schopný čerpat informace z webu. Takže bude mít i aktuální informace. Nehledě na to, že GPT‑4o se učil na datech získaných do prosince 2023, zatímco předchozí GPT‑3.5 jen do února 2022 (a nemá dosud páru o tom, že Rusko napadlo Ukrajinu).

A co víc, bude konečně rozumět i obrázkům! Můžeš mu poslat fotku a nechat ho, ať ti ji popíše, analyzuje nebo třeba přeloží text, který na ní vidí.

A to pořád není všechno! Free verze zvládne analyzovat data a vytvářet z nich grafy a tabulky. Stačí mu poslat soubor s čísly a on ti z nich udělá přehlednou vizualizaci. No a konečně, i free uživatelé budou moci používat (ale ne vytvářet) tzv. GPTs – specializované jazykové modely na konkrétní témata či úkoly. A taky paměť.

Hotová Vánoční nadílka takhle zkraje jara. Ok, pojďme si spíš říct, co budou mít navíc platící diváci:

  • mohou vytvářet specializované GPTs
  • mohou generovat obrázky pomocí DALL-E
  • mají vyšší limit na počet zaslaných zpráv GPT‑4o

Toho moc není. Tak si říkám, jestlipak si to v OpenAI spočítali dobře a udrží platící uživatele, jestli jim spíš nezačal pricingový model halucinovat. Každopádně pokud jsi váhal, jestli si připlatit za ChatGPT Plus, možná teď už nebudeš muset.

GPT‑4o je venku, připrav se na óóó efekt

OpenAI opět rozvířilo vody světa umělé inteligence představením nového modelu GPT‑4o. To „o“ na konci znamená „omni“, tedy všestranný. Ale mohlo by taky znamenat „óóó“, které vydáš, až uvidíš, co všechno tenhle model dokáže.

GPT‑4o rozumí videím v reálném čase. Jako fakt. V jedné z ukázek dokonce pomáhá nevidomému vnímat svět kolem sebe, třeba mu hlásí přijetí taxíku. Opravdová revoluce.

Neuvěřitelně se také vylepšil hlasový projev. Nezní jako stroj, ale jako člověk, který se směje, zpívá, nebo na přání imituje robota. Při sledování videí, kde si ajťáci z OpenAI povídají se sexy ženským hlasem, který s nimi koketuje a který si sami vytvořili, se nelze ubránit jistému pocitu bizarnosti. Skoro mě napadá, jestli to nehraničí s kognitivní (sebe)manipulací, kterou nový akt EU o AI výslovně zakazuje :-) Každopádně film Her už klepe na dveře.

A teď pikanterie. Scarlett Johanssonová se pořádně naštvala na šéfa OpenAI Sama Altmana, protože v novém hlasu poznala ten svůj. Přitom loni jeho nabídku na namluvení ChatGPT odmítla. Altman jako by na to narážel tweetem „her“ v den uvedení – jasná reference na film, kde Scarlett hrála UI Samanthu. Docela blbé v případě společnosti proklamující zodpovědný vývoj AI. Herečka každopádně najala právníky, takže se můžeme těšit na pořádnou tahanici.

Ale kontroverze stranou, GPT‑4o je další milník ve vývoji umělé inteligence. Není to revoluce, ale evoluce, kde hlavní inovace spočívá v propojení různých modelů a úctyhodném zrychlení GPT‑4. Což je klíčové pro plynulou konverzaci. Kdo čekal GPT‑5 nebo nový vyhledávač, může být zklamán, ale klídek, všechno bude.

Dobrá zpráva je, že GPT‑4o je dostupné hned pro všechny uživatele ChatGPT, bez čekání či speciálních pozvánek. Nicméně na ty nejzajímavější funkce, jako ovládání videem či hlasová konverzace, si ještě musíme počkat.

Mýty, fakta a skrytá tajemství strojového učení (1/2)

Stále panuje tolik nejistot ohledně nebezpečí a rizik, které nám hrozí ze strany umělé inteligence. A vůbec nejasností kolem jejich fungování.

Když se téma otevře na internetu, pochopitelně každý má názor: pro jednoho je ChatGPT „prostý tipovací stroj“, jiný tvrdí, že „rozumí realitě světa“, že „funguje jako lidský mozek“ a navíc „vědci přiznávají, že se v něm už nevyznají“. Což diskusi nijak neposouvá.

Na školeních ChatGPT věnuju dobrých 30 minut na to, abych poměrně do hloubky vysvětlil, jak v jádru funguje. Aby lidé odcházeli se střízlivou představu nezatíženou mýty o tom, co je to neuronová sít a strojové učení.

Právě strojové učení bývá obestřeno největším tajemnem. Lidé si to často představují jako tajemnou skříňku, kam naházíte kupu fotek a ona – mávnutím kouzelného proutku – začne rozpoznávat, co na nich je.

Strojové učení je spíš jako výchova štěněte. Řízená člověkem, teda programem, který člověk vymyslel a rozumí mu. Tomu, koho učí, se říká neuronová síť. Technicky vzato je to záplava čísel, ale na chvíli si ji představme jako partu muzikantů tvořících orchestr.

V začátcích jsou všichni absolutní amatéři. Dáte jim za úkol zahrát první tóny Mozarta a výsledek? Víc než tragedie.

Ale pak na scénu vstupuje dirigent s andělskou trpělivostí. A začne s korekcemi. Prvnímu vysvětlí: „Kamaráde, kytara není dechový nástroj.“ Dalšímu, už trochu pokročilejšímu, jemně naznačí: „Hele, jsi celých pět tónů vedle.“ A tak dále. Každý si radu částečně vezme k srdci. Při dalším pokusu je to stále katastrofa, ale už míň apokalyptická. A s každým dalším pokusem se zlepšují, až se z toho absolutního chaosu začne pomalu vyklubávat něco, co by se dalo nazvat hudbou.

pokračování ➡️

Nový hit? Napíšete ho za 10 vteřin

Nestihl jsi v mládí založit kapelu a máš pocit, že teď už je pozdě? Toužil jsi stvořit písničku i s textem? V minulosti něco, co vyžadovalo hudební talent, praxi a často i peníze na profesionální nahrávání. Teď je to díky AI o mnoho snazší.

Představ si, že máš chuť na punkovou pecku třeba, co já vím, o Karlových Varech, o tom, jak ti ty léčivé prameny připomínají domov. Vezmeš službu Suno, zadáš tyto instrukce a za pár vteřin – bum! Máš svou vlastní skladbu i se zpěvem.

Poslechni si ji!

Jasně, pořád to má své mouchy. Když se pořádně zaposloucháš, tak hlas zní roboticky. V češtině fakt divně vyslovuje – ale rozhodně ne hůř než Calin & Viktor Sheen :-) Ale jinak? Kytara jako živá, melodie chytlavá… Kdybych to pustil mezi ostatními songy v rádiu, vsadím se, že by si nikdo z posluchačů ničeho divného nevšiml.

A to nejlepší? Většinou to ani nic nestojí. Suno třeba nabízí 10 písniček zdarma denně, pak si musíš připlatit. Ale i tak je to za pár kaček. Ostatně vyzkoušej si to sám. Zadej pár slov, zvol styl a užij si vlastní písničku.

My jsme si s tím pohráli ještě víc – nechali jsme Suno složit písničku a pak jsme k ní natočili videoklip postaru, bez AI. Protože AI generování videa, to bude šlágr až tak za půl roku.

Tohle je každopádně jen začátek. Dej tomu rok času a ty písničky budou k nerozeznání od těch od opravdových hudebníků. Není to děsivé?

Midjourney: Jak vykouzlit konzistentní postavy ve více obrázcích

Možná to znáš. Hraješ si s generátory obrázků jako Midjourney a vytvoříš si parádní postavu. Chceš ji použít třeba pro komiks. Jenže ouha, v dalším obrázku už to prostě není ona. Jinej účes, jinej výraz, prostě jiná. Co s tím?

Přesně tohle byla dosud velká bolest AI obrazových generátorů. Modely jako Midjourney totiž generují obrázek pokaždé znovu podle zadaného textu. Nedokážou si zapamatovat konkrétní postavu a znovu ji vykreslit v nové situaci.

Přitom tohle je klíčové, když chceš vyprávět příběh. Ať už chystáš storyboard pro film, ilustrace pro román nebo třeba jen komiks. Potřebuješ, aby postavy byly konzistentní. Aby je bylo možné poznat. Představ si Spidermana, který má v každém okénku komiksu jinou masku.

Naštěstí Midjourney teď přišla s řešením! A jmenuje se Character Reference neboli cref.

Jak to funguje? Je to vlastně docela jednoduché.

  1. Nejdřív si v Midjourney vygeneruješ obrázek nějaké postavy.
  2. Pak zkopíruješ URL tohoto obrázku a vložíš ho do nového promptu za --cref
  3. A ejhle, Midjourney se pokusí vygenerovat tu samou postavu v nové situaci podle tvého zadání.

Není to úplně dokonalé, ale rozhodně to funguje. Funkce není optimalizována pro fotografie skutečných lidí, jejichž podobu důvěrně známe. Tam dojde ke zkreslení. Midjourney se snaží prostě jen zachovat rysy obličeje, typ postavy a dokonce i oblečení z původního obrázku. Navíc můžeš pomocí parametru --cw ovlivnit, jak moc se má nový obrázek podobat originálu (na škále 0–100).

A to není vše! Pomocí více tagů --cref můžeš dokonce kombinovat více postav do jednoho obrázku. Nebo to zkombinovat se Style Referencí pomocí --sref. Možnosti jsou nepřeberné.

Tak co, už se těšíš, až si v Midjourney vytvoříš svůj vlastní svět s originálními postavami, které budou putovat z obrázku do obrázku? Já rozhodně ano! Tak šup šup, jdeme na to!

Jak vyrobit fejkové video?

Jak vyrobit fejkové video, ve kterém bude třeba Biden ohlašovat konec světa nebo Honza Tuna dělat reportáž o pejskovi s kočičkou, co pekli dort?

Je to opravdu jednoduché. Můžeš k tomu použít napříkladu službu Rask AI, která slouží k předabování videí. Stačí do ní nahrát video, vybrat si jeden z 60 jazyků, do kterého se má přeložit, chvíli to chroustá a pak se stane zázrak: vidíš původní video, kde všechny postavy hovoří svým hlasem, svou jedinečnou dikcí, ale v jiném jazyce. Dokonce zachová původní hudbu nebo zvukové efekty v pozadí.

Tuhle službu použijeme trošku jiným způsobem: místo překladu do cizího jazyka zvolíme jako cílový jazyk ten původní. Využijeme tak čistě schopnost klonovat hlasy a nahrazovat ve videu původní mluvené slovo za jiné. Přeložené dialogy poté v editoru nahradíme za vlastní text a je hotovo.

Služba Rask AI umožňuje předabovat až 3 minuty videa zdarma. Bohužel v bezplatném tarifu není funkce lip-sync, tedy synchronizace rtů s tím, co osoba říká. Nemusí to vadit, pokud nové dialogy napíšeš tak, aby se „trefily do pusy“ (tedy tak, jak opravdu dabing funguje). Nebo pusa není úplně jasně vidět v záběru, a tak dále. V ostatních situacích je synchronizace obrazu se zvukem docela žádoucí.

Jestli kvůli tomu nechceš platit tarif, lze k lip-syncu využít jinou službu (ovládání je složitější). Do ní nahraješ původní video, vygenerovanou zvukovou stopu z Rask AI, zase to necháš chvíli počítat a výsledkem je video, kde se pusa hýbe podle zvukové stopy. Problém je, že rozhýbá všechny pusy v záběru, což samozřejmě není žádoucí, ale je to docela vtipné 🙂

Proč obrázkové generátory nezvládají text?

Myslím, že ho zvládají stejně dobře jako cokoliv jiného. To jen my jsme na text nesmírní puntičkáři. Úpěnlivě trváme na jediném správném pořadí písmen a jejich prohození netolerujeme. Ani z estetických důvodů. Trváme na jednotném stylu, velikosti a přesných proporcích. Hodnotíme přísným okem tloušťku každičkého tahu. Vyhovět nám je opravdu nesmírně těžké.

Ale když budou na obrázku čínské znaky, tohle naše puntičkářství zmizí. A pak už není problém souhlasit, že text zvládá stejně dobře jako cokoliv jiného, ne?

Podobný případ jsou lidské dlaně. Mají s nimi jakýsi handicap ;-) Důvod bude podobný: záleží na pořadí prstů, všechny musí vyrůstat z dlaně a mít správný poměr velikostí. Pro nás samozřejmost, pro generátory překvapivě oříšek. Takže díky prstům můžeme řadu vygenerovaných obrázků odhalit. A pokud na něm nejsou vidět, dá se namítnout: Ukaž ruce nebo se to nestalo!

Hands or it didn't happen!

Jak naklonovat hlas?

Umělé inteligence pro klonování hlasů nejsou zatím tak dokonalé, jako třeba generátory obrázků. Určitě se to brzy změní, nejspíš s masivnějším příchodem videí generovaných pomocí AI. Ale prozatím nečekej zázraky.

Napodobit hlas někoho jiného totiž neznamená jen napodobit jeho specifickou barvu, ale i způsob řeči, parazitní slovíčka, dýchání a já nevím co ještě. Až uměligence vystřihne Leoše Suchařípu, tak smeknu. Ale letos ještě bude mít Petr Jablonský co jíst.

Jak se dá, byť nedokonale, klonovat hlas? Tuhle službu nabízí řada aplikací. Dokonce i samotné iPhony s iOS 17. V Nastavení > Zpřístupnění > Osobní hlas si spustíš klonování hlasu. Musíš přečíst 150 frází, na kterých se pak iPhone bude celou noc učit.

Na podobném principu fungují i různé webové aplikace. Nutnost číst připravené věty je spíš pojistkou, aby nebylo možné klonovat cizí hlas bez vědomí majitele, pro samotný trénink není obsah vět podstatný.

Existují tedy i metody, jak naklonovat hlas pouze z nahrávky, kde osoba mluví o čemkoliv. Třeba tohle jsem vyrobil z inauguračního projevu prezidenta Petra Pavla:

Jak takový hlas naklonovat vysvětluje video tutoriál na YouTube. Není to úplně easy, ale jistě brzy vzniknou lepší a snadněji přístupné nástroje.