Publikováno před 2 měsíci

Víš, co znamená ChatGPT? Ani OpenAI si není jistá

Každé písmeno v názvu ChatGPT skrývá příběh podivnější než ten název sám. Písmeno P je připomínkou doby, kdy nikdo nevěřil, že by to mohlo fungovat, zkratka GPT se v původní studii o GPT vůbec neobjevuje, a ani v OpenAI se dodnes neshodnou, co vlastně znamená. Značka za miliardy dolarů, vymyšlená ve tři ráno.

Původně se to mělo jmenovat „Chat with GPT-3.5“.

Vážně. Název změnili noc před spuštěním, protože si uvědomili, že se to špatně vyslovuje a zní to jako náhodně vygenerované heslo do Wi-Fi. Žádná brandingová agentura, žádný průzkum trhu. Jen pár unavených inženýrů, kteří ani nevěřili, že by jejich výtvor kohokoliv zaujal.

Ale to je teprve začátek. Název ChatGPT se skládá ze slova Chat a zkratky GPT, a každé z těch písmen skrývá překvapivý příběh. T jako Transformer, architektura, která se málem jmenovala CargoNet. P jako pre-trained, slovo, které dnes znamená pravý opak toho, čím je chatbot. G jako generative, sázka, o které si většina výzkumníků myslela, že je slepá ulička. A samotná zkratka GPT? Ta se v původní studii o GPT vůbec neobjevila.

Pojďme si projít název, který vyslovují miliony lidí denně, a skoro nikdo netuší, co vlastně říká.

ChatGPT – název na poslední chvíli

Celý produkt vznikl během desetidenního hackathonu. V OpenAI ho nikdo nepovažoval za důležitý, šlo o výzkumnou ukázku, sběr dat, nic víc. Liam Fedus, jeden z tvůrců, to shrnul pro MIT Technology Review: nepovažovali jsme to za nic převratného.

Ještě noc před spuštěním Ilja Sutskever testoval model deseti těžkými otázkami, spokojený byl jen s polovinou. Tým váhal, jestli to vůbec spustit. A právě tehdy, na noční poradě 29. listopadu 2022, padlo i rozhodnutí přejmenovat produkt z „Chat with GPT-3.5“ na „ChatGPT“. Nick Turley, šéf produktu, později vzpomínal: prostě jsme si uvědomili, že název zní krkolomně.

Druhý den ráno to šlo ven. A stalo se něco, co nikdo nečekal.

Turley zíral na čísla a myslel si, že je to chyba, tolik lidí přece nemůže přijít najednou. Na vánočním večírku o pár týdnů později kolegové tipovali, že zájem opadne.

Neopadl.

Sam Altman později přiznal, že OpenAI je mnohem lepší ve výzkumu než ve vymýšlení názvů. Ale občas stačí pojmenovat věci ve tři ráno.

Tak. To byl Chat, slovo, které přidal někdo v polospánku na poslední chvíli. Teď ke zbytku. Ke třem písmenům, z nichž každé skrývá ještě bláznivější historii.

T jako Transformer (a málem CargoNet)

Začněme odzadu, od písmene T. Transformer je motor, na kterém dnes běží všichni chatboti. Vymyslel ho v roce 2017 tým v Googlu, původně proto, aby zlepšil strojový překlad z angličtiny do němčiny a francouzštiny.

Jenže technologie potřebovala jméno. Prvním kandidátem byl „Attention Net“. Příliš nudné. Pak jeden ze spoluautorů navrhl „CargoNet“, akronym z Convolution, Attention, Recognition a Google (názvy použitých technologií plus Google). Zbytek týmu to jednomyslně smetl. Když o tom léta později vyprávěl šéfovi Nvidie Jensenovi Huangovi, ten reagoval suše: „Moudří lidé.“

Kdyby tým neměl dobrý vkus, celá dnešní AI revoluce by stála na technologii, která zní jako doručovací služba.

Finální název Transformer navrhl lingvista Jakob Uszkoreit. Transformace z jednoho jazyka do druhého, tak to původně myslel. Další ze spoluautorů ale tvrdí, že ambice byly od začátku trochu větší: „Nešlo nám jen o překlad. Chtěli jsme vytvořit něco obecného, něco, co dokáže transformovat jakýkoli vstup na jakýkoli výstup.“ Ale že jejich vynález jednou bude psát básně, generovat obrázky a analyzovat proteiny, to nečekal nikdo z nich.

Aby ale Transformer mohl fungovat jako základ ChatGPT, musel ho někdo vzít a naučit rozumět jazyku. A tady vstupuje na scénu písmeno P.

P jako Pre-trained – polotovar, ze kterého vyrostl hotel

Dnes je ChatGPT hotový produkt: napíšeš otázku, dostaneš odpověď. Ale to „P“ v názvu GPT říká něco úplně jiného. „Pre-trained“ znamená „předtrénovaný“. Ne natrénovaný, předtrénovaný. Jako polotovar, který si musíš doma dodělat sám.

V roce 2018 to tak opravdu fungovalo: vzal jsi model, který nasál hromadu textu, a pak sis ho sám dotrénoval na konkrétní úkol: třídění emailů, rozpoznávání jmen, odpovídání na otázky. Bez toho dotrénování byl k ničemu. Nikdo nepočítal s tím, že by polotovar mohl být rovnou hotový pokrm.

Jenže s každou další generací se děly podivné věci.

GPT-2 v roce 2019 naznačil, že model dokáže plnit úkoly i bez doladění, prostě jen na základě zadání. Výsledky byly slibné, ale ještě ne oslnivé. Skutečný zlom přišel s GPT-3, který byl stokrát větší. A ukázalo se, že velikost mění všechno, jako rozdíl mezi studentem, který přečetl jednu učebnici, a někým, kdo přečetl celou knihovnu. Autoři ve studii přímo napsali, že GPT-3 už žádné dolaďování nepotřebuje. Model dostal úkol jen jako text a zvládl ho.

Všechno se otočilo. Z „natrénuj a dolaď“ vzniklo „natrénuj a zeptej se“.

Slovo „pre-trained“ zůstalo v názvu jako fosilie, připomínka doby, kdy nikdo nevěřil, že to může fungovat samo.

Zbývá poslední písmeno: G. A je to možná ta nejpřekvapivější část celého příběhu.

G jako Generative – sázka proti proudu

G znamená „generativní“, tedy tvořící. A v roce 2018 to byla odvážná volba. Umělá inteligence tehdy uměla hlavně kategorizovat: rozpoznat zvíře na obrázku, rozlišit spam od běžného emailu. Jasný úkol, jasná odpověď, měřitelný výsledek. A celý obor věřil, že právě tudy vede cesta ke stroji, který porozumí lidské řeči: dávej mu úkoly, měř, jak se zlepšuje, a jednou to zvládne.

Alec Radford to otočil. Bylo mu třiadvacet, do OpenAI přišel rovnou po bakaláři a šéf firmy Sam Altman ho později označil za naprostého génia. Radford dal svému modelu miliony recenzí z Amazonu: přečti si začátek recenze a zkus psát její pokračování, jako ho psal původní autor. Žádné třídění, žádné škatulkování, prostě piš dál.

Jenže aby model dokázal smysluplně navázat na cizí větu, nestačilo skládat obvyklá slova za sebe. Musel postupně pochopit, co vlastně píše. Všiml si, že v různých typech recenzí se vyskytují různá slova: jiná v nadšených, jiná ve stížnostech. A podobně s ironií, pochybami, radami. To mu stačilo.

Nikdo ho neučil rozumět. Učil se tvořit text, a porozumění přišlo jako vedlejší produkt.

Paradox se skrýval přímo v názvu studie: Zlepšení porozumění jazyku pomocí generativního tréninku. Zlepšení porozumění pomocí tvoření. Jako pochopit architekturu tím, že zkusíte postavit dům. Zní to absurdně, ale fungovalo to.

Když Google o pár měsíců později představil vlastní model založený na opačném principu, uč stroj přímo rozumět, a na většině testů GPT jasně porazil, mnozí usoudili, že generativní cesta vede do slepé uličky. GPT-2 a GPT-3 je umlčely.

A historická ironie: slovo „generativní“ bylo v roce 2018 odborným termínem pro pár stovek výzkumníků. Dnes je „generativní AI“ název celé epochy.

Radford, nesmírně plachý člověk, prakticky neposkytoval rozhovory. V prosinci 2024 z OpenAI tiše odešel. Značka, kterou pomohl stvořit, žije dál bez něj.

GPT: zkratka, která neexistovala

Celou dobu mluvím o G, P a T, ale samotná zkratka GPT? Ta v původní studii z června 2018 vůbec nebyla. Autoři svůj model pojmenovali prostě „doladěný transformátorový jazykový model“. Altman měl pravdu: vymýšlení názvů fakt není jejich silná stránka.

Zkratka se poprvé objevila až v únoru 2019, kdy OpenAI představila GPT-2. A označení „GPT-1“? To nikdy oficiálně neexistovalo, zavedla ho komunita zpětně, aby odlišila verze.

A pikantní detail: Mark Chen, výzkumník OpenAI, v podcastu prozradil, že se ani uvnitř firmy neshodnou na tom, co GPT znamená. Polovina říká „Generative Pre-trained Transformer“, tedy generativní předtrénovaný transformátor. Druhá polovina tvrdí „Generative Pretrainee“, cosi jako „generativní praktikant“. Značka za miliardy dolarů, a nikdo přesně neví, co znamená :-)

Sedm písmen, které nikdo neplánoval

Zkratka GPT v původní studii neexistovala, a dodnes se v OpenAI neshodnou, co znamená. Transformer přežil konkurenci CargoNetu díky estetickému citu jednoho lingvisty. „Pre-trained“ znamená polotovar v názvu pro hotový produkt. A „generative“? Odvážná sázka třiadvacetiletého výzkumníka, který šel na to od druhého konce, nechal stroj tvořit místo rozumět. A ono to přišlo samo.

Samotný název ChatGPT? Vymyšlen noc před spuštěním místo krkolomného „Chat with GPT-3.5“.

Někdy největší značky na světě vzniknou tak, že se pár lidí nevyspí.


P.S. Francouzi v tom názvu slyší příběh výmluvnější než celý tento článek: kočka (chat) prdla (GPT = žé-pé-té ≈ j'ai pété). Víc nepotřebují vědět.

David Grudl Zakladatel Uměligence a autor Nette Framework, populárního PHP frameworku. Od roku 2021 se naplno věnuje umělé inteligenci a učí lidi ji využívat v praxi. Spolu s kolegy z Tech Guys každý týden rozebírá tech novinky. Píše na phpFashion a La Trine. Věří, že AI není sci-fi, ale nástroj pro lepší život už dnes.