„Jak ChatGPT vlastně funguje?“ Pokusím se to vysvětlit stručně a srozumitelně, bez videí a bez vzorečků. Ale fakt neručím za to, že se to povede 🙂
Jedna věc hned na začátek: algoritmus není tajný. Tým výzkumníků z Googlu ho publikoval v roce 2017 pod názvem Transformer, původně šlo o vylepšení strojového překladu. Že z toho vznikne něco jako ChatGPT, tehdy netušil nikdo. Co se děje uvnitř, nedokáže nikdo přesně vysvětlit. Například v Anthropicu (tvůrci Clauda) existují celé týmy, které zkoumají, proč to vlastně funguje, a publikují o tom fascinující články.
Krok 1: Slova na souřadnice 📍
Když do modelu pošlete text, rozseká ho na kousky, tedy slova, čárky, tečky (takzvané tokeny). Každý token má přiřazené souřadnice. Něco jako GPS. (Tyhle souřadnice vznikají během fáze učení, o té ale někdy jindy.)
A podobně jako u GPS: věci, které k sobě patří, mají blízké souřadnice. Praha a Brno jsou blízko sebe, obojí česká města. Češi a Slováci taky. Ale Tokio bude daleko od nich všech.
Se slovy to funguje podobně: „pondělí” bydlí blízko „úterý“ a „středě“, všechny dny v týdnu pohromadě. A „banán“ bude úplně jinde. Na rozdíl od GPS, tady blízkost znamená podobnost významem. A není tu jen zeměpisná šířka a výška, ale tisíce dalších rozměrů.

Krok 2: Slova se navzájem zabarvují 🎨
Tohle je to, co v roce 2017 změnilo všechno. Vyšel článek Attention is All You Need. Slovo „attention” bych přeložil jako „zřetel”. Model bere zřetel na kontext.
Jak? GPT si propojí každé slovo s každým a odhadne, jak moc spolu souvisí. Podle toho jeho souřadnice trošku „zabarví”, posune je směrem ke slovům, se kterými souvisí.
Příklad: vezměte si slovo „zámek“. Když se v jeho blízkosti objeví „dveře“ nebo „klíč“, jeho souřadnice se posunou k významu zamykací mechanismus. Když „věž“ či „hradby“ – k hradu. Když „mobil“ a „displej“ – k zámku obrazovky.
Jedno slovo, tři úplně jiné souřadnice. Protože GPT vzalo zřetel na okolí.
Krok 3: Jdeme do hloubky 🔬
Po zabarvení se souřadnice ještě proženou malou neuronovou sítí. Ta funguje jako jakýsi filtr: zabarvení řeklo „tyhle věci spolu souvisí“, a tahle síť z toho vyvodí důsledky.
Zabarvení + neuronová síť, to je jedna vrstva. A těch vrstev je u dnešních modelů klidně sto za sebou. Proto se tomu říká hluboké neuronové sítě. S každou vrstvou model zachycuje jinou rovinu významu.
Rané vrstvy řeší spíš vztahy mezi blízkými slovy. Hlubší vrstvy začínají zachycovat složitější vzorce, třeba ironii. Když někdo napíše „To se ti ale povedlo!“, na povrchu je to pochvala. Ale model v hlubších vrstvách dokáže z celkového kontextu rozpoznat, že to znamená pravý opak. Jak přesně, to výzkumníci stále zkoumají.
Krok 4: Zpátky na slovo 🎯
Na začátku jsme slova převedli na souřadnice. Ty souřadnice pak prošly stovkou vrstev zabarvování a přepočítávání, a teď v sobě nesou hluboké porozumění tomu, co se v textu děje. Kdo komu co dělá, jaký je tón, co bude logicky následovat.
A přesně z toho teď model vychází. Vezme souřadnice na poslední pozici textu a přepočítá je zpět na slova: pro každé slovo, které zná, spočítá pravděpodobnost, že by mělo následovat.
„Šel jsem do obchodu a koupil jsem…” Souřadnice na konci tohoto textu po stovce vrstev zpracování v sobě nesou kontext nakupování, jídla, běžného dne. Takže „chleba“ dostane vysokou pravděpodobnost. „Mléko“ taky. „Rohlíky”? Proč ne. „Slona”? Spíš ne 🙂
Mohlo by se zdát, že stačí vždy vybrat to nejpravděpodobnější. Ale ukazuje se, že to vede k nudným, opakujícím se textům. Proto se do výběru záměrně přimíchá troška náhody. To je také důvod, proč model na stejnou otázku pokaždé odpoví trochu jinak.
Krok 5: A jak vzniká celý text? 🔄
Jednoduše: celý tento proces se opakuje dokola. Model vygeneruje jeden token, přidá ho k textu a všechno proběhne znovu. Token po tokenu, dokud není hotovo.
Když se na to podíváte zpětně, zní to skoro jako recept: rozsekat na kousky, přiřadit souřadnice, zabarvit kontextem, prohnat pár vrstvami, vybrat nejpravděpodobnější slovo, opakovat. Kdybych ten recept četl před pár lety, nevěřil bych, co z toho vznikne. Protože tenhle recept vede k něčemu, co má v sobě zakódované hluboké porozumění lidské řeči. Dokáže dělat věci, které bychom ještě před pár lety považovali za sci-fi.
Často kladené otázky
Co je to token a proč na něm záleží? Token je nejmenší kus textu, se kterým model pracuje, nikoli slovo. České slovo se obvykle rozsekne na 1,5–2 tokeny, anglické na 1,2, takže psát s LLM v češtině vychází přes API objektivně dráž a sežere víc kontextového okna než stejně dlouhý text v angličtině.
Proč mi ChatGPT na stejnou otázku pokaždé odpoví jinak? Záměr. Do výběru následujícího slova se přimíchává kontrolovaná míra náhody (parametr „temperature“), jinak by odpovědi byly nudné a ploché; ve webovém rozhraní to neovlivníte, přes API ano.
Rozumí ChatGPT tomu, co píše? Poctivá odpověď: nikdo neví. Jeden tábor vědců tvrdí, že je to jen statistický papoušek skládající pravděpodobné slovo, druhý poukazuje na schopnosti (generalizace, řešení netrénovaných úloh), které ze samotné statistiky vysvětlit nelze. Konsenzus zatím není ani v Anthropicu, jehož celé výzkumné týmy se snaží přijít na to, proč to vlastně funguje. Praktický závěr: výsledky jsou užitečné stejně, ať tomu říkáme porozumění nebo velmi dobrá aproximace porozumění.