Jak fungují jazykové modely

Co se tu dozvíš, platí pro ChatGPT, Claude, Gemini i všechny ostatní — pod pokličkou fungují na stejném principu.

Co jsou to jazykové modely?

Jazykové modely (v angličtině large language models, zkráceně LLM) jsou neuronové sítě, které hrají zásadní roli v počítačovém zpracování přirozeného jazyka. Umožňují počítačům analyzovat a generovat texty, což vyžaduje určitou míru porozumění přirozenému jazyku. Jejich využití je široké, od zpracování nestrukturovaných dat (informace, které nejsou uspořádány v definované struktuře, například texty článků), přes strojový překlad, automatickou korekturu textů až po interakci s hlasovými asistenty (jako Siri, Google Assistant nebo Alexa) nebo chatboty.

Historicky se pro různé účely, jako je analýza sentimentu (zjištění, zda je text pozitivní, negativní nebo neutrální), překlady či generování specifických textů, tvořily odlišné modely. Tyto modely byly trénovány různými způsoby, často pomocí označených dat, a dosáhly různých úrovní schopností.

Všechno to však změnil příchod modelu GPT od OpenAI. Ten byl vytrénován na jednoduchém úkolu na obrovském množství textu. Místo invence nových algoritmů šli cestou škálování. K překvapení vědců se tento obří model ukázal být schopen řešit všechny dřívější úlohy, a to mnohem lépe. Začal projevovat určitý druh inteligence.

Co je vlastně GPT?

Odborník by řekl, že GPT je velký jazykový model založený na strojovém učení a umělé neuronové síti, ale pojďme si jednoduše říct, že je to program, kterému předložíš kus textu, a on dokáže generovat jeho pokračování. GPT je zkratkou slov Generative Pre-trained Transformer, čímž je myšleno, že text generuje, že je předtrénovaný a že v případě nouze se může proměnit ve žlutý Volkswagen Brouk … haha, velmi vtipné … ve skutečnosti je Transformer název architektury, se kterou v roce 2017 přišli borci z Google a která odstartovala současný rozkvět AI.

Vymysleli totiž způsob, jak může stroj udržet pozornost u delšího textu. Zatímco Transformer zvládne koukat na několik stránek současně a sledovat souvislosti mezi všemi slovy, jeho starší bratříček RNN četl text průběžně a měl přitom lehounce zhoršenou krátkodobou paměť, jako jistá postava ve filmu Samotáři. Třešničkou na dortu je, že Transformer dokáže své výpočty rozdělit mezi víc počítačů, takže je mnohem rychlejší. Znáš to, jeden dělník vykope jámu za 5 hodin, zatímco milion dělníků ji vykope vmžiku.

GPT není jediný takový model, existuje řada dalších podobných. Například Llama od firmy Meta (ano, od Facebooku), Gemini od Google atd. Dříve nebylo tak snadné tyto modely vyzkoušet, což vysvětluje, proč je GPT nejpopulárnější.

A pokud si myslíš, že GPT jen statisticky papouškuje, co přečetl — na příkladu Ema mele maso ukazuji, proč je to o dost složitější.

Jak funguje GPT?

Jazykové modely jsou neuronové sítě a trénují se podobně jako ostatní sítě. Jen místo obrázků s písmeny se jim předčítají knihy, slovo od slova. A ony mají za úkol, což tě možná překvapí, předpovědět slovo následující. Jejich předpověď porovnáme se skutečným dalším slovem a pokud se netrefí, upravíme váhy tak, aby se příště trefily lépe. A tak pokračujeme až dojdeme na konec knihy. Pak otevřeme další, až postupně přečteme všechny. A pak celou Wikipedii. A ještě pořádný kus internetu.

Vznikne model, který ve svých vahách zachytí principy stavby vět, čímž získává schopnost generovat sémanticky a gramaticky správný text. Když mu zadám výzvu „Čech, Rus a Němec přijdou do", tak ví, že bude následovat buď bar, hospoda nebo restaurace, a přesně s jakou pravděpodobností. Zvolí jedno slovo, v čemž hraje roli i náhoda (míře jejího vlivu se říká temperature). Slovo připojí na konec. A generuje slovo další – na základě výzvy rozšířené o to, co už vygeneroval. A stále dokola. Když vidíš jazykový model vypisovat slovo za slovem, nejde o žádný vizuální efekt – systém opravdu takto funguje. Nemá žádný prostor, kde by si připravil plán, co se chystá napsat. Vymýšlí slovo za slovem, jak výborně ukazuje toto výukové video. Proto má taky problém s matematikou.

Možná si říkáš, že to není možné, jak by bez přípravy mohl generovat třeba rýmy v básních? Možné to opravdu je, ostatně taky v rýmování není zrovna přeborník. Celý ten mechanismus přístupněji — s analogiemi a bez vzorečků — popisuju v tomto článku.

Kolik GPT přečetl knih?

GPT byl trénován na obrovském množství textů z různých zdrojů, jako jsou knihy, internetové články, Wikipedie a další. Což z něj dělá největšího knihomola světa. Je obtížné si představit to množství. Pro ilustraci, je to jako kdybyste začali číst jednu knihu každý den od doby, kdy žili první neandertálci, až do dneška. Tolik textu zpracuje velký jazykový model během svého tréninku. Celá Wikipedie tvoří jen několik procent celkové velikosti. Knihy tvoří zhruba 15 %. Zbytek jsou především internetové stránky, magazíny nebo třeba diskuse na Redditu. Přesnou strukturu dat OpenAI nezveřejnilo a moc dobře vědí proč, jelikož legálnost jejich nabytí je diskutabilní.

Celkem šlo v případě GPT‑3 o 45 TB textu, z čehož se ale vyfiltrovalo odhadem jen 1.6 TB. Pro srovnání, celé Shakespearovo dílo představuje zhruba 5 MB textu. Z 93 % šlo o anglicky psaný text, čeština tvořila pouhých 0,07 % tréninkových dat — tohle platilo pro GPT‑3; u novějších modelů OpenAI složení tréninkových dat nezveřejňuje. Na druhou stranu, není to tak špatné, jsme v první dvacítce jazyků (nejspíš proto, že 1 % všech textů na internetu je v češtině, jak fakt). Třeba taková tamilština, kterou mluví 90 milionů lidí, měla zastoupení 40× menší.

Tréninková data tedy zahrnují fakta, uměleckou fikci, názory, komentáře, lži, dezinformace, propagandu, konspirační teorie a tak dále. Z nich získá znalosti o jazyce. Kvantita je důležitější než kvalita. Ale takový model bys asi nechtěl vzít domů a ukázat rodičům. Takže se dále vylaďuje na kvalitnějších datech, což ho učiní společensky přijatelným. Nakonec je vyleštěn na základě zpětné vazby od testerů.

Jak to, že GPT chápe svět?

Všimni si zajímavé věci: Během tréninku nikdo modelu nevysvětluje podstatu slov. Co je podstatné jméno, co sloveso atd. Aby mohl odhadovat nejpravděpodobnější následující slovo ve větě, musel sám rozklíčovat větnou stavbu a gramatiku. Ba co víc! Musel porozumět významu slov. Porozumět znalostem světa. Ukazuje se, že když vytvoříme obrovský model a natrénujeme ho na stovkách gigabajtů textu, objeví se v něm samy od sebe nečekané (tzv. emergentní) schopnosti. Dokáže třeba vysvětlovat vtipy. Překládat. Programovat. Zkrátka projevovat určitého druhu inteligenci.

Proč se to děje, je otázka, na kterou zatím nemáme jasnou odpověď. A právě tady se střetávají různé názory: Jedni v těchto schopnostech spatřují skutečnou inteligenci a tvrdí, že GPT už dnes může navrhovat vědecké hypotézy, zatímco druzí to považují za sofistikovanou hru, která porozumění světu zdařile imituje (což je mi bližší). Pro ty druhé se vžil termín „stochastický papoušek“ — co přesně znamená a proč je to složitější, než se zdá, rozebírám v blogu. Zda by mohla být naše inteligence redukována na jazykový model je otevřená filosofická otázka. V každém případě je to fascinující a zároveň trochu děsivé.

Jak ověřit, že si ChatGPT nevymýšlí?

Krátká odpověď: nemůžeš si být nikdy stoprocentně jistý. A to je jádro problému zvaného halucinace.

Kamarád David Michálek mi líčil, jak poprosil ChatGPT o potvrzení domněnky ohledně MS SQL Server Analysis Services. ChatGPT souhlasil. Pak posílal zdroje — jenže nefunkční. Opakovaně. Obalené servilními frázemi jako „Samozřejmě, rád vám poskytnu ověřené informace." Servilní blbeček, který odpovídá s chutí a jistotou, ale fakticky kecá.

Jak se bránit? Zaprvé: pro faktická tvrzení vždy žádej zdroje a ty si otevři a ověř. Zadruhé: pro věci, kde záleží na aktuálnosti a přesnosti, použij nástroje s přístupem k internetu — Perplexity, ChatGPT se zapnutým vyhledáváním nebo Bing AI. Zatřetí: crosscheckuj. Pokud dvě nezávislé odpovědi říkají totéž, je to dobrý signál. Pokud se liší, zavolej odborníka.

ChatGPT je excelentní na generování, brainstorming, přeformulování a vysvětlování. Na ověřování faktů je strukturálně špatný nástroj. Nezbývá než po něm všechno kontrolovat.

Co jsou to parametry?

Parametry (neboli váhy) bývají přirovnávány k synapsím v mozku. Čím víc jich je, tím inteligentnější je model. Čím víc parametrů, tím víc Havel.

Jejich počet je čistě věcí rozhodnutí tvůrců modelu. Starší verze GPT‑3 představená v roce 2020, tehdy ještě bez současného zájmu veřejnosti, měla 175 miliard parametrů. V zahraničních článcích píší 175 bilionů, ale to je proto, že v Americe je billion totéž, co naše miliarda (má to zajímavé historické pozadí). A kolik parametrů má GPT‑4? To není známo, jsou kolem toho tajnosti.

Jak se neuronové sítě trénují?

Strojové učení přistupuje k úkolům úplně jinak než klasické programování. Vezmi si jako příklad rozpoznávání znaků (OCR). Tady klasické programování selhává, protože nelze dost dobře algoritmicky rozlišit jedno písmenko od druhého, navíc když existují tisíce různých fontů. Místo toho, aby programátor vytvořil kód, který přímo řeší problém, naprogramuje neuronovou síť, která se naučí problém řešit sama. Učení (trénování) probíhá tak, že se neuronové síti předloží naskenovaný obrázek písmene a ona vygeneruje svůj odhad. Odhad se porovná s tím, jaké písmeno to skutečně bylo, a pokud se netrefí, provede se korekce, aby příště, když se jí předloží podobný obrázek, byla pravděpodobnost správné odpovědi vyšší. Tento proces se opakuje mnohokrát s mnoha obrázky, dokud se síť nenaučí písmena správně rozpoznávat.

Neuronovou síť si můžeš představit jako obrovskou sadu číselných hodnot, tzv. vah (neboli parametrů). Rozpoznávání znaku je matematická operace, která zahrnuje tyto váhy a pole čísel představujících jednotlivé pixely obrázku. Čísla se mezi sebou různě násobí a sčítají, prostě velká matematika, a ve výsledku vrátí hodnoty pravděpodobností jednotlivých písmen. A zmíněná korekce spočívá v úpravě vah pomocí algoritmu zpětné propagace chyby (backpropagation). Takže celý trénink probíhá tak, že nejprve nastavíme váhy náhodně, takže výsledek operace „rozpoznej písmeno" bude nesmyslný, a pak dokola provádíme korekce na základě učících dat. Síť se tedy „učí“ tím, že si upravuje své váhy, aby lépe vyřešila úlohu. V jistém smyslu jsou váhy „znalostmi“ neuronové sítě.

Je to trochu jako když se dítě učí rozeznávat písmena. Na začátku mu všechna písmena připadají stejná, ale postupem času se naučí rozpoznávat jejich jednotlivé rysy, a nakonec je dokáže správně identifikovat. Neuronová síť se učí mnohem rychleji, protože nemusí chodit spát a nerozptýlí ji kdejaká ptákovina. (Doporučuji výborné video Co vlastně je neuronová síť)

Pokud tě zajímá, jaké mýty kolem strojového učení kolují a co je na nich pravdy, sepsal jsem to.

Lze neuronové sítě vytrénovat na cokoliv?

Moje předchozí vylíčení neuronových sítí znělo jako univerzální návod na šťastný život od nadšeného osobního kouče. Realita je, jak už to bývá, o poznání méně růžová. Může se stát, že spálíš hromadu peněz za trénování, ale síť nebude schopna rozpoznat ani středník od dvojitého W. Nebo bude skvěle rozpoznávat písmena v tréninkové sadě, ale v reálných situacích selže. Nebo třeba se zadaří, bude mít účinnost 98 %, což zní skvěle, ale ve skutečnosti to znamená přibližně jednu chybu v každé větě, což je naprd. Abys dosáhl chybovosti řádově menší, potřebuješ trpělivost a hlavně štěstí, protože jinak vymeteš jednu slepou uličku za druhou. A dokonce i když dílko se podaří, může jakákoliv drobná změna okolností způsobit, že síť náhle selže. Vytvoření neuronové sítě, která by se uměla adaptovat na změnu prostředí, je stále sci-fi.

Spojení slov „neuronová síť" tedy není zárukou ničeho. Pamatuj na to, až se ti někdo pokusí prodat zázračný produkt, protože je založený na AI. Průlom posledních let v jazykových a obrazových modelech neznamená automaticky průlom v oblastech zcela jiných.

Navíc i ty úspěšné modely mají překvapivé slabiny — stačí jim drobně upravit vstup a úplně se pomýlí. Tomu se říká adversariální útok a oklamat umělou inteligenci je překvapivě snadné.

Je pravda, že ani tvůrci nechápou, jak jazykové modely fungují?

Umělá inteligence je výsledkem lidského úsilí. Je pravda, že při jejím vývoji se mnohdy zkoušely různé cesty, z nichž se některé ukázaly jako funkční, aniž by bylo úplně jasné proč. Podobně jako když při vaření zjistíš, že jídlo lze vylepšit přidáním určité ingredience, ale neděláš chemickou analýzu, která by objasnila důvod. Spokojíš se tím, že to chutná. Učení neuronové sítě, to jsou jasně dané matematické výpočty, které mají za úkol hledat vzory v trénovacích datech. Když komunikuješ s nečím jako ChatGPT, stále jde o matematiku, a inženýři, kteří tyto systémy vytvářejí, jí velmi dobře rozumí.

Co je ale nesmírně komplikované, je interpretace dat vytvořených během tréninku a z toho plynoucí chování AI. To je jako snažit se chápat chování davu na základě znalosti reakcí jednotlivých lidí.

Co jsou tokeny? Jaký je poměr tokenů/slov/znaků?

Na tomto webu jsem mnohokrát zmiňoval, že GPT generuje slova, nebo že si ChatGPT pamatuje jen určitý počet slov v konverzaci. Jenže to jsem malinko kecal. Zjednodušoval. Ve skutečnosti model nepoužívá jako základní jednotku slova, ale takzvané tokeny. V angličtině mnohdy token představuje jedno slovo, ale může jít o část slova, interpunkční znaménko nebo speciální symbol (viz přehled tokenů GPT 4). V češtině je to jen část slova, někdy dokonce část písmene. Třeba takový smajlík může mít 8 tokenů. Jak se slova dělí do tokenů si můžeš vyzkoušet v nástroji tokenizer.

Pro zajímavost jsem spočítal, kolik tokenů má tentýž beletristický text v obou jazycích (tokenizerem ChatGPT 5):

angličtina 3 681 slov 21 493 znaků 4 836 tokenů (1,3/slovo)
čeština 3 127 slov 19 904 znaků 7 021 tokenů (2,2/slovo)

Čeština je lehce úspornější než angličtina, stejný přeložený text má méně slov (85 %) a méně znaků (93 %), ale více tokenů (145 %). A protože text se generuje po tokenech, je v češtině ChatGPT 1,5× pomalejší než v angličtině. Nepříjemný důsledek to má u placeného API, které se účtuje podle počtu tokenů, takže čeština je 1,5× dražší než angličtina. Ale ještě mnohem hůř jsou na tom Thajci, protože stejná věta v thajštině má oproti angličtině 4× více tokenů.

Kolik slov se vejde do paměti jednotlivých chatbotů najdeš v přehledu kontextových oken.

A proč jsou vlastně kontextová okna tak malá? Protože model při zpracování textu udržuje vazbu každého tokenu s každým – mechanismus zvaný attention. Náročnost tak roste s druhou mocninou velikosti okna. Zdvojnásobíš okno a výpočetní nároky narostou čtyřnásobně. Proto měl první ChatGPT okno pouhých ~4K tokenů a slavné GPT‑4 jen ~8K. Dnešní okna o stovkách tisíc až milionech tokenů si vyžádala zásadní architektonické triky.

Co je to fine-tuning?

Fine-tuning, česky jemné doladění, je způsob, jak přizpůsobit jazykový model konkrétním potřebám. Vezmeš už předtrénovaný model a dáš mu další speciální trénink v podobě ukázkových příkladů, ze kterých pochopí, co se od něj očekává. Přitom se přímo aktualizují parametry modelu a vzniká tak nový odvozený model.

Například ChatGPT byl vyšlechtěn pomocí fine-tuningu z obecnějšího GPT modelu, aby získal schopnost vést diskuse. A taky byl politicky korektní.

Co je to Mixture of Experts?

Klasický model — říkejme mu dense, hustý — aktivuje při každém tokenu úplně všechny svoje parametry. Jako když zapneš celou klimatizaci v budově jen proto, aby si jeden člověk ohřál kafé. U modelů s biliony parametrů je to výpočetně drahé.

Mixture of Experts (zkráceně MoE) přináší elegantnější přístup: model se skládá z mnoha specializovaných „expertů" — konkrétně jde o specializované feed-forward bloky (FFN vrstvy), zatímco attention mechanismus zůstává sdílený. Pro každý token se aktivuje jen malá část expertů, takže model může mít obrovský celkový počet parametrů, ale výpočetní nároky odpovídají jen jejich zlomku. Větší mozek, ale ne větší spotřeba.

Přesněji řečeno: model má k dispozici tucty expertů, ale u každého tokenu „poradce" — tzv. router — vybere třeba jen dva nebo čtyři z nich. Jako chirurgický tým, kde každý specialista čeká v záloze — dokud nepřijde případ, který je přesně jeho. Mistral třeba čísla pro svůj MoE model Mixtral zveřejnil: osm expertů, z nichž se pro každý token aktivují dva.

Co jsou to reasoning modely?

Pamatuješ, jak jsem říkal, že GPT generuje token za tokenem a nemá žádný prostor, kde by si připravil plán? To platí pro klasické modely. Jenže vědci mezitím přišli na trik: co když model odměníme ne za plynulé vyjadřování, ale za správný výsledek — a záměrně nastavíme odměňování tak, aby si cestu ke správnosti vymyslel sám?

Takto vznikly reasoning modely, česky přemýšlející modely. Místo přímé odpovědi nejprve generují delší vnitřní monolog — rozebírají problém krok za krokem, zkouší různé přístupy, opravují se — a teprve pak odpoví. Vědci toto chování záměrně vyvolali tréninkovou strategií, ale konkrétní tvar toho monologu si model vyvinul sám — nikdo mu nepředepsal, jak přesně má uvažovat. Jak přemýšlení funguje a kdy se ti vyplatí, si můžeš přečíst v tomhle článku.

Je to jako matematik, který si před odevzdáním načmárá tři strany konceptu plného škrtů a šipek, a teprve pak napíše jedinou čistou větu výsledku. Výsledek je vidět hlavně u matematiky, logiky a programování. Cena za to: pomalejší a dražší provoz. Přemýšlení totiž trvá.

Co je to distilace?

Proč existují „mini" verze modelů? Na první pohled osekaný sourozenec — méně parametrů, méně schopností. Jenže to je jen půlka příběhu.

Jedna z klíčových technik se jmenuje distilace znalostí (knowledge distillation). Malý model — žák — se netrénuje jen na surových textech z internetu, ale přímo na výstupech velkého modelu, učitele. Napodobuje přitom nejen jeho správné odpovědi, ale i celé rozložení pravděpodobnosti přes tokeny — tedy i to, jak moc si byl učitel jistý, kde váhal a kde byl naprosto jistý. To je podstatně přesnější vodítko než surový text. Výsledek: žák je menší a rychlejší, ale chytřejší, než by bez učitele kdy byl.

Představ si to takhle: místo abys strávil pět let na konzervatoři, sedíš dvě hodiny s Yo-Yo Maem a on ti přehraje větu po větě, vysvětlí každou nuanci, ukáže, kde ostatní chybují. Kdybys studoval sám ze záznamu, nikdy by sis toho nevšiml. Míň dřiny, víc moudrosti — a přesně tohle distilace umí.

Co jsou to multimodální modely?

Původní jazykové modely pracovaly výhradně s textem. Dnešní chatboti ale zvládají i obrázky, audio nebo video — a základ je jednodušší, než by ses čekal.

Obrázek projde vizuálním enkodérem, který ho převede na sekvenci tokenů — číselných reprezentací, se kterými model umí pracovat. Od té chvíle jsou pro model jen další tokeny — stejné jako ta slova, která čteš teď. Audio funguje obdobně: zvuková vlna se zpracuje a převede na tokeny, které letí do stejného modelu. Je to trochu jako mozek, který vidění, sluch a řeč nakonec zpracovává ve stejné oblasti — vstup je různý, ale od určitého bodu je to všechno jen signál.

Praktické důsledky jsou vidět: chatboti dnes popisují fotky, čtou rukopisy, transkribují nahrávky nebo analyzují grafy. Text přestal být jediným jazykem, kterým se s nimi domluvíš. Žádná magie, jen víc způsobů, jak vyrobit tokeny.

Lze rozpoznat generovaný text?

Existuje nástroj, co rozpozná, že text generovala AI? Nebo jak Google přistupuje k obsahu generovanému pomocí GPT?

Odpověď je jednoduchá: žádný takový nástroj neexistuje a nikdy existovat nebude. Nemá jej ani Google (byť tvrdí něco jiného). Kdyby totiž takový nástroj existoval, bylo by možné jej použít k učení jazykových modelů. Tedy jednoduše, levně a automatizovaně zlepšovat jazykové modely, aby generovaly text, který už nástrojem odhalit nepůjde. Čímž by ten nástroj přestal existovat.

Proč je název OpenAI paradox?

OpenAI vznikla v prosinci 2015 jako nezisková organizace s ambiciózním cílem přinést bezpečnou a prospěšnou umělou inteligenci všem. Namísto toho, aby ji vyvinuli v korporacích, které si ji nechají pro sebe a získají klíčový náskok. Altruistický záměr otevíral dveře darům — a mzdy zaměstnanců tak mohly zůstat skromné. Mezi zakladateli — Elon Musk, Ilya Sutskever, Greg Brockman a další — byl od začátku jako prezident i Sam Altman.

V roce 2019, když výzkumníci OpenAI vyvinuli model GPT‑2, byli tak ohromeni jeho schopností generovat přirozeně znějící texty, že v obavách před zneužitím poskytli veřejnosti pouze omezenou verzi. To byl první signál zásadního posunu v politice OpenAI. O rok později byl představen model GPT‑3, který díky své masivní velikosti představoval další vývojový skok. Místo zveřejnění modelu jej OpenAI zpřístupnila prostřednictvím placeného API (zvuk 🔊). V roce 2023 následně přišel model GPT‑4, u kterého OpenAI nezveřejnila už ani parametry.

Transformace otevřené organizace na komerční podnik byla dokonána. Hlavním partnerem a investorem se stal Microsoft. Zůstal ale zavádějící název OpenAI. Připomíná mi to jednu firmu, která byla dost chytrá, aby si motto „Don't be evil" nedávala do názvu. Mohla ho pak nenápadně vyškrtnout a dál se jmenovat stejně — Google. :-)

Pokud sis myslel, že to bylo nejhorší, připrav se. V listopadu 2023 board OpenAI propustil šéfa Sama Altmana — a za pět dní ho zase přijal zpátky, tentokrát s novým boardem, který byl výrazně přívětivější k obchodním zájmům. V roce 2024 přišel GPT-4o (rychlejší, levnější, multimodální) a poté modely o1 a o3, které si před odpovědí „přemyslí" — projdou si vlastní úvahy, než ti odpoví. Víc o tom, jak tyhle reasoning modely fungují, jsem rozebral tady. A paradoxu v tom názvu přibývá.

King − Man + Woman ≈ Queen? Ne tak úplně.

Word2Vec, technika vynalezená naším rodákem Tomášem Mikolovem v roce 2013, změnila pravidla hry. Vymyslel, jak přeměnit slova na body v prostoru, tzv. embeddings, a najednou jsme si mohli s nimi hrát jako s kalkulačkou. Třeba spočítat, že muž se má ke králi stejně, jako se má žena ke … ano, královně. Vznikla slavná rovnice „King − Man + Woman ≈ Queen". Dobré, ne? Můžeš si to vyzkoušet a spočítat třeba „Paris − France + Italy ≈ ?"

Ale co když je všechno trochu jinak? Co když ta pěkná rovnice „King − Man + Woman" ve skutečnosti vrací… King? Je to tak. Ačkoliv ve všech článcích, prezentacích nebo kurzech se tvrdí, že výsledek je Queen, ve skutečnosti po provedení matematické operace s body v prostoru, které reprezentují slova v rovnici, dostaneme výsledek, který je nejblíže slovu King. Je tam totiž trik: protože slovo King už je v zadání, vzal se jako výsledek druhý nejbližší bod, což je Queen.

Nutno dodat, že to nic nemění na významnosti Word2Vec. Ale vymstilo se to ve chvíli, když se o problematiku začali zajímat odborníci na genderová studia a rovnost pohlaví. Ti odhalili, že je sexistický! Například počítá „Doctor − Man + Woman ≈ Nurse". Skandál! Jenže opět to není pravda, ve skutečnosti vrací „Doctor". Teprve s trikem, tedy když vezmeme až druhé nejbližší slovo, tak dostaneme zdravotní sestru.

Mimochodem, český vědec Tomáš Mikolov položil základy oboru zpracování přirozeného jazyka, jak jej vnímáme dnes. Jeho jméno stojí za to si zapamatovat. Pokud se ti to nedaří, jako mnemotechnická pomůcka ti může pomoci, že je to Mikulov akorát s „o".

Poslední aktualizace: únor 2026