Když se ChatGPT zeptáte, kdo je Václav Havel, odpoví bez zaváhání. Když se ho zeptáte na Václava Ravla, začne říkat, že nemá dostatečné informace, nebo v horším případě mlžit. Jak pozná, o kom ví a o kom ne? Vědci odhalili fascinující tajemství uvnitř „mozku“ jazykových modelů – a dokázali ho dokonce hacknout!
Jak AI rozpozná, co zná a co ne?
Nová studie přináší fascinující pohled do útrob jazykových modelů jako ChatGPT nebo Claude. Výzkumníci odhalili, že tyto modely mají překvapivě vyspělý systém „sebeuvědomění znalostí“. Představte si to jako malou kontrolku, která se v AI rozsvítí, když narazí na entitu (osobu, film, město, píseň), o které má uložené informace. Naopak když narazí na něco neznámého, rozsvítí se jiná výstražná kontrolka. Díky tomu model „ví“, kdy má být sebevědomý a kdy by měl přiznat neznalost.
To samo o sobě není až tak překvapivé – každý, kdo používá chatboty, ví, že někdy odpovídají sebevědomě a jindy přiznávají, že nemají dostatek informací. Co je ale skutečně zajímavé, je to, že vědci dokázali tyto „kontrolky“ najít, změřit a dokonce s nimi manipulovat!

Výzkumníci použili techniku zvanou „sparse autoencoders“ (řídké autoenkodéry), což jsou nástroje, které pomáhají rozluštit, co se děje uvnitř neuronových sítí. Díky tomu objevili specifické vzorce, které se aktivují napříč různými typy entit. Nezáleží, jestli je řeč o Lewisi Hamiltonovi, New Yorku, filmu Titanic nebo písničce od Beatles – model v každém případě používá stejný mechanismus pro rozpoznání známého od neznámého.
„Hackování“ vědomostí AI
Teď přichází ta nejzajímavější část: výzkumníci zjistili, že mohou s těmito „přepínači“ manipulovat! Když uměle zesílili signál „neznámé entity“ u jména, které AI dobře zná (například „LeBron James“), model najednou začal předstírat, že o něm nic neví a odmítl otázku zodpovědět.
A naopak, když zesílili signál „známé entity“ u vymyšleného jména, model začal sebevědomě vymýšlet fakta – tedy halucinovat. Například když se ho zeptali na neexistujícího sportovce „Wilsona Browna“, najednou věděl, kdy se „narodil“ a kde hrál.
Tohle zjištění má významné důsledky pro pochopení toho, proč AI modely někdy halucinují a jak by se tento problém dal řešit. Navíc to potvrzuje, že i když tyto modely nemají skutečné „vědomí“ v lidském slova smyslu, mají překvapivě složité mechanismy pro sledování svých vlastních znalostí.
Když se pozornost rozptýlí
Další zajímavé zjištění se týká toho, jak přesně tyto „přepínače vědomostí“ fungují. Ukazuje se, že ovlivňují takzvaný mechanismus pozornosti – klíčovou součást jazykových modelů.
Když model „ví“, že entitu zná, věnuje jí více pozornosti a aktivuje hlavy, které extrahují relevantní fakta. Naopak když signalizuje „tohle neznám“, pozornost se rozptýlí a deaktivují se mechanismy pro extrakci faktů.
Je to trochu jako když člověk narazí na známé jméno a ihned si začne vybavovat související informace. Zatímco u neznámého jména mysl nemá na co navázat a nemůže aktivovat přístup k relevantním vzpomínkám.
Co to znamená pro budoucnost AI?
Tyto objevy nám dávají lepší představu o tom, jak modely jako ChatGPT nebo Claude „uvažují“ a proč někdy selhávají. Také naznačují možné cesty, jak AI vylepšit, aby méně halucinovala a byla spolehlivější.
Výzkumníci dokonce našli v modelech i něco jako „detektor nejistoty“ – směry v neuronové síti, které dokážou předpovědět, kdy model pravděpodobně odpoví nesprávně. To by mohlo být využito pro systémy, které by automaticky varovaly, když si model není svou odpovědí jistý.
Jak je vidět, i když AI nemá skutečné lidské vědomí, má překvapivě sofistikované mechanismy pro sledování svých vlastních znalostí. Čím více takových mechanismů odhalíme a pochopíme, tím blíže budeme k AI, která bude méně halucinovat a více přiznávat své limity – přesně jako to dělají dobří lidští odborníci.
Často kladené otázky
Co to znamená, že AI halucinuje? Halucinací se v AI říká situace, kdy model sebevědomě tvrdí informace, které nejsou pravdivé – vymyslené citace, neexistující studie, fiktivní historické události. Není to „lhaní“ v lidském smyslu, model nemá záměr klamat, jen z pravděpodobnostních vzorců vygeneruje odpověď, která zní hodnověrně.
Jak poznám, že ChatGPT halucinuje? Spolehlivě nikdy. Halucinace jsou stylisticky nerozeznatelné od správných odpovědí, protože model je generuje stejným způsobem. Praktická pravidla: žádejte o zdroje, ověřujte konkrétní fakta (jména, čísla, citace) v jiném zdroji a buďte podezřívaví, když odpověď zní příliš hladce. U neznámých nebo vzácných entit modely halucinují víc než u známých.
Dá se halucinace úplně vyřešit? Zatím ne. Výzkum popsaný výše ukazuje, že modely v sobě mají něco jako „detektor nejistoty“ a v budoucnu by mohly samy varovat, když si nejsou jisté. Praktická opatření už existují – reasoning modely halucinují méně, RAG (napojení modelu na konkrétní zdroj jako interní dokumentaci) taky. Halucinace jsou ale součástí způsobu, jakým LLM fungují, ne bug, který by se dal opravit patchem.