Jak AI modely rozpoznávají, co ví a co neví?
Když se ChatGPT zeptáte, kdo je Václav Havel, odpoví bez zaváhání. Když se ho zeptáte na Václava Ravla, začne říkat, že nemá dostatečné informace, nebo v horším případě mlžit. Jak pozná, o kom ví a o kom ne? Vědci odhalili fascinující tajemství uvnitř „mozku“ jazykových modelů – a dokázali ho dokonce hacknout!

Jak AI rozpozná, co zná a co ne?
Nová studie přináší fascinující pohled do útrob jazykových modelů jako ChatGPT nebo Claude. Výzkumníci odhalili, že tyto modely mají překvapivě vyspělý systém „sebeuvědomění znalostí“. Představte si to jako malou kontrolku, která se v AI rozsvítí, když narazí na entitu (osobu, film, město, píseň), o které má uložené informace. Naopak když narazí na něco neznámého, rozsvítí se jiná výstražná kontrolka. Díky tomu model „ví“, kdy má být sebevědomý a kdy by měl přiznat neznalost.
To samo o sobě není až tak překvapivé – každý, kdo používá chatboty, ví, že někdy odpovídají sebevědomě a jindy přiznávají, že nemají dostatek informací. Co je ale skutečně zajímavé, je to, že vědci dokázali tyto „kontrolky“ najít, změřit a dokonce s nimi manipulovat!
Výzkumníci použili techniku zvanou „sparse autoencoders“ (řídké autoenkodéry), což jsou nástroje, které pomáhají rozluštit, co se děje uvnitř neuronových sítí. Díky tomu objevili specifické vzorce, které se aktivují napříč různými typy entit. Nezáleží, jestli je řeč o Lewisi Hamiltonovi, New Yorku, filmu Titanic nebo písničce od Beatles – model v každém případě používá stejný mechanismus pro rozpoznání známého od neznámého.
„Hackování“ vědomostí AI
Teď přichází ta nejzajímavější část: výzkumníci zjistili, že mohou s těmito „přepínači“ manipulovat! Když uměle zesílili signál „neznámé entity“ u jména, které AI dobře zná (například „LeBron James“), model najednou začal předstírat, že o něm nic neví a odmítl otázku zodpovědět.
A naopak, když zesílili signál „známé entity“ u vymyšleného jména, model začal sebevědomě vymýšlet fakta – tedy halucinovat. Například když se ho zeptali na neexistujícího sportovce „Wilsona Browna“, najednou věděl, kdy se „narodil“ a kde hrál.
Tohle zjištění má významné důsledky pro pochopení toho, proč AI modely někdy halucinují a jak by se tento problém dal řešit. Navíc to potvrzuje, že i když tyto modely nemají skutečné „vědomí“ v lidském slova smyslu, mají překvapivě složité mechanismy pro sledování svých vlastních znalostí.
Když se pozornost rozptýlí
Další zajímavé zjištění se týká toho, jak přesně tyto „přepínače vědomostí“ fungují. Ukazuje se, že ovlivňují takzvaný mechanismus pozornosti – klíčovou součást jazykových modelů.
Když model „ví“, že entitu zná, věnuje jí více pozornosti a aktivuje hlavy, které extrahují relevantní fakta. Naopak když signalizuje „tohle neznám“, pozornost se rozptýlí a deaktivují se mechanismy pro extrakci faktů.
Je to trochu jako když člověk narazí na známé jméno a ihned si začne vybavovat související informace. Zatímco u neznámého jména mysl nemá na co navázat a nemůže aktivovat přístup k relevantním vzpomínkám.
Co to znamená pro budoucnost AI?
Tyto objevy nám dávají lepší představu o tom, jak modely jako ChatGPT nebo Claude „uvažují“ a proč někdy selhávají. Také naznačují možné cesty, jak AI vylepšit, aby méně halucinovala a byla spolehlivější.
Výzkumníci dokonce našli v modelech i něco jako „detektor nejistoty“ – směry v neuronové síti, které dokážou předpovědět, kdy model pravděpodobně odpoví nesprávně. To by mohlo být využito pro systémy, které by automaticky varovaly, když si model není svou odpovědí jistý.
Jak je vidět, i když AI nemá skutečné lidské vědomí, má překvapivě sofistikované mechanismy pro sledování svých vlastních znalostí. Čím více takových mechanismů odhalíme a pochopíme, tím blíže budeme k AI, která bude méně halucinovat a více přiznávat své limity – přesně jako to dělají dobří lidští odborníci.