Titulky vytvořil JohnyX: Když AI slyší duchy

Představte si, že diktujete důležitý pracovní email do telefonu. Všechno jde skvěle, dokud se na konci vašeho textu neobjeví: „Titulky vytvořil JohnyX.“ Vítejte ve světě halucinací Whisperu, systému pro převod řeči na text od OpenAI, který pohání přepis řeči v tisících aplikací, od ChatGPT přes webové služby až po automatické titulkování videí.

Duchové v tichu

Pokud jste někdy používali hlasové funkce ChatGPT nebo aplikací založených na Whisperu, možná jste si všimli podivného jevu. Ve chvílích ticha nebo slabého šumu systém občas „slyší“ věci, které tam ve skutečnosti nejsou. Někdy je to nevinné „Titulky vytvořil JohnyX“, jindy mysteriózní odkazy na webové stránky jako „hamskey.com“ nebo „www.northstarit.co.uk“. A někdy se objeví i celé věty v různých jazycích, od ruštiny přes čínštinu až po latinu.

Někdy to může být opravdu bizarní. Představte si situaci: Diktujete něco do ChatGPT a Whisper vám do textu přidá halucinovaný odkaz na neexistující webovou stránku. ChatGPT se toho odkazu chytí a začne vám vysvětlovat, o čem ten web je. „Už jsem ten odkaz otevřel,“ tvrdí přesvědčivě, „je to blog o elektronice a DIY projektech.“ Když se ho zmateně zeptáte, o jakém odkazu vlastně mluví, s naprostou jistotou vám zopakuje adresu, kterou si jeho kamarád Whisper před chvílí vymyslel. Je to jako sledovat dva umělé mozky, jak si navzájem přihrávají své halucinace.

Teorie spiknutí vs. realita

Když se takový jev objeví, první reakcí mnoha uživatelů je znepokojení. Na Redditu a dalších diskuzních fórech se rojí teorie jedna za druhou. Jsme odposloucháváni? Zachytává mikrofon tajemné radiové signály? Komunikuje AI sama se sebou? Někteří uživatelé sdílejí až děsivé zkušenosti. Jeden popsal, jak mu systém generoval podivné texty, zatímco spal vedle telefonu. Technicky zdatnější uživatelé přicházejí s teorií o „bleedoveru“ – rušení z rádií a amatérských vysílaček. Dlouhé vodiče v elektronických zařízeních mohou fungovat jako improvizované antény a zachytávat signály na frekvencích 26–27 MHz, které pak pronikají do audio vstupu. Jiní spekulují o vlivu solárních cyklů na elektroniku nebo o skrytých funkcích v kódu AI.

Zvláště znepokojivá je konzistence těchto halucinací. Jak je možné, že uživatelé z různých kontinentů dostávají stejné odkazy na „hamskey.com“? Proč se opakují určité fráze v různých jazycích? A proč systém někdy generuje souvislé, smysluplné konverzace, i když nikdo nemluví?

Když se AI učí z YouTube

Realita je prozaičtější, ale neméně zajímavá. OpenAI otevřeně přiznává, že Whisper byl trénován na masivním datasetu – konkrétně na 680 000 hodinách audio nahrávek z internetu. Z toho 65% tvoří anglický obsah, 18% jsou cizojazyčné nahrávky s anglickými přepisy a zbylých 17% jsou nahrávky v 98 různých jazycích s odpovídajícími přepisy.

Velkou část těchto dat tvořila videa s titulky. A zde začíná náš příběh dávat smysl. Model se během tréninku naučil, že při závěrečném tichu bývají v titulkách často určité fráze – například poděkování za zhlédnutí videa, nebo odkaz na webovou stránku tvůrce. Je to jako dítě, které se naučilo básničky z knížky a na konci každé z nich důsledně recituje „Ilustrace Jana Nováková", protože to tak přece v té knížce bylo.

Proto Whisper, když je na konci záznamu ticho, nedokáže se ubránit nutkání připojit tam poděkování :-)

Malé jazyky, velké problémy

Komunita vývojářů nezahálí. Vznikají různé nástroje jako WhisperHallu, které se snaží problém řešit předzpracováním zvuku – odstraněním ticha, normalizací hlasitosti a dalšími technikami. Někteří nadšenci dokonce vytvářejí seznamy známých halucinací, které lze pak z výstupu filtrovat.

OpenAI v dokumentaci uznává, že Whisper může občas „halucinovat“ – tedy generovat text, který ve skutečnosti nebyl vysloven. Specifický problém s generováním titulků a odkazů však zatím oficiálně neadresovala. Ba co hůř. Od svého uvedení v září 2022 prošel Whisper několika verzemi. A v nejnovější se objevil paradoxní problém: u některých jazyků se halucinace zhoršily. Co se stalo?

Představte si, že učíte umělou inteligenci přepisovat řeč v různých jazycích. Pro angličtinu máte spoustu kvalitních nahrávek s přesnými přepisy – třeba z audiofilmů nebo podcastů. Ale co s jazyky jako čeština nebo maďarština, kde materiálů moc není?

OpenAI to vyřešila zajímavým, ale riskantním způsobem: Vzali starší verzi Whisperu a nechali ji přepsat velké množství nahrávek v těchto „malých“ jazycích. Tyto automatické přepisy pak použili jako trénovací data pro novou verzi. Je to jako kdybyste učili nového asistenta tím, že mu dáte přečíst poznámky starého asistenta – včetně všech jeho chyb a zlozvyků. Výsledek? Všechny ty podivné halucinace, které měla stará verze, se nová verze „naučila“ ještě důkladněji.

A co na to JohnyX?

Příště, až vám Whisper na konci tiché nahrávky poděkuje za sledování nebo vám ChatGPT začne vysvětlovat obsah neexistující webové stránky, vzpomeňte si, že nejde o žádné spiknutí ani paranormální jev – jen o AI systém, který se až příliš dobře naučil napodobovat závěrečné titulky z YouTube.