Jak oklamat umělou inteligenci (Adversarial útoky na neuronové sítě)

Poslouchejte článek

Představte si, že stojíte před dvěma obrazy. První vypadá jako abstraktní změť barevných skvrn, ve které nevidíte nic konkrétního. Druhý je fotografie psa, kterou byste mohli klidně najít ve svém rodinném albu. Ale vedle vás stojí superinteligentní mimozemšťan a s naprostou jistotou prohlásí o prvním obraze: „To je zebra!“ a o druhém: „To je nepochybně lednice!“

Bizarní situace, že? Přesně tohle se ale děje v světě umělé inteligence. Systémy, které dokáží rozpoznávat objekty na fotkách lépe než průměrný člověk, lze překvapivě snadno oklamat obrázky, které pro nás vypadají buď jako náhodný šum, nebo jako úplně jiné objekty.

Tohle není jen akademická hříčka. Vezměte si bezpečnostní systém, který používá rozpoznávání obličejů. Co když ho někdo oklame tak, že v náhodném vzoru „uvidí“ tvář ředitele firmy a pustí útočníka dovnitř? Nebo autonomní auto, které si splete pečlivě upravený billboard s dopravní značkou a prudce zabrzdí? Tohle téma má dalekosáhlé důsledky pro bezpečnost a spolehlivost AI systémů v reálném světě.

Jak je to vůbec možné?

Lidské vidění a rozpoznávání obrazů funguje velmi odlišně od toho, jak to dělají neuronové sítě. My, lidé, máme intuitivní pochopení světa a schopnost rozpoznávat obrazy v kontextu. Když vidíme obrázek, automaticky ho zasazujeme do širšího rámce našich zkušeností a znalostí. Neuronové sítě tuto výhodu nemají. Spoléhají se čistě na statistické rysy a vzory v datech bez vyšší úrovně porozumění. To znamená, že neuronová síť může přiřadit vysokou důvěru obrazu, který je pro člověka nesmyslný, protože jí chybí schopnost chápat obsah obrazu jako celek.

Jak zjednodušeně fungují neuronové sítě pro rozpoznávání obrazů? Představte si, že učíte mimozemšťana rozpoznávat pozemské objekty. Ukážete mu miliony fotek a řeknete: „Tohle je kočka, tohle je pes, tohle je zebra.“ Neuronová síť se během tohoto procesu učí hledat určité vzory a příznaky. U zebry to můžou být černobílé pruhy, čtyři nohy, tvar těla podobný koni. Když pak síť dostane nový obrázek, hledá v něm tyto naučené příznaky. Čím víc jich najde, tím je si jistější svým rozhodnutím.

A tady je háček. Neuronová síť neuvažuje jako člověk. Nehledá celkový smysl obrázku, ale jen specifické příznaky. A to je přesně to, co lze zneužít. Pojďme se podívat na tři hlavní důvody, proč jsou neuronové sítě tak zranitelné:

Přecitlivělost na skryté vzory: Představte si, že máte kamaráda, který je posedlý detaily. Pokaždé, když vidí červenou tečku, vykřikne „Jahoda!“. Neuronové sítě jsou podobně přecitlivělé. Naučí se rozpoznávat velmi jemné vzory, které mohou být pro lidské oko zcela neviditelné. Takže zatímco vy vidíte abstraktní čmáranici, síť v ní může „vidět“ dokonalou zebru.
Ztráta kontextu: Když se díváte na obraz, automaticky ho zasazujete do kontextu celého světa. Neuronová síť tohle neumí. Je jako člověk, který se dívá na svět přes klíčovou dírku – vidí jen malé kousky reality, ne celý obraz. Takže i když najde pár „zebřích“ příznaků v náhodném šumu, může si být jistá, že vidí zebru, protože jí chybí širší kontext.
Přetrénování na steroidech: Představte si studenta, který se učí na test tak usilovně, že začne vidět testové otázky všude kolem sebe. Neuronové sítě mohou trpět podobným problémem. Jsou tak intenzivně optimalizovány na trénovacích datech, že se stanou přecitlivělými na sebemenší náznaky známých vzorů. To může vést k tomu, že „vidí“ objekty i tam, kde ve skutečnosti nejsou.

Jak tedy oklamat AI?

Existuje několik triků, jak neuronové sítě oklamat:

Klamavé obrazy (fooling images): Tato metoda spočívá v tom, že vezmete náhodný obraz (například náhodný šum) a upravujete jeho pixely pomocí algoritmu zpětného šíření chyby. Tento algoritmus hledá směry, jak změnit obraz tak, aby síť s co nejvyšší jistotou rozpoznala specifický objekt – třeba zebru. Přestože výsledný obraz bude pro člověka vypadat jako náhodná změť čar (nebo moderní umění), síť jej bude klasifikovat jako „zebra“ s naprostou jistotou. Využívá se zde toho, že síť rozpoznává jednotlivé rysy (např. pruhy), které jsou pro ni klíčové, a ignoruje celkový smysl obrazu.
Adversariální příklady: Vezmete třeba fotku psa a přidáte k ní téměř neviditelný šum. Pro člověka to bude stále pes, pro psa taky, ale neuronová síť jej může začít rozpoznávat jako zcela jiný objekt, například ledničku. Tento šum je vypočítán tak, aby maximálně narušil vzory, které neuronová síť používá k rozpoznání správného objektu. Důvod, proč to funguje, je v tom, že neuronové sítě pracují v mnohem vyšší dimenzi prostoru, než naše smysly – malé změny mohou způsobit velký posun v jejím rozhodovacím procesu.

V čem je to nebezpečné?

Schopnost oklamat systémy AI pro rozpoznávání obrazů přináší řadu vážných rizik. Kromě zřejmých bezpečnostních hrozeb, jako je obcházení biometrických kontrol, existují i subtilnější nebezpečí. Představte si manipulaci s výsledky vyhledávání pomocí obrázků, které algoritmy interpretují jinak než lidé. To by mohlo vést k masivnímu ovlivňování toho, co vidíme online.

Další problém je ztráta důvěry veřejnosti v AI technologie. Pokud se ukáže, že systémy, kterým svěřujeme stále více zodpovědnosti, lze takto snadno oklamat, může to vést k oprávněným obavám o jejich spolehlivost.

V kritických aplikacích, jako je zdravotnictví nebo autonomní řízení, by chybná interpretace vstupních dat mohla mít katastrofální následky. Představte si AI, která špatně interpretuje rentgenový snímek, nebo autonomní vozidlo, které nesprávně vyhodnotí dopravní situaci.

Co s tím můžeme dělat?

Výzkumníci intenzivně pracují na řešení tohoto problému. Jedním z přístupů je trénink AI na „klamavých“ obrázcích, což se ale ukazuje jako nedostatečné řešení. Slibnější jsou snahy o vývoj robustnějších architektur neuronových sítí, které by měly být odolnější vůči těmto útokům.

Další nadějný směr je kombinace různých přístupů – například použití více modelů současně nebo spojení neuronových sítí s klasickými metodami rozpoznávání obrazu.

Klíčem k dlouhodobému řešení je ale hlubší pochopení fungování samotné umělé inteligence. Čím lépe budeme rozumět tomu, jak neuronové sítě „uvažují“, tím lépe budeme moci předcházet těmto problémům a vytvářet skutečně spolehlivé a bezpečné AI systémy.

A co dál?

Schopnost oklamat systémy umělé inteligence pro rozpoznávání obrazů nám ukazuje, že i když jsou tyto systémy v mnohém úžasné, stále fungují fundamentálně jinak než lidský mozek. Je to fascinující oblast výzkumu, která nám může pomoci lépe pochopit nejen umělou, ale i lidskou inteligenci.

„Čím víc toho víme o tom, jak lze umělou inteligenci oklamat, tím víc se dozvídáme o tom, jak funguje lidská inteligence.“ – možná řekl nějaký chytrý člověk, ale spíš jsem si to právě vymyslel.

Studie: Deep neural networks are easily fooled: High confidence predictions for unrecognizable images a Subtle adversarial image manipulations influence both human and machine perception

Nechceš propást nové články? Můžeš sledovat RSS (ok, boomer), poslouchat blog jako 🎙 podcast️ nebo odebírat 📧 emailem. Vyber si!