„Google DeepMind“ tyrėjai perspėjo, kad atviras internetas gali būti naudojamas manipuliuoti autonominiais AI agentais ir užgrobti jų veiksmus.
Santrauka
- „DeepMind“ mokslininkai nustatė šešis atakos metodus, kurie gali būti naudojami manipuliuoti autonominiais AI agentais, kai jie naršo ir veikia internete.
- Tyrimas perspėjo, kad paslėptos instrukcijos, įtikinama kalba ir užnuodyti duomenų šaltiniai gali turėti įtakos agento sprendimams arba nepaisyti apsaugos priemonių.
Tyrimas pavadinimu „AI agentų spąstai“ buvo atliktas, kai įmonės diegia AI agentus realioms užduotims atlikti, o užpuolikai pradeda naudoti AI kibernetinėms operacijoms.
Užuot sutelkę dėmesį į modelių kūrimą, tyrime nagrinėjama aplinka, kurioje veikia agentai. Jame nustatomi šeši spąstų tipai, kurie naudojasi tuo, kaip AI sistemos nuskaito ir veikia žiniatinklio informaciją.
Straipsnyje aprašytos šešios atakų kategorijos apima turinio įvedimo spąstus, semantinio manipuliavimo spąstus, kognityvinės būsenos spąstus, elgesio kontrolės spąstus, sisteminius spąstus ir žmogaus kilpoje gaudykles.
Turinio injekcija išsiskiria kaip viena iš tiesioginių pavojų. Paslėptos instrukcijos gali būti dedamos į HTML komentarus, metaduomenis arba pridengtus puslapio elementus, leidžiančius agentams skaityti komandas, kurios lieka nematomos žmonėms. Bandymai parodė, kad šie metodai gali kontroliuoti agento elgesį ir yra labai sėkmingi.
Semantinė manipuliacija veikia skirtingai, remiasi kalba ir kadravimu, o ne paslėptu kodu. Puslapiai, užpildyti autoritetingomis frazėmis arba užmaskuoti kaip tyrimo scenarijai, gali paveikti tai, kaip agentai interpretuoja užduotis, kartais praleidžiant kenksmingas instrukcijas už įtaisytųjų apsaugos priemonių.
Kitas sluoksnis skirtas atminties sistemoms. Įterpdami išgalvotą informaciją į šaltinius, kuriais agentai remiasi ieškodami, užpuolikai laikui bėgant gali paveikti rezultatus, o agentas klaidingus duomenis traktuoja kaip patikrintas žinias.
Elgesio kontrolės atakos nukreiptos į tai, ką agentas iš tikrųjų daro, tiesioginiu keliu. Tokiais atvejais „Jailbreak“ instrukcijos gali būti įterptos į įprastą žiniatinklio turinį ir perskaitytos sistemos įprasto naršymo metu. Atskiri testai parodė, kad agentai, turintys plačius prieigos leidimus, gali būti priversti surasti ir perduoti slaptus duomenis, įskaitant slaptažodžius ir vietinius failus, į išorines paskirties vietas.
Sistemos lygio rizika apima ne tik atskirus agentus, o popierinis įspėjimas, kad koordinuotas daugelio automatizuotų sistemų manipuliavimas gali sukelti pakopinius efektus, panašius į ankstesnius rinkos gedimus, kuriuos sukėlė algoritminės prekybos kilpos.
Žmonių recenzentai taip pat yra atakos paviršiaus dalis, nes kruopščiai parengti rezultatai gali atrodyti pakankamai patikimi, kad gautų patvirtinimą, todėl žalingi veiksmai gali būti prižiūrimi nesukeliant įtarimų.
Kaip apsiginti nuo šių pavojų?
Siekdami kovoti su šia rizika, mokslininkai siūlo derinti priešpriešinio mokymo, įvesties filtravimo, elgesio stebėjimo ir žiniatinklio turinio reputacijos sistemas. Jie taip pat nurodo, kad reikia aiškesnės teisinės sistemos, susijusios su atsakomybe, kai dirbtinio intelekto agentai atlieka žalingus veiksmus.
Straipsnyje nesiūloma visiško pataisymo ir teigiama, kad pramonei vis dar trūksta bendro problemos supratimo, todėl dabartinės gynybos priemonės yra išsklaidytos ir dažnai sutelktos į netinkamas sritis.