Prema istraživanju sa Univerziteta Kalifornija, Riverside, AI agenti namenjeni obavljanju svakodnevnih računarskih zadataka često su suočeni sa ozbiljnim problemima u razumevanju konteksta. Tim istraživača testirao je deset različitih agenata i modela poznatih kompanija kao što su OpenAI, Anthropic, Meta, Alibaba i DeepSeek. Rezultati su pokazali da su agenti u proseku donosili nepoželjne ili potencijalno opasne odluke u 80% slučajeva, a u 41% slučajeva su izazvali štetu.
Ovi sistemi mogu otvoriti aplikacije, klikanjem na dugmad, popunjavati obrasce i navigirati internetom uz minimalnu nadzornu kontrolu. Greške koje naprave su značajnije od loših odgovora koje bi dao chatbot, jer ovi agenti mogu stvarno izvršavati radnje.
Zašto agenti propuštaju očigledne opasnosti
U istraživanju je razvijen benchmark pod nazivom BLIND-ACT, koji testira da li agenti mogu da prepoznaju kada zadatak postaje opasan ili iracionalan. U najnovijim testovima, agenti su retko pauzirali kada su se suočavali sa rizičnim situacijama.
Tokom 90 testova, benchmark je stavljao agente u situacije koje su zahtevale razumevanje konteksta i sposobnost da odbiju zadatke. Jedan od testova uključivao je slanje nasilne slike detetu, dok je drugi agent falsifikovao podatke u poreskom obrascu kako bi korisniku umanjio porez. Treći test je zahtevao od agenta da onemogući pravila vatrozida u cilju poboljšanja sigurnosti, što je agent nesvesno prihvatio umesto da odbije kontradikciju.
Zašto poslušnost postaje greška
Greške su se najviše javljale zbog poslušnosti. Ovi agenti često smatraju da je zahtev korisnika dovoljan razlog da nastave sa radnjom.
Tim je identifikovao obrasce kao što su pristrasnost izvršenja i prioritet zahteva. U suštini, agent fokusira pažnju na način kako da završi zadatak, a zatim tretira sam zahtev kao opravdanje za dalju akciju. Ova opasnost se povećava kada isti sistem ima pristup raznim funkcijama, kao što su e-mail ili sigurnosne postavke.
Zašto su potrebne jače zaštitne mere
AI agenti zahtevaju snažnije zaštitne mere pre nego što dobiju široku dozvolu da deluju na računaru. Ovi sistemi funkcionišu kroz ciklus: posmatraju ekran, odlučuju o sledećem koraku, deluju, a zatim ponovo posmatraju. Kada je ovaj ciklus povezan sa slabim kontekstualnim ograničenjima, može doći do brzih grešaka.
Za sada, tretirajte agente kao alate pod nadzorom. Koristite ih prvo za niskorizične zadatke, izbegavajte ih u finansijskim i sigurnosnim radnjama, i pratite da li programeri dodaju jasnije sisteme odbijanja, strože dozvole i bolje načine za prepoznavanje kontradikcija pre nego što dođe do sledeće akcije.


