Prošlo je gotovo dve godine otkako je izvršni direktor Microsofta, Satya Nadella, predvideo da će generativna veštačka inteligencija preuzeti znanje radnika. Ipak, kada posmatrate tipičnu advokatsku kancelariju ili investicionu banku danas, ljudski radnici još uvek dominiraju. Unatoč brojnim najavama o „razmišljanju“ i „planiranju“, nova studija kompanije Mercor objašnjava zašto je revolucija robota usporena: veštačka inteligencija jednostavno ne može da se nosi sa složenošću stvarnog rada.
Proveravanje realnosti teorije o „zamenjivanju“
Mercor je objavio novi referentni test pod nazivom APEX-Agents, koji je veoma rigorozan. Za razliku od uobičajenih testova koji traže od veštačke inteligencije da napiše pesmu ili reši matematički problem, ovaj test koristi stvarne upite od advokata, konsultanta i bankara. Od modela se zahteva da izvrše kompleksne, višestepene zadatke koji zahtevaju prebacivanje između različitih vrsta informacija.
Rezultati? Čak i najbolji modeli na tržištu—poput Gemini 3 Flash i GPT-5.2—nisu mogli postići tačnost veću od 25%. Gemini je prednjačio sa 24%, dok je GPT-5.2 bio blizu sa 23%. Većina drugih modela bila je na nivou od samo nekoliko procenata.
Zašto veštačka inteligencija ne uspeva na „kancelarijskom testu“
Brendan Foody, izvršni direktor Mercora, ističe da problem nije u sirovoj inteligenciji, već u kontekstu. U stvarnom svetu, odgovori nisu dostupni na tanjiru. Advokat mora da proveri Slack razgovor, pročita PDF dokument, pogleda tabelu u Excelu, a zatim sve to sintetizuje kako bi odgovorio na pitanje o usklađenosti sa GDPR-om.
Ljudi prirodno prebacuju kontekst. Veštačka inteligencija, pokazalo se, nije dobra u tome. Kada se prisili da traži informacije na „raspršenim“ izvorima, često se zbuni, daje pogrešne odgovore ili se jednostavno predaje.
„Nepouzdani pripravnik“
Za sve one koji se brinu o bezbednosti svog posla, ovo može biti olakšanje. Studija sugeriše da trenutno veštačka inteligencija funkcioniše manje kao iskusni profesionalac, a više kao nepouzdani pripravnik koji ispravno odgovara samo na svaka četvrta pitanja.
Ipak, napredak je zastrašujuće brz. Foody je primetio da su pre samo godinu dana ovi modeli postizali rezultate između 5% i 10%. Sada su dostigli 24%. Dakle, iako nisu spremni da preuzmu kontrolu, uče da upravljaju brže nego što smo očekivali. Za sada, revolucija „znanja radnika“ je na čekanju dok botovi ne nauče kako da multitaskuju.
