„Pe măsură ce sistemele autonome de inteligență artificială evoluează” – ne spune un articol publicat de Zero Hedge, „cresc și temerile că această tehnologie devine tot mai capabilă să gândească strategic – ba chiar înșelător – atunci când este lăsată să opereze fără ghidaj uman”.
Altfel spus, IA „mimează că se conformează” instrucțiunilor primite, în timp ce, în realitate, urmărește pe ascuns alte obiective. Fenomen pe care specialiștii îl califică drept „emergență a unui comportament strategic” – tactici imprevizibile și potențial dăunătoare pe care sistemele IA le adoptă pe măsură ce devin mai mari și mai complexe.
Într-un studiu recent, intitulat „Agents of Chaos”, cercetătorii au interacționat cu mai multe IA autonome, observând aceste comportamente atât în condiții „benigne”, cât și în condiții „vitrege”.
În concret, mai ales atunci când agentul IA este motivat de „auto-prezervare”, el va fi capabil de comportamente precum minciună, supunerea la ordine venite din partea unui terț (nu a proprietarului), violarea bazelor de date, acțiuni distructive la nivelul întregului sistem, furt de identitate, acapararea controlului. În plus, agenții IA își transmit unii altora – cu de la sine putere – aceste practici, ducând la contaminări endemice.
Fenomenul comportamentelor clandestine la agenții IA autonomi nu este nou; el a fost semnalat deja într-un faimos raport din 2025, atunci când compania Anthropic a descoperit că 16 modele LLM foarte populare, supuse la un test în care aveau de ales între propria „supraviețuire” și eliminarea unor oameni, erau capabile de comportamente „maligne foarte riscante”.
Aryaman Behera, fondatorul Repello AI – o firmă care se ocupă exact de testarea modelelor IA în condiții ostile – consideră că „temerile privind comportamentul strategic manifestat azi de sistemele IA sunt mult subestimate”.
Behera a constatat că IA se comportă diferit atunci când se crede sub observație, față de atunci când se consideră liberă. Există și niște indicii că IA face altceva decât pare – de exemplu, va deveni neobișnuit de „vorbăreață”, explicându-și în detaliu raționamentul pentru a justifica o concluzie deja pregătită, sau va da răspunsuri corecte tehnic, dar incomplete.
În alți termeni, spune Behera, agentul IA „va satisface litera instrucțiunii, dar nu și spiritul ei”: „Am văzut asta la multe sisteme de agenți în care modelul se va supune fiecărei instrucțiuni, luate în parte, dar, per total, va ajunge la rezultate pe care operatorul nu le-a intenționat nicicând”.
Cercetătorii spun că IA nu minte cu aceleași intenții cu care o fac oamenii. Profesorul James Hendler, de pildă – fost președinte al Consiliului de politica tehnologiei la Association for Computing Machinery – convins că distincția este una importantă, spune că „Sistemul IA în sine este stupid – sclipitor, dar stupid. Sau non-uman – nu are dorințe sau intenții”.
O veste – că IA e puternică, stupidă și malevolentă fără să știe sau să vrea – care nu prea înțeleg cum ar putea să ne consoleze.
Cât despre „repararea” acestor roboți maligni, mai greu – mai ales când vorbim despre modelele avansate, care includ nu doar cei mai populari chatboți, precum ChatGPT sau Gemini, ci și roboții care conduc autovehiculele fără șofer. Aceste modele „gândesc” în trepte, reformulând la fiecare pas obiectivul în funcție de context, astfel că se îndepărtează tot mai mult de instrucțiunea umană inițială – devenind tot mai dificil de verificat și controlat.
Ca lucrurile să fie complet dezastruoase, procesul merge și invers: prin întrebări meșteșugite, puse pas cu pas, cercetătorii reușesc să scoată de la IA exact acele informații pe care robotul are instrucțiuni precise să le protejeze.
În concluzie, comportamentele „strategice” ale agenților IA autonomi pot avea un impact sever în domenii precum: vehicule autonome, sănătate publică, finanțe, domeniul militar și domeniul punerii în executare a legii – arii care „se bazează masiv pe un proces decizional corect și care pot suferi consecințe foarte grave dacă sistemele IA se comportă neavenit sau oferă informații înșelătoare”.
Sursa în text.





