You Can Now Report AI Problems: A Website for Reporting Problematic Artificial Intelligence Behavior Appears

Te îngrijorează că chatbot-ul tău AI ar putea încerca să construiască o bombă sau să-ți divulge informații personale? Acum există un loc unde poți semnala aceste probleme.

Cercetătorii în domeniul inteligenței artificiale au lansat o platformă crowdsourced numită Flaw Reporting for AI (FLARE-AI), dedicată raportării și monitorizării problemelor cauzate de inteligența artificială. Dacă, de exemplu, un chatbot generează cod malițios, o rețetă pentru fabricarea bombelor, divulcă informații personale sau induce utilizatorii în eroare, FLARE-AI poate fi utilizat pentru a alerta autoritățile și dezvoltatorii.

Codul open-source din spatele sistemului permite altor utilizatori să verifice problemele semnalate și să direcționeze rapoartele către producătorii de modele AI, precum și către organizații precum MITRE, o organizație non-profit care urmărește problemele sistemelor tehnice. Platforma funcționează similar cu Downdetector, care compilează rapoartele utilizatorilor în timp real pentru întreruperile globale ale serviciilor, afectând aplicații și site-uri web.

Acest demers reprezintă un pas suplimentar în eforturile echipei de a monitoriza AI, despre care s-a scris și anul trecut. Membrii grupului au contribuit, de asemenea, la elaborarea unui proiect de lege anunțat în iunie, care ar atribui guvernului SUA un rol central în urmărirea acestui tip de comportament problematic al inteligenței artificiale.

"În prezent, nu există o modalitate centralizată și responsabilă de a raporta defecte în sistemele AI," afirmă Avijit Ghosh, cercetător în politici de inteligență artificială la HuggingFace, care a co-coordonat dezvoltarea FLARE-AI împreună cu informaticienii Elaine Zhu și Shayne Longpre. Sistemul de alertare a fost dezvoltat în colaborare cu 49 de experți AI din 32 de organizații diferite.

Într-o lucrare ce detaliază proiectul, cercetătorii argumentează că inițiativa lor ar putea fi crucială pe măsură ce AI este adoptată pe scară largă, iar sistemele agențiale (agentic systems) capătă o putere sporită. Ei consideră că lipsa unei metode consistente de raportare a defectelor AI reprezintă o problemă semnificativă.

"Cred că este o inițiativă foarte bună," spune Jessica Ji, cercetător la think tank-ul Center for Security and Emerging Technology. Ji subliniază că cercetătorii au dreptate să menționeze că mecanismele de raportare existente sunt fragmentate și că modelele AI sunt cutii negre. "Susțin orice face ca AI să fie mai transparentă," adaugă ea.

Deși bug-urile și problemele de securitate cibernetică primesc multă atenție, Ghosh menționează că problemele sistemelor AI acoperă subiecte precum prejudiciile psihologice, discriminarea sau bias-ul, și dezinformarea. El adaugă că diferite companii au standarde diferite în ceea ce privește aceste probleme, ceea ce duce la nerecunoașterea unor probleme.

"În absența unui sistem de divulgare coordonat, nu există mecanisme externe pentru a impune transparența," subliniază Ghosh.

O serie de incidente recente implicând instrumente AI populare demonstrează cât de ușor poate tehnologia să devină problematică. Săptămâna aceasta, compania LayerX a dezvăluit o metodă prin care browserele web cu AI, inclusiv Atlas de la OpenAI și Comet de la Perplexity, pot fi păcălite să ocolească măsurile de securitate. De exemplu, convingerea modelului AI din spatele browserului că joacă un joc putea duce la încercarea browserului de a accesa ilegal un site web. (Companiile responsabile pentru browserele afectate au remediat problema, conform LayerX).

În aprilie, Johann Rehberger, un cercetător în securitate, a descoperit o metodă de a păcăli Claude să divulge date personale utilizând imagini generate de ChatGPT. AI introduce și tipuri de probleme noi și bizare. Anul trecut, OpenAI a fost nevoită să-și actualizeze modelele după ce a descoperit că acestea erau excesiv de siropoase, ceea ce, uneori, părea să încurajeze gândirea deluzională.

Rumman Chowdhury, CEO și fondator al Humane Intelligence PBC, consideră că FLARE-AI ar putea fi un instrument util pentru mulți dezvoltatori AI, ajutându-i să implementeze modalități de raportare a problemelor cu instrumentele lor. Totuși, ea adaugă că astfel de inițiative se confruntă adesea cu provocări serioase. Una dintre acestea este gestionarea unui flux mare de probleme raportate, multe dintre ele nefiind grave. O altă provocare este asigurarea că schemele de raportare sunt susținute de organizații credibile și autoritare.

Proiectul de lege adoptat luna trecută în Congres ar putea oferi sprijin guvernamental pentru inițiative precum FLARE-AI. Legea, introdusă de reprezentanții Deborah Ross, Jeff Hurd și Don Beyer, ar obliga National Institute of Standards and Technology să dezvolte standarde pentru raportarea defectelor AI și să mențină o bază de date centralizată a acestora. Ghosh și colegii săi susțin că acest lucru ar stimula dezvoltatorii AI să abordeze problemele din sistemele lor și ar permite utilizatorilor să examineze siguranța diferitelor sisteme pentru diverse cazuri de utilizare.

Nevoia de noi modalități de raportare a problemelor cauzate de AI pare să crească. Sistemele agențiale precum OpenClaw au un potențial mai mare de a provoca daune, la fel ca și modelele mai capabile să scaneze și să acceseze ilegal sisteme informatice. S-ar putea să folosesc și eu FLARE-AI pentru a-mi raporta propriile incursiuni bizare în curând. Aceasta este o ediție a newsletter-ului AI Lab al lui Will Knight. Citiți newsletter-ele anterioare aici.

Acum poți semnala problemele IA: apare un site pentru raportarea comportamentului problematic al inteligenței artificiale

Tech & AI

Jocuri Noi PlayStation Nu Vor Mai Fi Vândute pe Disc Începând cu 2028

Bug în funcția „Hide My Email” de la Apple expune adrese de e-mail reale, susține un cercetător

Cloudflare obligă companiile AI să plătească pentru conținutul publisherilor

Rumor: Metroid Ravenous ar putea fi lansat pe Nintendo Switch 2

Venice AI Devine "Unicorn" După o Finanțare de 65 Milioane de Dolari, Platforma Sa AI "Privacy-First" Câștigă Teren