Google intră în cursa roboților cu ochii pe umanoizi – Inteligența artificială Gemini revoluționează robotica

Google intră în cursa roboților cu ochii pe umanoizi – Inteligența artificială Gemini revoluționează robotica

În câteva cuvinte

Google intră în forță pe piața roboticii cu Gemini Robotics, un model AI avansat destinat roboților industriali și umanoizi. Scopul este de a crea roboți capabili să înțeleagă, să învețe și să acționeze în medii complexe, similari cu oamenii, marcând un pas important spre dezvoltarea de umanoizi inteligenți și adaptabili.


„Următorul mare salt al omenirii vor fi roboții umanoizi”

„Următorul mare salt al omenirii vor fi roboții umanoizi”, afirmă Rev Lebaredian, vicepreședinte Omniverse și Tehnologie de Simulare la gigantul informatic Nvidia. Rampa de lansare pentru acest salt, prevăzut ca unul dintre progresele disruptive din următorii ani, este deja aici, iar Google tocmai s-a alăturat cursei prin anunțarea Gemini Robotics, dezvoltarea modelului său de inteligență artificială (IA) pentru mașini, atât pentru roboți industriali, cât și pentru umanoizi. Google a pus acest model la dispoziția marilor companii din industrie, precum Apptronik, Agile Robots, Agility Robots, Boston Dynamics și Enchanted Tools, pentru a-l testa.

Până acum, roboții erau mecanisme articulate „oarbe și proaste”, așa cum descrie Lebaredian modelele vechi, concepute pentru a realiza sarcini repetitive, dar incapabile să învețe, să se dezvolte în scenarii necunoscute și să acționeze în consecință.

Pentru Dennis Hong, fondatorul RoMeLa, „viitorul este ca roboții să poată executa orice lucru pe care îl poate face un om”. Dar, pentru a acționa ca o persoană, au nevoie de un creier care să le permită să înțeleagă, să învețe, să perceapă și să acționeze. Și această minte este IA fundamentată pe modele lingvistice mari (LLM), inteligența artificială capabilă să dezvolte mașinile până la ultima lor expresie: androizii, roboții cu aspect și comportamente similare cu cele umane, capabili să se descurce într-o lume dezvoltată de și pentru oameni.

Roboții cu inteligența artificială de la Google nu demonstrează încă în testele de laborator abilități atât de complexe precum Figure 01, prototipul cel mai apropiat de humanoid pe care știința-ficțiune l-a anticipat și susținut de Open AI, Nvidia și Jeff Bezos, fondatorul Amazon.

Dar cei dotați cu Gemini Robotics se apropie foarte mult după schimbarea de direcție adoptată în 2024. „Anul trecut”, explică Carolina Parada, director de inginerie la Google DeepMind Robotics și de origine venezueleană, „am decis să acceptăm o nouă provocare și să ne concentrăm pe învățarea roboților să realizeze sarcini complexe de manipulare fină, cum ar fi cele pe care le facem când ne legăm șireturile la pantofi, pornind de la date din lumea reală și de simulare pentru a învăța”.

Din această provocare a apărut Gemini Robotics, modelul de IA destinat dezvoltării roboților de uz general (umanoizi). „Pentru asta, este nevoie să fie cu adevărat utili, să te înțeleagă, să înțeleagă lumea din jurul tău și, apoi, să fie capabili să acționeze în siguranță, interactiv și cu abilitate”, precizează Parada.

Robotic Transformer 2 (RT-2), model care utilizează IA de la Google pentru a aduce viziunea și limbajul la acțiune (VLA).

Google DeepMind

Testele de laborator prezentate, unde roboții, pe baza unor comenzi vocale, colectează și depozitează obiecte în recipiente specifice descrise doar prin culoarea lor și care își schimbă locul, pot părea simple, dar pentru un robot este foarte dificil. În acest sens, Kanisha Rao, colegul lui Parada la DeepMind, precizează că roboții „funcționează bine în scenarii pe care le-au experimentat înainte, dar eșuează în cele necunoscute”.

Astfel, explică Rao, în timpul testelor, mașinile au fost aduse în situații în care obiectele pe care trebuie să le identifice și să le manipuleze își schimbă culoarea, mediile se modifică, iar IA răspunde la ordine de acțiuni inedite pentru mașină sau despre obiecte pe care nu le cunoștea, cum ar fi aruncarea unei mingi de baschet de jucărie fără a fi știut înainte ce este acest sport.

Pentru a obține aceste abilități, explică Parada, IA robotului trebuie să înțeleagă limbajul natural, „să înțeleagă lumea fizică în detaliu” și, adaugă Vikas Sindhwani, cercetător științific în echipa de robotică de la Google DeepMind, să acționeze în siguranță prin „evaluări ale proprietăților scenei și consecințele realizării unei anumite acțiuni”.

Calea siguranței este încă deschisă. Sindhwani afirmă că au reușit ca roboții să aibă o „înțelegere” largă a acestui concept, pornind de la datele atât reale, cât și simulate, din care se alimentează IA lor, dar continuă să ajusteze pentru a „permite sarcini din ce în ce mai interactive și colaborative” fără riscuri și pentru a respecta cele trei reguli ale lui Isaac Asimov: un robot nu trebuie să dăuneze unui om prin acțiune sau omisiune; trebuie să se supună ordinelor umane, cu excepția cazului în care este în conflict cu prima lege; și trebuie să-și protejeze propria existență, cu excepția cazului în care intră în conflict cu prima sau a doua lege.

Mai multe informații

„Următorul mare salt este dezvoltarea umanoizilor și suntem foarte aproape”

Conceptul global al noului pas al Google către robotizare este transferul a ceea ce s-a realizat în lumea digitală, cu dezvoltarea de agenți (asistenți) din ce în ce mai sofisticați în mediul fizic. „În DeepMind, am făcut progrese în modul în care modelele noastre Gemini rezolvă probleme complexe prin raționament multimodal din texte, imagini, audio și videoclipuri. Până acum, însă, aceste abilități au fost limitate în mare măsură la domeniul digital. Pentru ca IA să fie utilă oamenilor în domeniul fizic, trebuie să demonstreze un raționament „întruchipat”, capacitatea umană de a înțelege și de a reacționa la lumea din jurul nostru”, explică Parada.

Cele două modele de IA de la Google pentru robotizare sunt VLA (viziune-limbaj-acțiune), construit pornind de la Gemini 2.0 și căruia i-au fost încorporate acțiuni fizice, și ER (embodied reasoning), cu abilități de raționament.

Aceste instrumente sunt calea către utilitatea reală, pe care Parada o rezumă: „Modelele de IA pentru robotică au nevoie de trei calități principale: trebuie să fie generale, adică să fie capabile să se adapteze la diferite situații; trebuie să fie interactive, ceea ce înseamnă că pot înțelege și răspunde rapid la instrucțiuni sau schimbări din mediul lor; și trebuie să aibă dexteritate, ceea ce înseamnă că pot face genul de lucruri pe care oamenii le pot face în general cu mâinile și degetele, cum ar fi manipularea obiectelor cu grijă”.

Read in other languages

Про автора

Elena este un jurnalist de investigație neobosit, ale cărei reportaje dezvăluie scheme de corupție la cele mai înalte niveluri ale puterii. Munca ei se distinge prin analiză profundă, colectarea minuțioasă a faptelor și curajul în acoperirea subiectelor controversate. Nu se oprește în fața întrebărilor incomode și duce investigațiile până la capăt, în ciuda posibilelor amenințări.