OpenAI a lansat Sora, o aplicație de inteligență artificială text-to-video atât de puternică, încât l-a „îngrozit” pe un expert în AI care a testat-o. „Construim acest avion în timp ce îl pilotăm” (2024)

Foto: Costfoto / ddp USA / Profimedia

Reușind să stăpânească limbajul (de la cuvinte la imagini și până la sunete) precum oamenii sau mai bine decât ei, Inteligența Artificială (AI) a obținut cheia pentru instituțiile fundamentale ale omenirii sau, altfel spus, ne-a „spart” sistemul de operare, spunea anul trecut istoricul și gânditorul israelian Yuval Noah Harari.

Vorbind despre faptul că în ultimii ani s-au lansat noi instrumente de inteligență artificială, cel mai important dintre ele fiind ChatGPT, Harari mai spunea că este dificil pentru oameni să înțeleagă capacitățile acestor noi instrumente de inteligență artificială și viteza cu care acestea continuă să se dezvolte, deoarece AI este capabilă să învețe pentru a se îmbunătăți singură. În plus, nici măcar dezvoltatorii acestor instrumente nu cunosc toate capacitățile pe care le au.

Concret, inteligența artificială este acum aparent peste tot. Și are abilități multiple, precum cele de a scrie texte, de a crea imagini, de a compune muzică sau de a scrie programe. Atunci când luăm toate aceste abilități împreună ca un pachet, mai susținea Harari, ele se reduc la un singur lucru: abilitatea foarte mare de a manipula și de a genera limbaj, fie că este vorba de cuvinte, imagini sau sunete.

În tot acest context, în care inteligența artificială poate să analizeze volume uriașe de date în vederea unor decizii informate și are capacitatea de a eficientiza munca prin automatizarea sarcinilor repetitive, un alt instrument revoluționar de inteligență artificială generativă creat de OpenAI, compania din spatele ChatGPT, este de așteptat să accelereze proliferarea videoclipurilor deepfake pe internet și să aibă implicații pentru aproape fiecare industrie.

Sora, o aplicație de inteligență artificială care preia indicații scrise și le transformă în videoclipuri originale, este deja atât de puternică încât un expert în inteligență artificială spune că „l-a îngrozit”.

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024

Oren Etzioni, fondatorul TrueMedia.org, a declarat la finalul săptămânii trecute pentru CBS News, că instrumentele de inteligență artificială generativă evoluează foarte rapid, iar ele se adaptează aproape instant la rețelele sociale, ceea ce duce la un călcâi al lui Ahile pentru o democrație, căci se sporește numărul de posibilități de exploatare în rău a acestor instrumente. Iar Etzioni spune că nu se putea întâmpla într-un moment mai prost, făcând referire la dezinformarea bazată pe inteligența artificială în campaniile politice.

Oren Etzioni mai spune că deja mai mulți experți se concentrează pe identificarea mediilor manipulate, inclusiv a așa-numitelor videoclipuri deepfake. „În timp ce încercăm să rezolvăm această problemă, ne confruntăm cu una dintre cele mai importante alegeri din istorie”, a adăugat el, referindu-se la alegerile prezidențiale din luna noiembrie, unde cel mai probabil se vor confrunta Joe Biden și Donald Trump.

Compania OpenAI, producătorul aplicației Sora, a împărtășit un teaser al modelului său text-to-video pe platforma X (fostul Twitter), explicând că poate crea instantaneu videoclipuri sofisticate, de 60 de secunde, „cu scene foarte detaliate, mișcări complexe ale camerei și mai multe personaje cu emoții vibrante”.

Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
See Also
Sora: Creating video from text Factorial Funds | Under The Hood: How OpenAI's Sora Model Works Sora. OpenAI dezvăluie un nou instrument bazat pe inteligență artificială care transformă textul în videoclipuri realiste - tvrinfo.ro
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

„Încercăm să construim acest avion în timp ce îl pilotăm”

Instrumentul nu este încă disponibil publicului. Deocamdată, OpenAI a dat undă verde pentru folosire doar unor artiști vizuali, designeri și regizori pentru a testa produsul și pentru ca aceștia să transmită feedback-ul lor companiei înainte ca aceasta să lanseze produsul pe scară mai largă.

OpenAI a adăugat că siguranța va fi esențială și că Sora se va confrunta cu teste contradictorii, cunoscute sub numele de red-teaming, în care utilizatorii din această fază încearcă să facă platforma să eșueze, să producă conținut inadecvat sau să devină „necinstită”. Scopul este descoperirea greșelilor pentru ca acestea să fie înlăturate, cel puțin așa sugerează OpenAI.

Mai mult, OpenAI a ținut să transmită că experții în domeniul siguranței vor evalua instrumentul pentru a înțelege modul în care ar putea crea dezinformare și conținuturi care incită la ură.

Progresele tehnologice au depășit aparent controalele și echilibrele acestor tipuri de instrumente, mai spune Etzioni, care crede în utilizarea inteligenței artificiale în scopuri bune și cu respectarea unor limite de siguranță.

„Încercăm să construim acest avion în timp ce îl pilotăm, iar el va ateriza în noiembrie, dacă nu înainte. Și nu avem în acest moment o Administrație Federală a Aviației, nu avem istorie și nu avem instrumentele necesare pentru a face acest lucru”, a spus Etzioni, încercând să creeze o imagine metaforică a ceea ce reprezintă aplicația Sora pentru internet.

Tot ceea ce împiedică acest instrument să devină disponibil pe scară largă este compania însăși, cred unii experți citați de platforma de tehnologice Wired. Aceștia mai susțin că Sora sau o tehnologie similară de la un concurent al OpenAI va fi lansată pentru publicul larg în următoarele luni.

Bineînțeles, orice cetățean obișnuit poate fi afectat de o înșelătorie deepfake, pe lângă țintele celebre. Experții în tehnologice atrag atenția că Sora „va face și mai ușor pentru actorii rău intenționați să genereze videouri de tip deepfake de înaltă calitate și le va oferi o mai mare flexibilitate pentru a crea videoclipuri care ar putea fi folosite în scopuri ofensive”.

Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB
— OpenAI (@OpenAI) February 15, 2024

Prin urmare, organizații precum băncile trebuie să dezvolte propriile instrumente bazate pe inteligență artificială pentru a proteja consumatorii împotriva potențialelor amenințări. De altfel, băncile care se bazează pe măsuri de securitate de autentificare video sunt cele mai expuse la potențiale fraude comise cu ajutorul Sora.

Sora e o amenințare pentru actori și creatori

Capacitățile instrumentului Sora sunt cel mai strâns legate de abilitățile lucrătorilor din domeniul creației de conținut, inclusiv din domeniul cinematografiei, mass-media și alte domenii conexe. Actorii vocali sau persoanele care realizează videoclipuri scurte pentru jocuri video, în scopuri educaționale sau reclame vor fi cele mai afectate.

O serie de experți atrag atenția că, pentru profesii precum marketingul sau creația, modelele multimodale ar putea schimba regulile jocului și ar putea crea economii semnificative de costuri pentru producătorii de filme și televiziune și ar putea contribui la proliferarea conținutului generat de inteligența artificială în loc să se folosească actori.

Având în vedere că facilitează crearea de conținut vizual de către oricine, chiar și de către cei fără abilități artistice, Sora ar putea permite utilizatorilor să dezvolte conținut media de tip „alege-ți aventura”. În plus, există deja voci care spun că și un jucător important, precum este Netflix, ar putea permite utilizatorilor finali să își dezvolte propriul conținut pe baza unor indicații.

Text-to-video a devenit cea mai recentă cursă a înarmărilor în domeniul inteligenței artificiale

Google, Meta și startup-ul Runway ML se numără printre companiile care au prezentat deja o tehnologie similară. Dar calitatea înaltă a videoclipurilor afișate de OpenAI a surprins observatorii, ridicând în același timp îngrijorări cu privire la implicațiile etice și sociale.

Recent, Open AI a fost dat în judecată de New York Times și de unii autori pentru că au folosit lucrări protejate prin drepturi de autor pentru a instrui ChatGPT.

OpenAI a avertizat că „modelul actual Sora are puncte slabe”, cum ar fi confuzia dintre stânga și dreapta sau eșecul de a menține continuitatea vizuală pe toată durata unui videoclip.

Dar, spre deosebire de instrumentul Google de transformare a textului în video, Lumiere, Sora poate genera videoclipuri cu o durată de până la 1 minut.

Transformarea textului în video a devenit cea mai recentă cursă a armelor în domeniul inteligenței artificiale generative, în timp ce OpenAI, Google, Microsoft și alții se uită dincolo de generarea de text și imagini și încearcă să își consolideze poziția într-un sector care se preconizează că va ajunge la venituri de 1,3 trilioane de dolari până în 2032 și să câștige încrederea consumatorilor care au fost intrigați de inteligența artificială generativă de când ChatGPT a apărut în urmă cu puțin mai mult de un an.

Pe lângă faptul că aplicația Sora e încă în faza de testare, OpenAI a transmis că dorește să împărtășească progresul său acum pentru a „oferi publicului o idee despre ce capacități AI se află la orizont”.

Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS
— OpenAI (@OpenAI) February 15, 2024

Puncte tari ale Sora

Un lucru care ar putea diferenția Sora de alte aplicații bazate pe inteligență artificială este capacitatea sa de a interpreta solicitări lungi, inclusiv un exemplu care a ajuns la 135 de cuvinte. Exemplele video pe care OpenAI le-a distribuit joi demonstrează că Sora poate crea o varietate de personaje și scene, de la oameni, animale și monștri pufoși până la peisaje urbane, grădini zen și chiar New York City scufundat sub apă.

Acest lucru se datorează, în parte, muncii anterioare a OpenAI cu modelele sale Dall-E și GPT. Generatorul text-imagine Dall-E 3 a fost lansat în septembrie 2023, după cum notează platforma de tehnologie Cnet.

În special, Sora împrumută tehnica de recapitulare a lui Dall-E 3, despre care OpenAI spune că generează „legende foarte descriptive pentru datele de antrenament vizual”.

Prin urmare, Sora este capabil să genereze scene complexe cu mai multe personaje, tipuri specifice de mișcare și detalii precise ale subiectului și ale fundalului. Modelul înțelege nu numai ceea ce a cerut utilizatorul în prompter, ci și modul în care acele lucruri există în lumea fizică.

Videoclipurile de probă pe care OpenAI le-a împărtășit par remarcabil de realiste, cu excepția, poate, a cazurilor în care o față umană apare în plan apropiat sau când sunt redate imagini cu creaturi marine care înoată. În rest, oamenilor obișnuiți s-ar putea să le fie greu să-și dea seama ce este real și ce nu este.

Modelul poate, de asem*nea, să genereze videoclipuri din imagini statice și să extindă videoclipurile existente sau să completeze cadrele lipsă, la fel cum poate face Lumiere.

OpenAI precizează că Sora servește drept fundație pentru modelele care pot înțelege și simula lumea reală, o capacitate despre care compania americană crede că va fi o piatră de hotar importantă pentru realizarea AGI.

AGI, sau inteligența generală artificială, este o formă mai avansată de inteligență artificială, care este mai apropiată de inteligența similară celei umane și include capacitatea de a efectua o gamă mai largă de sarcini. Meta, compania-mamă a Facebook, și britanicii de la DeepMind Technologies și-au exprimat, de asem*nea, interesul de a atinge acest punct de referință.

Puncte slabe ale Sora

OpenAI a recunoscut că Sora are puncte slabe, cum ar fi dificultatea de a descrie cu acuratețe fizica unei scene complexe și de a înțelege cauza și efectul. Spre exemplu, o persoană ar putea mușca dintr-o prăjitură, dar după aceea, prăjitura ar putea să nu aibă semnul mușcăturii.

OpenAI a precizat că înainte de a fi disponibilă pentru utilizare largă, aplicația Sora va trece prin mai multe măsuri importante de siguranță. Printre acestea se numără respectarea standardelor de siguranță existente ale OpenAI, care interzic violența extremă, conținutul sexual, imaginile care incită la ură, imaginea celebrităților și proprietatea intelectuală a altora. De altfel, o problemă potențială mare este dacă conținutul videoclipului produs de Sora va încălca drepturile de autor ale altor persoane.

Reprezentanții OpenAI au mai spus că, în ciuda cercetărilor și testelor extinse, nu pot prezice toate modurile benefice în care oamenii vor folosi tehnologia care stă la baza Sora și nici toate modurile în care oamenii vor abuza de ea. De aceea, spune Open AI, credem că învățarea din utilizarea aplicației de către oameni este o componentă esențială pentru a crea și a lansa în timp sisteme de inteligență artificială din ce în ce mai sigure.

În ciuda temerilor unor experți, există și voci din industria de tehnologie americană care susțin că va trece foarte mult timp până când procesul de transformare a textului în video va reprezenta o amenințare la adresa producției de filme reale.

Cu alte cuvinte, la acest moment nu se pot face filme coerente prin asamblarea a 120 de clipuri Sora de un minut, deoarece modelul nu va răspunde la solicitări în exact același mod. Însă limita de timp nu reprezintă o barieră pentru companii precum OpenAI, iar instrumente ca Sora au potențialul să transforme modul de a crea conținut pe TikTok, Instagram (Reels) și alte platforme sociale.

Ce spun experții: că pentru a face un film profesionist ai nevoie de multe echipamente scumpe, iar Sora va fi doar un model care va da posibilitatea unei persoane obișnuite care face videoclipuri pe rețelele de socializare să realizeze conținut de foarte bună calitate.

Deocamdată, OpenAI se confruntă cu sarcina uriașă de a se asigura că Sora nu este o catastrofă pentru internet și scânteia de care aveau nevoie creatori de dezinformare și subminare a democrației. Dar, după ce această fază va fi trecut, o să înceapă lunga numărătoare inversă până când următorul Christopher Nolan sau Celine Song va primi o statuetă Oscar pentru „magia” de a stimula cinematografic un model de inteligență artificială.

Așa cum subliniază și jurnalistul Mihnea Măruță, Sora nu este doar o aplicație fascinantă. Ea nu doar că ne va transforma exercițiile de imaginație în scene cvasi-reale, cu personaje, acțiune și decoruri cvasi-autentice, dar ne va face să chestionăm tot ceea ce percepem și, foarte probabil, ne va face să vrem să retușăm, cizelăm, perfecționăm – pe scurt, să înlocuim – tot ceea ni se pare insuficient și perisabil în ceilalți.

„Inteligența Artificială ca demiurg, ca posibilă zeitate inferioară și indiferentă, îi va face concurență, în mințile noastre, nu doar lui Dumnezeu, ci și naturii sau evoluției. Va crea și va fi disponibilă mereu. Va răspunde și se va supune. Va fi egalitară și nihilistă. Ne vom înfrupta din ea și o vom lăsa să ne seducă. Va fi deopotrivă surprinzătoare și cel mai mare inamic al surprizelor”, a mai atras atenția Mihnea Măruță, autor al cărții „Identitatea virtuală”.

Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6
— OpenAI (@OpenAI) February 15, 2024

Urmăriți Republica pe Google News

Urmăriți Republica pe Threads

Urmăriți Republica pe canalul de WhatsApp

Îți recomandăm

Mihnea Măruță: „Cu fiecare minut pe care îl dăruiești rețelei de socializare, aceasta îți cunoaște și mai bine sentimentele. Nu numai că nu te poți bate cu ea, dar nici măcar nu știi ce știe ea despre tine”

„Pentru copiii cu acces la social media, fantoma digitală e înlocuitoarea ursulețului sau a păpușii de pe vremuri. Ca părinți, trebuie să ne transformăm în ambasadori ai vieții reale”. Mihnea Măruță, autorul cărții „Identitatea virtuală”, despre pericolele rețelelor sociale

Regulamentul UE privind inteligența artificială, explicat pe înțelesul tuturor. Nu este permisă utilizarea AI pentru a estima probabilitatea ca o persoană să comită o infracțiune doar pe baza caracteristicilor personale