Ce ar putea perturba viitorul IA generativă?

Publicat: 2023-09-22

Se vorbește mult în aceste zile despre modul în care IA generativă ar putea scoate oamenii fără muncă. Nu se gândește atât de mult la modul în care oamenii ar putea scoate AI-ul generativ din funcțiune. Dar ei ar putea - și foarte posibil o vor face.

GenAI și modelele de fundație pe care se sprijină se află în prezent în vârful amețitor al ciclului de hype Gartner. Dacă modelul lui Gartner este sănătos, acele instrumente ar putea fi pe cale să se cufunde în „jgheabul deziluzirii” înainte de a se ridica peste câțiva ani pe un platou de productivitate utilă.

Există, totuși, un argument că dezamăgirea ar putea înghiți definitiv produsele genAI. Pe lângă riscurile încorporate în bazarea pe ceea ce este în esență „inteligență” inconștientă și amorală, utilizatorii se confruntă, de asemenea, cu perspectivele foarte reale că problemele de drepturi de autor și de confidențialitate ar putea răni mortal modelele de limbă mari (LLM) precum ChatGPT.

Să le luăm în ordine.

Un registru național Do Not Scrape?

Editorii monetizează conținut. Ei nu caută ca terți să monetizeze acel conținut fără permisiune, mai ales că editorii probabil că au plătit deja pentru el. Autorii profesioniști monetizează ceea ce scriu. Nici ei nu caută ca terți să profite de munca lor fără nicio recompensă pentru creator. Tot ceea ce spun aici despre conținutul scris se aplică în egală măsură conținutului grafic, video și oricărui alt conținut creativ.

Avem, desigur, legi privind drepturile de autor care protejează editorii și autorii de furtul direct. Acestea nu ajută cu genAI, deoarece accesează cu crawlere atât de multe surse încât rezultatul final poate să nu semene prea mult cu una dintre sursele individuale (deși acest lucru se poate întâmpla).

În acest moment, editorii caută în mod activ modalități de a bloca LLM-urile să-și răpească conținutul. Este o provocare tehnică grea

În acest videoclip, colaboratorul MarTech, Greg Krehbiel, discută despre modalitățile în care editorii ar putea încerca să blocheze LLM-urile. El face, de asemenea, un argument pentru modificarea termenilor și condițiilor pentru a pregăti temeiurile viitoarelor procese. După cum pare să recunoască, niciuna dintre sugestiile lui nu este un slam dunk. De exemplu, este posibil să opriți accesarea cu crawlere a site-ului dvs. de către Google pentru a prelua conținut, fără a opri accesarea cu crawlere a site-ului dvs. pentru a-l plasa în rezultatele căutării? De asemenea, procesele sunt costisitoare.

Dar ce zici de o remediere de reglementare? Îți amintești de enervarea nesfârșită a apelurilor de telemarketing? Registrul național Do Not Call a pus capăt acestui lucru. Toți cei cărora le-a păsat puteau să-și înregistreze numărul, iar telemarketerii puteau continua să-l sune doar cu riscul ca FTC să impună amenzi mari.

Înregistrarea domeniilor cu un registru național Do Not Scrape ar putea fi o problemă mai grea, dar se poate vedea în termeni generali cum ar putea funcționa o astfel de strategie de reglementare. Ar fi detectată orice încălcare? Sigur nu. Dar același lucru este valabil, de exemplu, pentru GDPR. GDPR impune conformitatea nu pentru că fiecare încălcare este detectată, ci pentru că acele încălcări care sunt detectate pot duce la sancțiuni grele - „amenzi fără precedent de mari până la 4% din veniturile totale ale unei companii la nivel global”.

E prea tarziu. GenAI are deja datele

Indiferent dacă există o soluție tehnică sau de reglementare pentru a opri genAI să fure conținut, nu a părăsit acel cal deja din grajd? LLM-urile au fost deja instruite pe seturi de date neconceput de mari. Ei pot fi predispuși la erori, dar există un sens în care știu totul.

Ei bine, ei știu totul până acum câțiva ani. ChatGPT-4 a fost antrenat în prealabil pe date cu o limită de septembrie 2021. Asta înseamnă că există multe lucruri pe care nu le știe. Să ne reamintim cu ce avem de-a face aici.

Sapă mai adânc: Inteligența artificială: un ghid pentru începători

GenAI folosește algoritmi pentru a prezice următoarea cea mai bună bucată de text de creat, pe baza tuturor acelor milioane de bucăți de text pe care a fost antrenat. Ceea ce o face „inteligentă” este că își poate îmbunătăți propriii algoritmi bazați pe feedback și răspuns (omul nu trebuie să se chinuiască cu algoritmii, deși bineînțeles că ar putea).

Ceea ce genAI nu face - nu poate face - este să afle lucruri despre lume care se află în afara setului său de instruire a datelor. Acest lucru subliniază ideea, susținută de filozofi precum Donald ^Davidson1 , că AI nu are legături cauzale cu lumea. Dacă vreau să știu dacă plouă, nu mă bazez pe un set de date; Mă uit pe fereastră. Pentru a spune tehnic, genAI poate avea o sintaxă (gramatică) excelentă, dar este străin de semantică (sens).

Concluzia care trebuie trasă din aceasta este că AI se bazează în totalitate pe creaturi, ca noi, care sunt conectate cauzal cu lume; cine poate spune dacă plouă, dacă este o lună pe cer, dacă Jefferson a redactat Declarația de Independență. Până acum, a fost dependent de ceea ce au făcut oamenii în trecut. Pentru a rămâne relevantă, trebuie să depindă în continuare de ceea ce pot face numai oamenii.

Dacă capacitatea LLM-urilor de a continua să curețe conținutul creat de oameni este întârziată semnificativ, ei nu vor putea să-și adauge, să actualizeze, să corecteze și să-și sporească seturile de date în viitor. Scăderea utilității lor ar putea fi lentă, dar ar fi mai mult sau mai puțin garantată.

Ieși de la PII!

Pe lângă îndemnul editorilor, autorilor și altor creatori de a ține genAI departe de conținutul lor, există o altă problemă foarte reală cu care se confruntă în viitorul imediat. Necesitatea de a garanta cumva că, în actul de a răzui milioane de gigaocteți de date de pe web, aceștia nu confiscă din neatenție informații de identificare personală (PII) sau alte tipuri de date protejate de reglementările existente.

FTC a deschis o anchetă în OpenAI cu privire la problemele legate de protecția consumatorilor.
Italia, după cum a fost raportat pe scară largă, a interzis pur și simplu OpenAI și ChatGPT din cauza manipulării datelor personale, precum și a absenței controalelor de verificare a vârstei. Operațiunile au fost reluate după ce cerințele italiene au fost respectate.
Provocările europene nu s-au terminat deloc. O plângere amplă depusă în Polonia susține că OpenAI este în „încălcare sistematică” a GDPR.

Este suficient să spunem că instanțele europene tind să fie mai simpatice cu drepturile cetățenilor decât cu profiturile marilor tehnologii.

Nici măcar nu am menționat încredere și siguranță. Aceste preocupări au fost abordate în conversația mea recentă cu expertul Gartner în ciclul hype AI, Afraz Jaffri, care a spus:

Prima problemă este de fapt aspectul încrederii. Indiferent de reglementările externe, există încă un sentiment fundamental că este foarte greu să controlezi ieșirile modelelor și să garantezi că ieșirile sunt de fapt corecte. Acesta este un mare obstacol.
Ce îi rezervă viitorul genAI? Ciclul Gartner Hype

Toate acestea vor declanșa întrerupătorul de oprire?

Este ușor să spui că genAI este aici pentru a rămâne. O mulțime de oameni au spus-o. Și într-adevăr, este foarte puțin probabil ca o dezvoltare semnificativă – dacă nu complet nouă – în tehnologie să fie uitată sau abandonată. La un minim strict, organizațiile vor continua să folosească aceste capabilități pe propriile seturi de date sau seturi de date externe determinate cu prudență, iar acestea vor îndeplini multe cazuri de utilizare importante.

Cu toate acestea, șansele ca genAI să fie perturbată, constrânsă și foarte mult modificată de o combinație de blocuri de reglementare, provocări legale, probleme de încredere – și alte obstacole încă nevăzute – sunt mult peste zero.

Donald Davison, „Testul lui Turing”, Mind 59 (1950) ↩︎

Adăugați MarTech la feedul dvs. de Știri Google.

Povești înrudite

Nou pe MarTech

Discursul instigator la ură pe rețelele sociale poate dăuna semnificativ mărcilor: studiu

Regândirea guvernării conținutului în era AI generativă

Cele mai noi locuri de muncă în martech

Lansările martech bazate pe inteligență artificială din această săptămână

State Farm și iHeartMedia vor găzdui experiența Ed Sheeran în Fortnite