Cosa potrebbe sconvolgere il futuro dell’intelligenza artificiale generativa?
Pubblicato: 2023-09-22Si parla molto in questi giorni di come l’intelligenza artificiale generativa potrebbe far perdere il lavoro alle persone. Non si pensa così tanto a come le persone potrebbero mettere fuori gioco l’intelligenza artificiale generativa. Ma potrebbero – e molto probabilmente lo faranno.
GenAI e i modelli fondamentali su cui poggia sono attualmente al culmine vertiginoso del ciclo di hype di Gartner. Se il modello di Gartner è valido, questi strumenti potrebbero essere sul punto di precipitare nel “vasso della disillusione” prima di emergere tra qualche anno su un plateau di produttività utile.
Si sostiene, tuttavia, che la depressione della disillusione potrebbe inghiottire i prodotti genAI per sempre. Oltre ai rischi insiti nel fare affidamento su quella che è essenzialmente un'"intelligenza" inconscia e amorale, gli utenti si trovano anche ad affrontare la prospettiva molto reale che i problemi di copyright e privacy possano ferire mortalmente grandi modelli linguistici (LLM) come ChatGPT.
Prendiamoli in ordine.
Un registro nazionale “Non Raschiare”?
Gli editori monetizzano i contenuti. Non cercano di far monetizzare tali contenuti a terze parti senza autorizzazione, soprattutto perché probabilmente gli editori hanno già pagato per questo. Gli autori professionisti monetizzano ciò che scrivono. Anche loro non cercano di far trarre profitto a terzi dal loro lavoro senza alcuna ricompensa per il creatore. Tutto ciò che dico qui sui contenuti scritti si applica allo stesso modo alla grafica, ai video e a qualsiasi altro contenuto creativo.
Naturalmente abbiamo leggi sul copyright che proteggono gli editori e gli autori dal furto diretto. Questi non aiutano con genAI perché esegue la scansione di così tante fonti che l'output finale potrebbe non assomigliare molto a una sola delle singole fonti (anche se ciò può accadere).
In questo momento, gli editori stanno cercando attivamente modi per impedire ai LLM di eliminare i loro contenuti. È una sfida tecnica difficile
In questo video, il collaboratore di MarTech Greg Krehbiel illustra i modi in cui gli editori potrebbero provare a bloccare i LLM. Sostiene anche la necessità di modificare i termini e le condizioni per preparare le basi per future azioni legali. Come sembra riconoscere, nessuno dei suoi suggerimenti è una schiacciata. Ad esempio, è possibile impedire a Google di eseguire la scansione del tuo sito per acquisire contenuti senza interrompere anche la scansione del tuo sito per inserirlo nei risultati di ricerca? Inoltre, le cause legali sono costose.
Ma che ne dici di una correzione normativa? Ricordi il fastidio infinito delle chiamate di telemarketing? Il registro nazionale delle chiamate vietate ha posto fine a tutto ciò. Chiunque fosse interessato ha potuto registrare il proprio numero e gli operatori di telemarketing hanno potuto continuare a chiamarlo solo a rischio che la FTC imponesse pesanti multe.
Registrare i domini con un registro nazionale “Do Not Scrape” potrebbe essere un compito più impegnativo, ma si può vedere in termini generali come potrebbe funzionare una tale strategia normativa. Verrebbe rilevata ogni violazione? Sicuramente no. Ma lo stesso vale, ad esempio, per il GDPR. Il GDPR impone la conformità non perché ogni violazione venga rilevata, ma perché quelle violazioni rilevate possono comportare pesanti sanzioni: “multe senza precedenti fino al 4% delle entrate globali totali di un’azienda”.
È troppo tardi. GenAI ha già i dati
Se esiste una soluzione tecnica o normativa per impedire alla genAI di rubare contenuti, quel cavallo non ha già lasciato la stalla? Gli LLM sono già stati formati su set di dati inconcepibilmente grandi. Possono essere inclini all'errore, ma in un certo senso sanno tutto.
Beh, sanno tutto fino a un paio di anni fa. ChatGPT-4 è stato pre-addestrato sui dati con data limite di settembre 2021. Ciò significa che c'è molto che non sa. Ricordiamoci di cosa abbiamo a che fare qui.
Scava più a fondo: Intelligenza artificiale: una guida per principianti
GenAI utilizza algoritmi per prevedere il prossimo pezzo di testo migliore da creare, sulla base di tutti quei milioni di pezzi di testo su cui è stato addestrato. Ciò che lo rende “intelligente” è che può migliorare i propri algoritmi in base al feedback e alla risposta (un essere umano non deve armeggiare con gli algoritmi, anche se ovviamente potrebbe).
Ciò che genAI non fa (non può fare) è scoprire cose sul mondo che si trovano al di fuori del suo set di addestramento dei dati. Ciò sottolinea il punto, sostenuto da filosofi come Donald Davidson, 1 secondo cui l’intelligenza artificiale non ha connessioni causali con il mondo. Se voglio sapere se piove, non mi baso su un set di dati; Guardo fuori dalla finestra. Per dirla tecnicamente, genAI può avere un'ottima sintassi (grammatica), ma è estranea alla semantica (significato).
La conclusione da trarre da ciò è che l’intelligenza artificiale dipende interamente da creature, come noi, che sono causalmente connesse al mondo; chi può dire se piove, se c'è la luna in cielo, se Jefferson ha redatto la Dichiarazione di Indipendenza. Finora è dipeso da ciò che le persone hanno fatto in passato. Per rimanere rilevante deve continuare a dipendere da ciò che le persone possono fare da sole.
Se la capacità degli LLM di continuare a recuperare contenuti creati dagli esseri umani è notevolmente ritardata, non saranno in grado di aggiungere, aggiornare, correggere e aumentare i propri set di dati in futuro. La fine della loro utilità potrebbe essere lenta, ma sarebbe più o meno garantita.
Giù le mani dalle mie PII!
Oltre all'urgenza di editori, autori e altri creatori di tenere la genAI lontana dai propri contenuti, c'è un altro problema molto reale che dovrà affrontare nell'immediato futuro. La necessità di garantire in qualche modo che, nell’atto di raschiare milioni di gigabyte di dati dal web, non si sequestrino inavvertitamente informazioni di identificazione personale (PII) o altri tipi di dati protetti dalle normative esistenti.
- La FTC ha aperto un'indagine su OpenAI per questioni di protezione dei consumatori.
- L’Italia, come è stato ampiamente riportato, ha semplicemente bandito OpenAI e ChatGPT per il trattamento dei dati personali e per l’assenza di controlli sulla verifica dell’età. Le operazioni furono ripristinate dopo che le richieste italiane furono soddisfatte.
- Le sfide europee non sono affatto finite. Un ampio reclamo presentato in Polonia afferma che OpenAI è in “violazione sistematica” del GDPR.
Basti dire che i tribunali europei tendono ad essere più favorevoli ai diritti dei cittadini che ai profitti delle grandi tecnologie.
Non abbiamo nemmeno menzionato la fiducia e la sicurezza. Queste preoccupazioni sono state affrontate nella mia recente conversazione con Afraz Jaffri, esperto del ciclo di hype dell'intelligenza artificiale di Gartner, che ha affermato:
Il primo problema è in realtà l’aspetto della fiducia. Indipendentemente dalle normative esterne, c'è ancora la sensazione fondamentale che sia molto difficile controllare i risultati dei modelli e garantire che i risultati siano effettivamente corretti. Questo è un grosso ostacolo.
Cosa riserva il futuro per genAI? Il ciclo pubblicitario di Gartner
Tutto ciò farà scattare l'interruttore di spegnimento?
È facile dire che genAI è qui per restare. Lo hanno detto in molti. E in effetti, è altamente improbabile che uno sviluppo tecnologico significativo, se non del tutto nuovo, venga dimenticato o abbandonato. Come minimo, le organizzazioni continueranno a utilizzare queste funzionalità sui propri set di dati o su set di dati esterni determinati con cautela, e ciò soddisferà molti casi d’uso importanti.
Tuttavia, le probabilità che la genAI venga interrotta, limitata e notevolmente alterata da una combinazione di blocchi normativi, sfide legali, problemi di fiducia – e altri ostacoli ancora invisibili – sono ben superiori allo zero.
- Donald Davison, “Il test di Turing”, Mind 59 (1950) ↩︎
Storie correlate
Novità su MarTech