Qu’est-ce qui pourrait perturber l’avenir de l’IA générative ?
Publié: 2023-09-22On parle beaucoup ces jours-ci de la façon dont l’IA générative pourrait mettre les gens au chômage. On ne réfléchit pas vraiment à la manière dont les gens pourraient mettre l’IA générative au chômage. Mais ils le pourraient – et le feront très probablement.
GenAI et les modèles de base sur lesquels elle repose sont actuellement au sommet vertigineux du cycle de battage médiatique de Gartner. Si le modèle de Gartner est valable, ces outils pourraient être sur le point de plonger dans le « creux de la désillusion » avant d'émerger d'ici quelques années sur un plateau de productivité utile.
Il existe cependant un argument selon lequel le creux de la désillusion pourrait avaler définitivement les produits genAI. Outre les risques inhérents au fait de s’appuyer sur une « intelligence » essentiellement inconsciente et amorale, les utilisateurs sont également confrontés à la possibilité très réelle que les problèmes de droit d’auteur et de confidentialité puissent blesser mortellement les grands modèles de langage (LLM) comme ChatGPT.
Prenons-les dans l'ordre.
Un registre national « Ne pas gratter » ?
Les éditeurs monétisent le contenu. Ils ne cherchent pas à ce que des tiers monétisent ce contenu sans autorisation, d'autant plus que les éditeurs l'ont probablement déjà payé. Les auteurs professionnels monétisent ce qu’ils écrivent. Eux non plus ne cherchent pas à ce que des tiers profitent de leur travail sans rétribution pour le créateur. Tout ce que je dis ici sur le contenu écrit s’applique également au contenu graphique, vidéo et à tout autre contenu créatif.
Bien entendu, nous avons des lois sur le droit d’auteur qui protègent les éditeurs et les auteurs du vol direct. Cela n'aide pas avec genAI car il explore tellement de sources que le résultat final peut ne pas ressembler étroitement à une seule des sources individuelles (bien que cela puisse arriver).
À l’heure actuelle, les éditeurs recherchent activement des moyens d’empêcher les LLM de supprimer leur contenu. C'est un défi technique difficile
Dans cette vidéo, Greg Krehbiel, contributeur de MarTech, explique comment les éditeurs pourraient tenter de bloquer les LLM. Il plaide également en faveur de la modification des termes et conditions afin de préparer le terrain pour de futures poursuites. Comme il semble le reconnaître, aucune de ses suggestions n’est une victoire décisive. Par exemple, est-il possible d’empêcher Google d’explorer votre site pour récupérer du contenu sans l’empêcher également d’explorer votre site pour le placer dans les résultats de recherche ? De plus, les poursuites judiciaires coûtent cher.
Mais que diriez-vous d’une solution réglementaire ? Vous souvenez-vous de l'ennui sans fin des appels de télémarketing ? Le registre national des numéros de télécommunication exclus a mis un terme à cette situation. Tous ceux qui s'en souciaient pouvaient enregistrer leur numéro et les télévendeurs ne pouvaient continuer à l'appeler qu'au risque que la FTC leur impose de lourdes amendes.
L'enregistrement de domaines auprès d'un registre national Do Not Scrape peut être une tâche plus lourde, mais on peut voir en termes généraux comment une telle stratégie réglementaire pourrait fonctionner. Chaque infraction serait-elle détectée ? Sûrement pas. Mais il en va de même, par exemple, pour le RGPD. Le RGPD impose le respect non pas parce que chaque infraction est détectée, mais parce que les infractions détectées peuvent entraîner de lourdes sanctions – « des amendes sans précédent pouvant atteindre 4 % du chiffre d’affaires mondial total d’une entreprise ».
C'est trop tard. GenAI possède déjà les données
Qu'il existe une solution technique ou réglementaire pour empêcher genAI de voler du contenu, ce cheval n'a-t-il pas déjà quitté l'écurie ? Les LLM ont déjà été formés sur des ensembles de données incroyablement volumineux. Ils sont peut-être enclins à l’erreur, mais dans un sens, ils savent tout.
Eh bien, ils savaient tout jusqu'à il y a quelques années. ChatGPT-4 a été pré-entraîné sur des données avec une date limite fixée à septembre 2021. Cela signifie qu'il y a beaucoup de choses qu'il ne sait pas. Rappelons-nous à quoi nous avons affaire ici.
Creusez plus profondément : Intelligence artificielle : un guide du débutant
GenAI utilise des algorithmes pour prédire le prochain meilleur morceau de texte à créer, sur la base des millions de morceaux de texte sur lesquels il a été formé. Ce qui le rend « intelligent », c'est qu'il peut améliorer ses propres algorithmes en fonction du feedback et des réponses (un humain n'a pas besoin de bricoler les algorithmes, même s'il le peut bien sûr).
Ce que genAI ne fait pas – ne peut pas faire – c'est découvrir des informations sur le monde qui se trouvent en dehors de son ensemble de formation de données. Cela souligne l’argument avancé par des philosophes comme Donald Davidson 1 , selon lequel l’IA n’a aucun lien causal avec le monde. Si je veux savoir s'il pleut, je ne me base pas sur un ensemble de données ; Je regarde par la fenêtre. Pour le dire techniquement, genAI a peut-être une excellente syntaxe (grammaire), mais elle est étrangère à la sémantique (sens).
La conclusion à en tirer est que l’IA dépend entièrement de créatures, comme nous, qui sont causalement connectées au monde ; qui peut dire s'il pleut, s'il y a une lune dans le ciel, si Jefferson a rédigé la Déclaration d'indépendance. Jusqu’à présent, cela dépend de ce que les gens ont fait dans le passé. Pour rester pertinent, il doit continuer de dépendre de ce que les individus seuls peuvent faire.
Si la capacité des LLM à continuer à extraire le contenu créé par les humains est considérablement retardée, ils ne pourront plus ajouter, mettre à jour, corriger et augmenter leurs ensembles de données à l'avenir. La disparition de leur utilité pourrait être lente, mais elle serait plus ou moins garantie.
Ne touchez pas à mes informations personnelles !
En plus de l’envie des éditeurs, des auteurs et autres créateurs d’éloigner genAI de leur contenu, il existe un autre problème très réel auquel il est confronté dans un avenir immédiat. La nécessité de garantir d’une manière ou d’une autre que, en récupérant des millions de gigaoctets de données sur le Web, ils ne saisissent pas par inadvertance des informations d’identification personnelle (PII) ou d’autres types de données protégées par les réglementations en vigueur.
- La FTC a ouvert une enquête sur OpenAI pour des questions de protection des consommateurs.
- L'Italie, comme cela a été largement rapporté, a simplement interdit OpenAI et ChatGPT en raison du traitement des données personnelles ainsi que de l'absence de contrôles de vérification de l'âge. Les opérations ont été rétablies après que les demandes italiennes aient été respectées.
- Les défis européens ne sont en aucun cas terminés. Une vaste plainte déposée en Pologne affirme qu'OpenAI constitue une « violation systématique » du RGPD.
Il suffit de dire que les tribunaux européens ont tendance à être plus favorables aux droits des citoyens qu’aux profits des grandes technologies.
Nous n'avons même pas mentionné la confiance et la sécurité. Ces préoccupations ont été abordées lors de ma récente conversation avec Afraz Jaffri, expert du cycle de battage médiatique de l'IA chez Gartner, qui a déclaré :
Le premier problème est en fait l’aspect confiance. Indépendamment des réglementations externes, il existe toujours un sentiment fondamental selon lequel il est très difficile de contrôler les résultats des modèles et de garantir que les résultats sont réellement corrects. C'est un gros obstacle.
Quel avenir pour genAI ? Le cycle de battage médiatique de Gartner
Est-ce que tout cela déclenchera l’interrupteur d’arrêt ?
Il est facile de dire que genAI est là pour rester. Beaucoup de gens l'ont dit. En effet, il est très peu probable qu’un développement technologique important, voire entièrement nouveau, soit oublié ou abandonné. Au strict minimum, les organisations continueront à utiliser ces fonctionnalités sur leurs propres ensembles de données ou sur des ensembles de données externes soigneusement déterminés, ce qui répondra à de nombreux cas d'utilisation importants.
Néanmoins, les chances que la genAI soit perturbée, contrainte et fortement altérée par une combinaison de blocages réglementaires, de défis juridiques, de problèmes de confiance – et d’autres obstacles encore invisibles – sont bien au-dessus de zéro.
- Donald Davison, « Le test de Turing », Mind 59 (1950) ↩︎
Histoires connexes
Nouveau sur MarTech