Co może zakłócić przyszłość generatywnej sztucznej inteligencji?
Opublikowany: 2023-09-22Obecnie wiele mówi się o tym, jak generatywna sztuczna inteligencja może pozbawić ludzi pracy. Niewiele myśli się o tym, jak ludzie mogliby wyłączyć generatywną sztuczną inteligencję. Ale mogliby – i całkiem możliwe, że to zrobią.
GenAI i podstawowe modele, na których się opiera, znajdują się obecnie w zawrotnym szczycie cyklu szumu Gartnera. Jeśli model Gartnera jest słuszny, narzędzia te mogą wkrótce pogrążyć się w „dolinie rozczarowania”, zanim za kilka lat wyjdą na plateau użytecznej produktywności.
Istnieje jednak argument, że dolina rozczarowania może na dobre połknąć produkty genAI. Oprócz zagrożeń związanych z poleganiem na zasadniczo nieświadomej i amoralnej „inteligencji” użytkownicy stają także przed bardzo realną perspektywą, że kwestie praw autorskich i prywatności mogą śmiertelnie zranić duże modele językowe (LLM), takie jak ChatGPT.
Ułóżmy to w kolejności.
Krajowy rejestr zakazu skrobania?
Wydawcy zarabiają na treściach. Nie chcą, aby osoby trzecie zarabiały na tych treściach bez pozwolenia, zwłaszcza że wydawcy prawdopodobnie już za to zapłacili. Profesjonalni autorzy zarabiają na tym, co piszą. Oni także nie dążą do tego, aby osoby trzecie czerpały korzyści ze swojej pracy bez wynagrodzenia dla twórcy. Wszystko, co tutaj powiem na temat treści pisanych, odnosi się w równym stopniu do treści graficznych, wideo i wszelkich innych treści kreatywnych.
Oczywiście posiadamy prawa autorskie, które chronią wydawców i autorów przed bezpośrednią kradzieżą. Nie pomagają one w przypadku genAI, ponieważ przeszukuje on tak wiele źródeł, że ostateczny wynik może nie przypominać dokładnie jednego z poszczególnych źródeł (chociaż może się to zdarzyć).
W tej chwili wydawcy aktywnie szukają sposobów na zablokowanie LLM przed zdrapywaniem ich treści. To trudne wyzwanie techniczne
W tym filmie Greg Krehbiel, współpracownik MarTech, omawia, w jaki sposób wydawcy mogą próbować blokować LLM. Postuluje także zmianę warunków, aby przygotować podstawy do przyszłych procesów sądowych. Jak zdaje się potwierdzać, żadna z jego sugestii nie jest wsadem. Na przykład, czy możliwe jest zatrzymanie indeksowania witryny przez Google w celu pobrania treści, bez jednoczesnego zatrzymywania indeksowania witryny w celu umieszczenia jej w wynikach wyszukiwania? Poza tym pozwy są kosztowne.
Ale co z poprawką regulacyjną? Czy pamiętasz niekończącą się irytację rozmów telemarketingowych? Krajowy rejestr „Do Not Call” położył temu kres. Każdy, komu zależało, mógł zarejestrować swój numer, a telemarketerzy mogli nadal dzwonić pod ten numer tylko pod ryzykiem nałożenia przez FTC wysokich kar.
Rejestracja domen w krajowym rejestrze Do Not Scrape może być trudniejsza, ale ogólnie można zobaczyć, jak taka strategia regulacyjna może działać. Czy każde naruszenie zostanie wykryte? Na pewno nie. Ale to samo dotyczy na przykład RODO. RODO nakazuje przestrzeganie przepisów nie dlatego, że wykryte zostaje każde naruszenie, ale dlatego, że wykryte naruszenia mogą skutkować surowymi sankcjami – „bezprecedensowo wysokimi karami finansowymi sięgającymi do 4 procent całkowitego światowego obrotu firmy”.
Jest już za późno. GenAI ma już dane
Niezależnie od tego, czy istnieje rozwiązanie techniczne lub prawne, które uniemożliwia genAI kradzież treści, czy ten koń nie opuścił już stajni? LLM zostały już przeszkolone na niewyobrażalnie dużych zbiorach danych. Mogą być podatni na błędy, ale w pewnym sensie wiedzą wszystko.
Cóż, wiedzą wszystko jeszcze kilka lat temu. ChatGPT-4 został wstępnie przeszkolony na danych z datą graniczną przypadającą na wrzesień 2021 r. Oznacza to, że jest wiele rzeczy, o których nie wie. Przypomnijmy sobie z czym tu mamy do czynienia.
Kop głębiej: sztuczna inteligencja: przewodnik dla początkujących
GenAI wykorzystuje algorytmy do przewidywania, jaki będzie następny najlepszy fragment tekstu do utworzenia, na podstawie milionów fragmentów tekstu, na podstawie których zostało wyszkolone. To, co czyni go „inteligentnym”, polega na tym, że może udoskonalać własne algorytmy w oparciu o informacje zwrotne i reakcje (człowiek nie musi majstrować przy algorytmach, chociaż oczywiście może).
To, czego genAI nie robi – i nie może zrobić – to dowiadywać się o świecie rzeczy, które leżą poza jego zestawem szkoleniowym danych. Podkreśla to tezę filozofów takich jak Donald Davidson1 , że sztuczna inteligencja nie ma przyczynowych powiązań ze światem. Jeśli chcę wiedzieć, czy pada deszcz, nie polegam na zbiorze danych; Patrzę przez okno. Mówiąc technicznie, genAI może i ma świetną składnię (gramatykę), ale semantyka (znaczenie) jest mu obca.
Wniosek, jaki z tego można wyciągnąć, jest taki, że sztuczna inteligencja jest całkowicie zależna od istot takich jak my, które są przyczynowo połączone ze światem; kto może stwierdzić, czy pada deszcz, czy na niebie jest księżyc, czy Jefferson sporządził Deklarację Niepodległości. Jak dotąd było to zależne od tego, co ludzie zrobili w przeszłości. Aby zachować aktualność, musi ona w dalszym ciągu zależeć od tego, co mogą zrobić sami ludzie.
Jeśli zdolność LLM do dalszego pobierania treści tworzonych przez ludzi zostanie znacznie ograniczona, nie będą one mogły w przyszłości dodawać, aktualizować, poprawiać i rozszerzać swoich zbiorów danych. Upadek ich użyteczności mógłby być powolny, ale byłby mniej więcej gwarantowany.
Ręce precz od moich informacji osobistych!
Oprócz pragnienia wydawców, autorów i innych twórców, aby trzymać genAI z daleka od ich treści, istnieje inny bardzo realny problem, przed którym stanie w najbliższej przyszłości. Konieczność zapewnienia, że podczas usuwania milionów gigabajtów danych z sieci nie zostaną w sposób niezamierzony przechwycone dane osobowe (PII) lub inne rodzaje danych chronionych obowiązującymi przepisami.
- FTC wszczęła dochodzenie w sprawie OpenAI w związku z kwestiami ochrony konsumentów.
- Włochy, jak powszechnie donoszono, po prostu zakazały OpenAI i ChatGPT w związku z przetwarzaniem danych osobowych, a także brakiem kontroli weryfikacji wieku. Działalność została przywrócona po spełnieniu żądań Włoch.
- Europejskie wyzwania wcale się nie skończyły. Szeroko zakrojona skarga złożona w Polsce twierdzi, że OpenAI „systematycznie narusza” RODO.
Wystarczy powiedzieć, że sądy europejskie są zwykle bardziej przychylne prawu obywateli niż zyskom wielkich technologii.
Nawet nie wspomnieliśmy o zaufaniu i bezpieczeństwie. Obawy te poruszyłem podczas mojej niedawnej rozmowy z Afrazem Jaffrim, ekspertem ds. cyklu szumu AI firmy Gartner, który powiedział:
Pierwszą kwestią jest właściwie aspekt zaufania. Niezależnie od zewnętrznych przepisów, nadal panuje powszechne przekonanie, że bardzo trudno jest kontrolować dane wyjściowe modeli i zagwarantować, że dane wyjściowe są rzeczywiście prawidłowe. To duża przeszkoda.
Jaka przyszłość czeka genAI? Cykl szumu Gartnera
Czy to wszystko spowoduje wyłącznik?
Łatwo powiedzieć, że genAI pozostanie na stałe. Wiele osób to powiedziało. I rzeczywiście, jest mało prawdopodobne, aby znaczący — jeśli nie całkowicie nowatorski — postęp technologiczny został zapomniany lub porzucony. Organizacje będą co najmniej korzystać z tych możliwości w swoich własnych zbiorach danych lub w ostrożnie określonych zewnętrznych zbiorach danych, co będzie odpowiadać wielu ważnym przypadkom użycia.
Niemniej jednak szanse, że genAI zostanie zakłócona, ograniczona i w znacznym stopniu zmieniona przez pewną kombinację blokad regulacyjnych, wyzwań prawnych, kwestii zaufania – i innych jeszcze niewidzianych przeszkód – są znacznie powyżej zera.
- Donald Davison, „Test Turinga”, Mind 59 (1950) ↩︎
Powiązane historie
Nowość w MarTechu