Что может нарушить будущее генеративного искусственного интеллекта?

Опубликовано: 2023-09-22

В наши дни много разговоров о том, как генеративный ИИ может лишить людей работы. Не так много внимания уделяется тому, как люди могут лишить генеративный ИИ работы. Но они могли бы — и вполне возможно, что так и сделают.

GenAI и базовые модели, на которых он основан, в настоящее время находятся на головокружительном пике ажиотажа Gartner. Если модель Gartner верна, эти инструменты могут вот-вот погрузиться в «корыто разочарования», прежде чем через несколько лет выйти на плато полезной производительности.

Однако есть аргумент, что разочарование может навсегда поглотить продукты genAI. В дополнение к рискам, связанным с зависимостью от того, что по сути является бессознательным и аморальным «интеллектом», пользователи также сталкиваются с вполне реальной перспективой того, что проблемы авторского права и конфиденциальности могут смертельно ранить большие языковые модели (LLM), такие как ChatGPT.

Давайте разберем их по порядку.

Национальный реестр Do Not Scrape?

Издатели монетизируют контент. Они не стремятся к тому, чтобы третьи стороны монетизировали этот контент без разрешения, тем более что издатели, скорее всего, уже заплатили за него. Профессиональные авторы монетизируют то, что пишут. Они также не стремятся к тому, чтобы третьи лица получали прибыль от своей работы без вознаграждения создателя. Все, что я говорю здесь о письменном контенте, в равной степени применимо к графике, видео и любому другому творческому контенту.

Конечно, у нас есть законы об авторском праве, которые защищают издателей и авторов от прямого воровства. Это не помогает с genAI, потому что он сканирует так много источников, что конечный результат может не напоминать только один из отдельных источников (хотя это может случиться).

Прямо сейчас издатели активно ищут способы запретить LLM собирать их контент. Это сложная техническая задача

В этом видео участник MarTech Грег Кребил обсуждает способы, которыми издатели могут попытаться заблокировать LLM. Он также приводит доводы в пользу изменения условий, чтобы подготовить почву для будущих судебных исков. Как он, кажется, признает, ни одно из его предложений не является провалом. Например, возможно ли запретить Google сканировать ваш сайт для захвата контента, не останавливая при этом сканирование вашего сайта для размещения его в результатах поиска? Кроме того, судебные иски обходятся дорого.

Но как насчет нормативного исправления? Помните бесконечные надоедливые звонки по телемаркетингу? Национальный реестр «Не звонить» положил этому конец. Каждый, кому было небезразлично, мог зарегистрировать свой номер, а телемаркетеры могли продолжать звонить по нему, только рискуя, что Федеральная торговая комиссия наложит огромные штрафы.

Регистрация доменов в Национальном реестре Do Not Scrape может оказаться более сложной задачей, но в общих чертах можно увидеть, как может работать такая стратегия регулирования. Будет ли выявлено каждое нарушение? Конечно, нет. Но то же самое касается, например, GDPR. GDPR требует соблюдения требований не потому, что обнаруживается каждое нарушение, а потому, что обнаруженные нарушения могут привести к суровым санкциям — «беспрецедентно высоким штрафам, составляющим до 4 процентов от общего глобального дохода компании».

Слишком поздно. У GenAI уже есть данные

Независимо от того, существует ли техническое или нормативное решение, позволяющее остановить кражу контента генИИ, разве эта лошадь уже не покинула конюшню? LLM уже прошли обучение на невероятно больших наборах данных. Они могут быть склонны к ошибкам, но в каком-то смысле они знают все.

Ну, они знают всё, что было ещё пару лет назад. ChatGPT-4 был предварительно обучен на данных, начиная с сентября 2021 года. Это означает, что он многого не знает. Давайте напомним себе, с чем мы здесь имеем дело.

Копните глубже: Искусственный интеллект: руководство для начинающих

GenAI использует алгоритмы для прогнозирования следующего лучшего фрагмента текста, который нужно создать, на основе всех тех миллионов фрагментов текста, на которых он обучался. «Интеллектуальным» его делает то, что он может улучшать свои собственные алгоритмы на основе обратной связи и ответов (человеку не обязательно возиться с алгоритмами, хотя, конечно, он мог бы).

Чего genAI не делает — и не может — так это узнавать о мире то, что находится за пределами его обучающего набора данных. Это подчеркивает точку зрения таких философов, как Дональд Дэвидсон ¹ , о том, что ИИ не имеет причинных связей с миром. Если я хочу знать, идет ли дождь, я не полагаюсь на набор данных; Я смотрю в окно. Говоря технически, у genAI может быть отличный синтаксис (грамматика), но он чужд семантике (значению).

Из этого следует сделать вывод, что ИИ полностью зависит от таких существ, как мы, причинно связанных с миром; кто может сказать, идет ли дождь, есть ли на небе луна, разработал ли Джефферсон Декларацию независимости. До сих пор это зависело от того, что люди делали в прошлом. Чтобы оставаться актуальным, оно должно продолжать зависеть от того, что могут сделать только люди.

Если способность LLM продолжать собирать контент, созданный людьми, будет значительно замедлена, они не смогут добавлять, обновлять, исправлять и дополнять свои наборы данных в будущем. Упадок их полезности может быть медленным, но он будет более или менее гарантирован.

Руки прочь от моей личной информации!

Помимо стремления издателей, авторов и других создателей не допускать использования genAI в своем контенте, существует еще одна вполне реальная проблема, с которой он столкнется в ближайшем будущем. Необходимость каким-то образом гарантировать, что при извлечении миллионов гигабайт данных из Интернета они непреднамеренно не захватят личную информацию (PII) или другие типы данных, защищенные существующими правилами.

Федеральная торговая комиссия начала расследование в отношении OpenAI по вопросам защиты прав потребителей.
Италия, как широко сообщалось, просто запретила OpenAI и ChatGPT из-за обработки личных данных, а также отсутствия контроля проверки возраста. Операции были восстановлены после выполнения требований Италии.
Европейские вызовы ни в коем случае не закончились. В масштабной жалобе, поданной в Польше, утверждается, что OpenAI «систематически нарушает» GDPR.

Достаточно сказать, что европейские суды, как правило, больше сочувствуют правам граждан, чем прибылям крупных технологических компаний.

Мы даже не упомянули о доверии и безопасности. Эти опасения были озвучены в моем недавнем разговоре с экспертом Gartner по циклу ажиотажа вокруг искусственного интеллекта Афразом Джаффри, который сказал:

На самом деле первая проблема — это аспект доверия. Независимо от внешних правил, по-прежнему существует фундаментальное мнение, что очень сложно контролировать выходные данные моделей и гарантировать, что они действительно верны. Это большое препятствие.
Что ждет генИИ в будущем? Цикл хайпа Gartner

Будет ли все это вызывать выключение?

Легко сказать, что генИИ никуда не денется. Многие люди сказали это. И действительно, важное – если не совсем новое – развитие технологий вряд ли будет забыто или оставлено. Как минимум, организации будут продолжать использовать эти возможности в своих собственных наборах данных или тщательно определенных внешних наборах данных, и это будет соответствовать многим важным сценариям использования.

Тем не менее, шансы на то, что генИИ будет нарушен, ограничен и сильно изменен из-за некоторого сочетания нормативных блоков, юридических проблем, проблем с доверием – и других пока еще невидимых препятствий – значительно выше нуля.

Дональд Дэвисон, «Тест Тьюринга», Mind 59 (1950) ↩︎

Добавьте MarTech в свою ленту новостей Google.

Похожие истории

Новое в MarTech

Разжигание ненависти в социальных сетях может нанести существенный вред брендам: исследование

Переосмысление управления контентом в эпоху генеративного искусственного интеллекта

Последние вакансии в сфере Мартех

Релизы маркетинговых технологий на основе искусственного интеллекта на этой неделе

State Farm и iHeartMedia проведут опыт Эда Ширана в Fortnite