생성 AI의 미래를 방해할 수 있는 것은 무엇입니까?
게시 됨: 2023-09-22요즘 생성 AI가 어떻게 사람들을 직장에서 쫓아낼 수 있는지에 대해 많은 이야기가 있습니다. 사람들이 어떻게 생성 AI를 중단시킬 수 있는지에 대해서는 그다지 많은 생각이 주어지지 않습니다. 하지만 그들은 그럴 수 있고, 아마도 그럴 것이다.
GenAI와 이를 기반으로 하는 기반 모델은 현재 Gartner 과대광고 주기의 어지러울 정도로 정점에 있습니다. Gartner의 모델이 타당하다면 이러한 도구는 몇 년 후에 유용한 생산성 수준에 도달하기 전에 "환멸의 골짜기"에 곧 빠질 수도 있습니다.
그러나 환멸의 골짜기가 genAI 제품을 영원히 삼킬 수 있다는 주장이 있습니다. 본질적으로 무의식적이고 비도덕적인 "지능"에 의존하는 데 내재된 위험 외에도 사용자는 저작권 및 개인 정보 보호 문제가 ChatGPT와 같은 대규모 언어 모델(LLM)에 치명상을 입힐 수 있다는 매우 실제적인 전망에 직면해 있습니다.
순서대로 살펴보겠습니다.
전국 Do Not Scrap 등록부입니까?
게시자는 콘텐츠로 수익을 창출합니다. 특히 게시자가 이미 비용을 지불했을 가능성이 높기 때문에 제3자가 허가 없이 해당 콘텐츠로 수익을 창출하도록 하려고 하지 않습니다. 전문 작가는 자신이 쓴 내용으로 수익을 창출합니다. 그들 역시 창작자에 대한 보상 없이 자신의 작업으로 인해 제3자가 이익을 얻으려고 하지 않습니다. 여기서 서면 콘텐츠에 관해 제가 말하는 모든 내용은 그래픽, 비디오 및 기타 창의적인 콘텐츠에 동일하게 적용됩니다.
물론 우리는 출판사와 저자를 직접적인 도용으로부터 보호하는 저작권법을 갖고 있습니다. genAI는 너무 많은 소스를 크롤링하여 최종 출력이 개별 소스 중 하나와 매우 유사하지 않을 수 있기 때문에(그런 일이 발생할 수 있음) genAI에는 도움이 되지 않습니다.
현재 게시자는 LLM이 콘텐츠를 스크랩하는 것을 차단하는 방법을 적극적으로 찾고 있습니다. 기술적으로 어려운 과제입니다
이 비디오에서 MarTech 기고자 Greg Krehbiel은 게시자가 LLM을 차단하려고 시도할 수 있는 방법에 대해 논의합니다. 그는 또한 향후 소송에 대한 근거를 준비하기 위해 이용 약관 변경에 대한 사례를 제시합니다. 그가 인정하는 것처럼 그의 제안 중 어느 것도 슬램덩크가 아닙니다. 예를 들어, Google이 사이트를 검색 결과에 표시하기 위해 사이트를 크롤링하는 것을 중단하지 않고 콘텐츠를 가져오기 위해 사이트를 크롤링하는 것을 중단하는 것이 현실적으로 가능합니까? 또한 소송에는 비용이 많이 듭니다.
하지만 규제 수정은 어떻습니까? 텔레마케팅 전화의 끝없는 성가심을 기억하십니까? National Do Not Call 등록부는 이를 중단시켰습니다. 관심이 있는 사람은 누구나 자신의 번호를 등록할 수 있었고 텔레마케터는 FTC가 막대한 벌금을 부과할 위험을 감수하고 계속해서 전화를 걸 수 있었습니다.
National Do Not Scrape 등록부에 도메인을 등록하는 것은 더 큰 부담이 될 수 있지만 일반적으로 이러한 규제 전략이 어떻게 작동하는지 확인할 수 있습니다. 모든 침해가 감지됩니까? 분명히 아니다. 그러나 예를 들어 GDPR의 경우에도 마찬가지입니다. GDPR은 모든 침해가 감지되기 때문에 규정 준수를 요구하는 것이 아니라, 감지된 침해가 강력한 제재를 받을 수 있기 때문에 규정을 준수하도록 요구합니다. 즉, "회사 전체 글로벌 수익의 최대 4%에 해당하는 전례 없이 높은 벌금"이 부과될 수 있기 때문입니다.
너무 늦었어요. GenAI에는 이미 데이터가 있습니다
genAI가 콘텐츠를 훔치는 것을 막기 위한 기술적 또는 규제적 수정이 있든, 그 말은 이미 마구간을 떠나지 않았습니까? LLM은 이미 상상할 수 없을 정도로 큰 데이터 세트에 대해 교육을 받았습니다. 그들은 실수하기 쉬울 수도 있지만 모든 것을 알고 있다는 느낌이 있습니다.
글쎄, 그들은 몇 년 전까지의 모든 것을 알고 있습니다. ChatGPT-4는 2021년 9월을 기준으로 데이터에 대해 사전 훈련되었습니다. 이는 모르는 것이 많다는 것을 의미합니다. 여기서 우리가 다루고 있는 내용을 기억해 봅시다.
더 자세히 알아보기: 인공 지능: 초보자 가이드
GenAI는 알고리즘을 사용하여 학습된 수백만 개의 텍스트를 모두 기반으로 생성할 다음으로 가장 좋은 텍스트를 예측합니다. 이를 "지능적"으로 만드는 이유는 피드백과 응답을 기반으로 자체 알고리즘을 개선할 수 있다는 것입니다. 물론 인간이 알고리즘을 조작할 필요는 없습니다.
genAI가 하지 않는 것(할 수 없는 것)은 데이터 훈련 세트 외부에 있는 세계에 대한 정보를 찾는 것입니다. 이는 Donald Davidson과 같은 철학자들이 1 AI가 세계와 인과 관계가 없다는 점을 강조합니다. 비가 오는지 알고 싶다면 데이터 세트에 의존하지 않습니다. 나는 창밖을 본다. 기술적으로 말하면, genAI는 훌륭한 구문(문법)을 가질 수 있지만 의미(의미)는 낯설습니다.
여기서 도출할 수 있는 결론은 AI가 우리와 같이 세계와 인과적으로 연결된 피조물에 전적으로 의존한다는 것입니다. 비가 오는지, 하늘에 달이 있는지, 제퍼슨이 독립선언문 초안을 작성했는지 누가 알 수 있을까요? 지금까지는 사람들이 과거에 무엇을 했는지에 따라 달라졌습니다. 관련성을 유지하려면 사람들이 혼자서 할 수 있는 일에 계속 의존해야 합니다.
사람이 만든 콘텐츠를 계속해서 스크랩하는 LLM의 능력이 크게 저하되면 앞으로 데이터 세트를 추가, 업데이트, 수정 및 강화할 수 없게 됩니다. 그 유용성이 사라지는 속도는 느리지만 어느 정도 보장될 것입니다.
내 PII에서 손 떼세요!
출판사, 저자 및 기타 제작자가 genAI를 자신의 콘텐츠에서 멀리 떨어뜨리려는 촉구에 더해, 가까운 미래에 genAI가 직면하게 될 또 다른 매우 실제적인 문제가 있습니다. 웹에서 수백만 기가바이트의 데이터를 스크랩하는 과정에서 개인 식별 정보(PII) 또는 기존 규정에 의해 보호되는 기타 유형의 데이터를 실수로 압수하지 않도록 어떻게든 보장해야 합니다.
- FTC는 소비자 보호 문제에 대해 OpenAI에 대한 조사를 시작했습니다.
- 널리 보도된 바와 같이 이탈리아는 개인 데이터 처리와 연령 확인 통제 부재로 인해 OpenAI와 ChatGPT를 금지했습니다. 이탈리아의 요구가 준수된 후 작업이 복원되었습니다.
- 유럽의 도전은 결코 끝나지 않았습니다. 폴란드에서 제기된 포괄적인 불만 사항은 OpenAI가 GDPR을 "체계적으로 위반"하고 있다고 주장합니다.
유럽 법원은 거대 기술 기업의 이익보다 시민의 권리에 더 우호적인 경향이 있다고만 말하면 충분합니다.
우리는 신뢰와 안전에 대해서는 언급조차 하지 않았습니다. 이러한 우려는 Gartner의 AI 과대 광고 주기 전문가인 Afraz Jaffri와의 최근 대화에서 다루어졌습니다. 그는 다음과 같이 말했습니다.
첫 번째 문제는 실제로 신뢰 측면입니다. 외부 규정에 관계없이 모델의 출력을 제어하고 출력이 실제로 정확하다는 것을 보장하는 것이 매우 어렵다는 근본적인 느낌이 여전히 있습니다. 그것은 큰 장애물입니다.
genAI의 미래는 어떻게 될까요? Gartner 하이프 사이클
이 모든 것이 꺼짐 스위치를 작동시키나요?
genAI가 여기에 있다고 말하기는 쉽습니다. 많은 사람들이 그렇게 말했습니다. 그리고 실제로, 완전히 새로운 것은 아니지만 중요한 기술 발전은 잊혀지거나 버려질 가능성이 거의 없습니다. 최소한 조직은 자체 데이터 세트 또는 신중하게 결정된 외부 데이터 세트에서 이러한 기능을 계속 사용할 것이며 이는 많은 중요한 사용 사례를 충족할 것입니다.
그럼에도 불구하고 genAI가 규제 블록, 법적 문제, 신뢰 문제 및 기타 아직 발견되지 않은 장애물의 조합으로 인해 중단되고 제약을 받고 크게 변경될 가능성은 0보다 훨씬 높습니다.
- 도널드 데이비슨, “튜링의 테스트”, Mind 59 (1950) ↩︎
관련 기사
MarTech의 새로운 소식