生成 AI の将来を破壊するものは何でしょうか?
公開: 2023-09-22最近、生成型 AI がどのようにして人々を失業させる可能性があるかについて多くの話題があります。 人々がどのようにして生成 AI を仕事から排除できるかについては、あまり考慮されていません。 しかし、彼らはそれができるし、おそらくそうなるだろう。
GenAI とその基盤となる基盤モデルは現在、Gartner の誇大宣伝サイクルの目まぐるしいピークにあります。 Gartner のモデルが健全であれば、これらのツールは数年後には有用な生産性の停滞期に入る前に、「幻滅の谷」に突入しようとしているかもしれません。
しかし、幻滅の谷がgenAI製品を永久に飲み込んでしまう可能性があるという議論もある。 本質的に無意識で非道徳的な「知性」に依存することに潜むリスクに加え、ユーザーは、著作権とプライバシーの問題が ChatGPT のような大規模言語モデル (LLM) に致命的な傷を与える可能性があるという現実的な見通しにも直面しています。
順番に見ていきましょう。
全国的なDo Not Scrape登録?
パブリッシャーはコンテンツを収益化します。 特にパブリッシャーがすでに料金を支払っている可能性が高いため、彼らはサードパーティにそのコンテンツを許可なく収益化させようとはしていません。 プロの作家は自分の書いたものを収益化します。 彼らもまた、作成者に何の報酬も与えずに、第三者が自分たちの作品から利益を得ることを求めていません。 書かれたコンテンツについて私がここで述べたことはすべて、グラフィック、ビデオ、その他のクリエイティブなコンテンツにも同様に当てはまります。
もちろん、出版社や著者を直接の盗難から守る著作権法があります。 genAI は非常に多くのソースをクロールするため、最終的な出力が個々のソースの 1 つだけによく似ていない可能性があるため (実際にはそうなる可能性はありますが)、これらは役に立ちません。
現在、パブリッシャーは LLM によるコンテンツのスクレイピングをブロックする方法を積極的に検討しています。 技術的には難しい挑戦だ
このビデオでは、MarTech の寄稿者である Greg Krehbiel が、パブリッシャーが LLM をブロックしようとする方法について説明しています。 彼はまた、将来の訴訟の根拠を準備するために契約条件の変更を主張しています。 彼も認めているようですが、彼の提案はどれも間違いではありません。 たとえば、コンテンツを取得するためにサイトをクロールする Google を、検索結果に表示するためにサイトをクロールするのを停止することなく停止することは実現可能でしょうか。 また、訴訟には費用がかかります。
しかし、規制上の修正はどうなるのでしょうか? 電話勧誘電話の際限のない煩わしさを覚えていますか? National Do Not Call Register がこれを阻止しました。 関心のある人は誰でも自分の番号を登録でき、電話勧誘業者は FTC が高額の罰金を課すリスクを覚悟の上でのみ電話をかけ続けることができました。
National Do Not Scrape レジスターにドメインを登録することは、より困難な作業になる可能性がありますが、一般的には、そのような規制戦略がどのように機能するかがわかります。 すべての侵害が検出されるでしょうか? 確かにそうではありません。 しかし、たとえば GDPR についても同じことが当てはまります。 GDPR がコンプライアンスを命じているのは、すべての侵害が検出されるからではなく、検出された侵害が「企業の全世界収益の最大 4% という前例のない高額な罰金」という重い制裁につながる可能性があるからです。
もう手遅れです。 GenAIはすでにデータを持っています
genAIによるコンテンツ盗用を阻止するための技術的修正や規制上の修正があるにせよ、その馬はすでに厩舎を離れたのではないでしょうか? LLM は、想像を絶するほど大規模なデータセットですでにトレーニングされています。 彼らは間違いを犯しやすいかもしれませんが、すべてを知っているという感覚があります。
まあ、彼らは数年前まではすべて知っています。 ChatGPT-4 は、2021 年 9 月を期限とするデータで事前トレーニングされました。つまり、知らないことがたくさんあるということです。 ここで何を扱っているかを思い出してください。
さらに詳しく: 人工知能: 初心者向けガイド
GenAI はアルゴリズムを使用して、トレーニングに使用された数百万のテキストすべてに基づいて、作成する次に最適なテキストを予測します。 これが「インテリジェント」である理由は、フィードバックと応答に基づいて独自のアルゴリズムを改善できることです (人間がアルゴリズムをいじる必要はありません。もちろん、人間はアルゴリズムをいじることができます)。
genAI がやらないこと、できないことは、データ トレーニング セットの外側にある世界についての情報を見つけることです。 これは、AI は世界と何の因果関係も持たないという、ドナルド デビッドソンのような哲学者による指摘を強調しています1 。 雨が降っているかどうかを知りたい場合は、データセットに依存しません。 私は窓の外を眺めます。 技術的に言えば、genAI は構文 (文法) は優れているかもしれませんが、セマンティクス (意味) に関しては未知のものです。
ここから導き出される結論は、AI は世界と因果関係を持つ私たちのような生き物に完全に依存しているということです。 雨が降っているかどうか、空に月があるかどうか、ジェファーソンが独立宣言を起草したかどうかを誰が判断できるだろうか。 これまでのところ、それは人々が過去に行ったことに依存していました。 時代との関連性を維持するには、人々だけができることに依存し続けなければなりません。
人間が作成したコンテンツをスクレイピングし続ける LLM の能力が大幅に遅れた場合、今後データセットの追加、更新、修正、拡張ができなくなります。 それらの有用性の消滅は遅いかもしれないが、それは多かれ少なかれ保証されるだろう。
私の個人情報には手を出さないでください!
genAI を自分たちのコンテンツから遠ざけようとする出版社、著者、その他のクリエイターの衝動に加えて、近い将来、genAI が直面する別の非常に現実的な問題があります。 Web から数百万ギガバイトのデータを収集する際に、個人識別情報 (PII) や既存の規制で保護されているその他の種類のデータを不用意に取得しないことを何らかの方法で保証する必要があります。
- FTCは消費者保護問題を巡り、OpenAIに対する調査を開始した。
- 広く報道されているように、イタリアは、個人データの取り扱いと年齢確認管理の欠如を理由に、OpenAI と ChatGPT を単純に禁止した。 イタリアの要求が遵守された後、操業は再開された。
- 欧州の挑戦は決して終わったわけではない。 ポーランドで提出された広範な告訴状では、OpenAI が GDPR の「組織的違反」をしていると主張されています。
欧州の裁判所は大手テクノロジー企業の利益よりも国民の権利に同情的な傾向があると言えば十分だろう。
信頼と安全についても言及していません。 これらの懸念は、Gartner の AI ハイプ サイクルの専門家である Afraz Jaffri 氏との最近の会話の中でカバーされており、彼は次のように述べています。
最初の問題は実際には信頼の側面です。 外部規制に関係なく、モデルの出力を制御し、出力が実際に正しいことを保証するのは非常に難しいという基本的な感覚が依然として存在します。 それは大きな障害です。
genAI の将来はどうなるでしょうか? ガートナーのハイプ サイクル
これらすべてがオフのスイッチを引き起こすでしょうか?
genAI が定着すると言うのは簡単です。 たくさんの人がそう言いました。 そして確かに、まったく新しいものではないにしても、重要なテクノロジーの発展は、忘れられたり放棄されたりする可能性は非常に低いです。 少なくとも、組織は独自のデータセット、または慎重に決定した外部データセットでこれらの機能を使用し続けることになり、多くの重要なユースケースに対応できます。
それにもかかわらず、規制のブロック、法的異議申し立て、信頼の問題、およびその他のまだ目に見えない障害の組み合わせによって、genAI が破壊され、制約され、大きく変化する可能性はゼロをはるかに上回っています。
- ドナルド・デイヴィソン、「チューリングのテスト」、マインド59 (1950) ↩︎
関連記事
マーテックの新機能