AI 生成コンテンツを見つける方法

公開: 2023-01-17

さて、いよいよロボット乗っ取りです。

今日のロボットは、車を作ったり、パスタを調理したりするだけではありません。彼らは本格的な会話をし、記事を書いています (これとは異なります)。

それは正しい。人工知能 (AI) の世界におけるいくつかの大きなブレークスルーのおかげで、私たちは人間のようなテキストを生成できる洗練されたツールを手に入れました。

しかし、AI コンテンツ検出ツールもあります。

これに驚かない人もいます。結局、AI によって書かれた記事は、主流のメディアソースで何年も前から公開されてきました。おそらく、これらの AI によって書かれた記事の 1 つを、気付かないうちに読んだことさえあるでしょう。

違いは、現在の洗練されたレベルです。以前は、AI コンテンツ生成ツールは基本的に、株価レポートやスポーツの最新情報など、簡単に消化できるトピックに関する記事のみを作成することに制限されていました。

しかし最近では、機械生成コンテンツがあらゆる場所にあり、すべてを網羅しています。

そして、それは人間が書いたコンテンツと実質的に見分けがつきません…

またはそれは？

確認してみましょう。

AI生成コンテンツとは?
AI 生成コンテンツが問題となる理由
AI 生成コンテンツの見分け方: ハイレベル
AI 生成コンテンツを見つける方法: 具体的な戦術
- 繰り返し語彙を探します。
- 珍しい単語や非常に具体的な単語にフラグを立てます。
- 言い回しに注意。
- 言語の流動性を評価します。
- 複雑さを考慮してください。
- スラング、慣用句、比喩を探しましょう。
- タイプミスを数えます。
これはどれほど重要ですか?

AI生成コンテンツとは?

AI によって生成されたコンテンツは、機械学習アルゴリズムによって生成されたテキスト、メッセージ、記事、または別のタイプのコンテンツです。通常、ユーザーはプロンプトを入力して、AI が特定のトピックについて書くように誘導したり、質問をしたり、特定のイベントをカバーするように指示したりできます。

プロンプトに応答して、AI が動き出し、読みやすく、理解しやすく、できれば効果的なものを生成します。

AI コンテンツ作成は、一部の最大級のオンライン Web サイトでコンテンツ速度をスケーリングできることでも宣伝されています。

OpenAI の最新プロジェクトである ChatGPT は、この例です。組織自身の言葉では、「私たちは、会話形式で対話する ChatGPT と呼ばれるモデルをトレーニングしました。対話形式により、ChatGPT はフォローアップの質問に答え、間違いを認め、誤った前提に異議を唱え、不適切な要求を拒否することができます。」

それはどのように機能しますか？

ChatGPT 言語モデルは、教師あり学習と強化学習の両方を使用しますが、強化学習をより多く使用し、人間のフィードバックに依存して微調整を行います。基本的に、それは事実上無限の数の文脈にわたって人間の言語の例を観察し、模倣しようとします。次に、人間と「対話」し、より受け入れられ、望ましい言語出力に導くことができます。 AI モデルが言語を「理解」するのに役立つ何百万もの小さなフィードバックループにより、言語の使用を習得するのは時間の問題です。

後でわかるように、これは「真の」熟達ではありません。

この文脈での AI は、部外者にはそのように見えるかもしれませんが、主題について脳で理解することはありません。 AI は自分が言っていることを真に考えているわけではなく、トピックを処理する際に高度な認知機能を実行していません。

代わりに、AI は、Web 全体や対話するユーザーのプロンプトや応答で複製されているパターンを観察して模倣しているだけです。

数十億の例の後、AI が名詞、動詞、形容詞を完全に適切に使用して、従来の英語の文構造を模倣することは自明のことです。

さらに数十億の例といくつかのコンテキスト固有の情報があれば、産業革命がなぜ、どのように起こったのかについて、短いパラグラフを書き上げることができます。

もちろん、ChatGPT は AI 生成コンテンツアプリケーションの一例にすぎません。実際、起業家や破壊的なイノベーターがこの新しいテクノロジーの最も収益性の高いアプリケーションを思いつくことができるかを競う中、今後数年間で AI コンテンツ生成ツールが爆発的に増加することが予想されます。

特定のカテゴリ内のニュースストーリーの生成、SEO 向けの執筆、大学のエッセイの執筆、さらにはビジネスメールの生成など、個々のユースケースに特化したツールが登場する可能性があります。

人間の作家になるなんて、なんて時代なんだ。または読者。

AI 生成コンテンツが問題となる理由

私自身の仕事の不安定さについての皮肉なジョークはさておき、AI によって生成されたコンテンツには複数の領域で問題が生じる可能性があると言っても過言ではありません。

この小さな可能性の選択を考えてみてください。

学術上の不正行為。 学生が AI を使用してエッセイや宿題への回答などを生成する可能性について、学者の世界はすでに頭を悩ませています。生徒が書いたエッセイと機械で作成されたエッセイの違いを見分けることが不可能、または難しい場合、生徒を適切に採点して報酬を与えていることをどのように確認できますか? ChatGPTをある程度効果的に使用する方法を知っているだけで、英語のような分野で学位を取得できますか?
コンテンツスパム。 コンテンツスパムは、別の潜在的な問題です。何年もの間、検索エンジン最適化 (SEO) 業界は、人間のライターの仕事に大きく依存してきました。オンサイトコンテンツ、オフサイトコンテンツを作成し、バックリンクを構築することで、Web サイトの権威が確立され、検索エンジンで上位にランク付けされるようになります。また、有能な人間が執筆を行っていても、Web は積極的なコンテンツ制作で過負荷になっています。どこを見ても、最小限の情報しか提供していないが、SEO の目的を果たしているふわふわした記事や宣伝用の記事があります。マーケティング担当者が記事全体を数秒で生成できるようになると、問題はさらに悪化します。
不正確さと偽のニュース。 ChatGPT は、偏見の影響を受けたり、不正確な情報を報告したりしないように、安全対策を講じて特別に開発されています。しかし、これらのセーフガードはどの程度信頼できるのでしょうか? そして、それらはすべての AI コンテンツ生成ツールに適用できるのでしょうか? いずれにせよ、不正確さと偽のニュースは正当な懸念事項です。

AI 生成コンテンツの見分け方: ハイレベル

では、AI によって生成されたコンテンツをどのように見つけることができるでしょうか?

人間が書いた文章と何が違うのですか？

高レベルのアプローチから始めます。

ツールまたは手動のアプローチを使用して、AI によって生成されたコンテンツの検出を試みることができます。ツールベースのアプローチでは、コンテンツの一部が機械によって作成されたという潜在的なシグナルを識別して測定するように設計およびプログラムされた特定のアプリケーションが必要になります。手動のアプローチでは、自分自身のデューデリジェンスと常識を使用して作業を行います。

どちらの状況でも、成功はパターンを検出する能力にかかっています。 AI コンテンツ生成ツールは、人間と同じくらい創造的で思慮深いように見えるかもしれませんが、そのアプローチは非常に数学的であり、既存のパターンに基づいていることを忘れないでください。したがって、彼らが作成するコンテンツを精査すると、彼らが研究したパターンが明らかになります。

AI によって生成されたコンテンツの 1 つの癖や特徴に気付くだけでは、コンテンツの一部が機械によって作成されたことを明確に証明するには不十分です。しかし、複数の特徴に気付き始め、それらの信号が作品全体で一貫している場合、その作品はおそらく AI によって書かれた、または少なくとも、無能な人間の作者によって書かれたと結論付けることができます。

AI 生成コンテンツを見つける方法: 具体的な戦術

それでは、詳細を掘り下げてみましょう。

確かに、AI によって生成されたコンテンツを特定および検出するために、ツールまたは独自の適切な判断を使用できます。しかし、これらのマシンの中で、具体的に何を探しているのでしょうか?

これらは、機械によって書かれたコンテンツと人間によって書かれたコンテンツの違いを識別するために使用できる戦術です。

繰り返し語彙を探します。

AI ライティングツールは、何百万もの異なるエントリのパターンと平均に基づいてすべての出力を作成します。彼らはできる限り一般的で平均的なルールに従いたいと考えているため、通常、英語で最も一般的な単語のみに焦点を当てています。 AI によって生成されたものであろうと、人間によって生成されたものであろうと、文章のどの部分にも、「the」、「and」、「but」などの特定の単語が何度も繰り返されています。

しかし、AI によって生成されたコンテンツでは、繰り返しがより顕著になり、より高度な語彙にも当てはまります。人間が書いたレストランのレビューでは、「おいしい」、「おいしい」、「おいしい」、「楽しい」、「美味しい」、「美味しい」、さらには「オルガスム」などの言葉を目にするかもしれません。 AI は、これらのうち 1 ～ 2 個しか使用できません。これらの説明的な言葉がカラフルで多様であるほど、コンテンツが人間によって書かれた可能性が高くなります。語彙が静的で反復的であるほど、コンテンツが AI によって書かれた可能性が高くなります。

珍しい単語や非常に具体的な単語にフラグを立てます。

同様に、まれな単語や非常に具体的な単語を十分に選択できれば、コンテンツが AI によって作成された可能性を排除できます。ほとんどの AI 生成マシンは、何百万ものクロールされたドキュメントで 1 回か 2 回しか遭遇しない単語を使用してリスクを負うことはありません。絶対に逸脱する必要がない限り、彼らは英語で最も一般的に使用されている単語だけに固執します.

自分のビジネスを特注品だとか、自分自身を博識だと言うのは大げさですが、私のカコラフィオフォビアはそうするのをためらわせます。これらの言葉は完全に混沌としていると主張するかもしれません。しかし、いずれにせよ、AI が書いた記事にこのようなテキストの段落が表示されることはありません。

言い回しに注意。

プリンストン大学の 4 年生である 22 歳の Edward Tian 氏は、一連のテキストが AI によって書かれたものかどうかを検出するコンテンツ検出ツールまたはアプリを考案しました。その主な評価基準の 1 つは「バースト性」です。

簡単に言えば、バースト性は、文構造の変化によって特徴付けられるテキストの特徴であり、AI コンテンツを検出するために使用されるツールです。

人間が何かを書くとき、文の長さとパターンの非常に多様な組み合わせを使用する傾向があります。短文あり。長文あり。両者の間に文があります。これのデモンストレーションとして、まさにこの段落を見ることができます。最短の文は 4 語しかないのに対し、最長の文は 26 語です。AI によって書かれたコンテンツでこの多様性を見つけることはおそらくないでしょう。

代わりに、文は似たような繰り返しになる傾向があり、ブロック状で (適切に) 機械的なパターンに従います。

言語の流動性を評価します。

言語の流動性は、やや主観的なものであるため、説明が難しい概念です。しかし、私たちのほとんどは、英語のネイティブスピーカーと、英語を初めて学ぶ人との違いを見分けることができます。なんで？私たちは一生この言語で話し、聞き、読み、書き、過ごしてきたので、この言語に精通しています。私たちは言語の力とその最適な使い方を理解しているので、その力を気軽に活用することができます。 AI ツールは言語のパターンを識別し、それらのパターンを繰り返すことができますが、それらのパターンの背後にある意味を理解していないため、現時点では流動性を正確に再現することはできません.

これをどのように評価し、AI によって書かれた作品と人間によって書かれた作品の違いを見分けることができますか? コンテンツの一部が人間によって読み上げられることを想像してみてください。それを読んでいる人は、快適で、暖かく、親しみやすいように見えますか? それとも、彼らの話し方に何か「ずれている」ように見えますか? 明らかに、書かれたテキストは会話テキストよりもフラットであり、私たちの何人かは自然に少しロボット的です. しかし、これらの他の明確な兆候のいくつかと組み合わせて、流動性の欠如は、機械の起源を示している可能性があります.

複雑さを考慮してください。

コンテンツはあなたを考えさせますか？それはあなたの既存の概念に挑戦しますか？理解しにくい概念が導入されていますか? これらのいずれかが当てはまる場合、その作品はおそらく人間によって書かれたものです。

現在、コンテンツ生成マシンは、事実を繰り返したり、Web 全体で見られるテキストの断片を再構成したりするのに優れています。しかし、彼らは斬新なアイデアを思いつくのが苦手です。 AI コンテンツジェネレーターには、現状に異議を唱えたり、主流の意見から逸脱したり、主要な前提に疑問を投げかけたり、創造的に考えたりする能力は実質的にありません。これができるのは人間だけです。

この違いは、自分が本当に理解しているトピック、または専門家と見なされているテーマに関する記事を読んでいるときに最も簡単に観察できます。主題の資料の真のマスターと、教科書から基本的な事実を逆流する人との違いは、ほとんどすぐにわかります。作品が複雑になればなるほど、それが人間に由来する可能性が高くなります。

スラング、慣用句、比喩を探しましょう。

今のところ、言語を非常にカジュアルに、そして説明的に使用できるのは、もっぱら人間の資質です。現在の AI コンテンツ生成ツールは、十分に洗練されていないか、スラング、イディオム、または比喩を使用するリスクを負うことを厭いません。

ジェネレーション Z のスラングを例に挙げて恥ずかしい思いをするつもりはありません。しかし、人間または機械のレビュアーがレストランでの料理の説明にどのようにアプローチするかについての私の例を思い出してください。これはわかりやすい例であり、単純なものですが、AI によって作成されたコンテンツの本文に表示するには、まだ複雑すぎる可能性があります。

タイプミスを数えます。

皮肉なことに、人々はタイプミスや間違いを目にすると、それが AI によって生成されたと考える可能性が高くなります。それは、あらゆる面で人間が機械よりも優れていると思い込む奇妙な偏見があるからです。しかし、実際にはその逆です。

AI アルゴリズムは、テキストの複製において機能的に完璧であるため、スペルミスや語彙の重大な誤用を見つけた場合、それが人間によって書かれたものであることをほぼ保証できます。

ある意味では、これはコンテンツが人間によって書かれたかどうかを判断できる最も信頼できるシグナルです。電卓が数値エラーを起こさないのと同様に、AI コンテンツジェネレーターは痛々しいほど単純なタイプミスを犯しません。

このため、次世代の AI コンテンツ生成エンジンには、不完全さを制御できる機能が含まれると思います。ボタンをクリックするだけで、AI コンテンツジェネレーターによって作成されたすべての記事に少なくとも 1 つのスペルミスが含まれていることを保証して、人為的に信憑性を高めることができます。

私たちは奇妙で皮肉な時代に生きています。

最終的な要約を探しているなら、それは次のとおりです。AI によって生成されたコンテンツは、ロボットのように反復的で、芸術的ではなく、単純なエラーを作ることができません。スラング、多様な語彙、優れた比喩、多様な文構造、複雑なアイデア、タイプミスはすべて、実在の人物によって書かれたものを読んでいるという確かな兆候です。

これはどれほど重要ですか?

映画「ブレードランナー」（および「ウエストワールド」のような同様のインスピレーションを受けた作品）では、中心的なテーマの 1 つは、人格とは何かを見極めることです。レプリカント (ブレードランナーの世界に登場する人造人間) が人間のように見え、人間のように話し、人間のように考え、人間のように感じさえする場合、それを人間ではないというレッテルを貼ることは本当に重要なのでしょうか?

AI が人間によって作成されたコンテンツと機能的に同一のコンテンツを作成できる場合、AI は同じように扱われるべきであるという考えに同意します。それは同じくらい価値があり、同じように説明的です。現実的には、これら 2 種類の生成されたコンテンツの違いをすぐに見分けるのに苦労している場合、これから読むコンテンツの各部分を誰が書いたのかという謎を解くために、フープを飛び越えたり、シャーロックホームズをプレイしたりする理由はありません。

しかし同時に、このような記事を公表し、内部化することは重要だと思います。それには主に次の 2 つの理由があります。

何を探すべきかを知っていれば、違いを見分けるのは簡単です。 ブレードランナーでは、人間とレプリカントを見分けるのは非常に困難です。しかし、この難しさは、人間が生成したテキストと AI が生成したテキストの最新の比較では一致しません。実際、長年の経験を持つプロのコミュニケーターとして、AI に由来する資料を指摘することは自明のことです。それは自慢ではありません。これは、これらの一見洗練されたツールが現在いかに初歩的であるかを示しています。

このように考えてください。チェスに慣れていない人は、おそらく、実験中の 10 代の若者によってハッキングされた初歩的な AI と、グランドマスターのゲーリー・カスパロフを打ち負かした画期的な IBM スーパーコンピューターである Deep Blue との違いを見分けることができないでしょう。しかし、ゲイリー・カスパロフは初歩的な AI を難なく打ち負かすでしょう。

優れたチェスプレーヤーは、怠惰な AI とディープブルーの違いを見分けるよう努める必要があるため、これは重要です。そして、良識ある読者は、ChatGPT と、最高の人間のライターの能力を超える AI との違いを見分けるよう努力する必要があります (ただし、公平を期すために、ChatGPT は、この例の怠惰な AI よりもディープブルーにはるかに近いです)。

AI コンテンツ生成ツールには場所があります。 この記事では、AI によって生成されたコンテンツの有用性とパフォーマンスを軽視することにかなりの時間を費やしてきましたが、現実には、これらの AI ツールには場所があります。それらは、人々に教え、助けを提供し、誰も夢にも思わなかった新技術の開発を可能にするのに非常に役立つ可能性があります。将来的には、トルストイやシェイクスピアの芸術性と表現力に匹敵するか、それを超えることができるかもしれません。

しかし、私たちが現在持っているツールに批判的で注意を払っている場合にのみ、それらを次のレベルに押し上げることができます. AI コンテンツ生成の欠点を指摘することで、これらのツールの開発者は、将来的にそれらの欠点を補うようになります。

この証拠はすでに見ることができます。 ChatGPT は、「不適切な前提に挑戦し、不適切な要求を拒否する」ことができると説明されています。そして、これらの要素が導入されたのは、Microsoft が展開した Twitter ベースの AI チャットボットである Tay の悲惨な失敗、または同様のデビューしたテクノロジのせいではないかと思わずにはいられません。記録として、Tay は荒らしによって馬鹿げた人種差別主義者と攻撃的になるように訓練されました - 24 時間以内に。

イノベーションの支持者としての私たちの仕事は、現在のテクノロジーの欠陥と弱点を指摘し、より良いものを開発するために努力できるようにすることです。本当に世界を変えることができる何か。

前のセクションで私が何をしたかに気づきましたか?

AI は、要点を説明するために、執筆中にブレードランナーの参照を生成するつもりはありません。

また、そのような皮肉なコメントをするつもりもありません。または、サードニックという言葉を使用します。

私はすべて人間です、ベイビー。

現在も将来も AI ライティングの魅力的なアプリケーションがいくつかあることは確かですが、コンテンツマーケティングと SEO 戦略に最大の影響を与えたい場合は、人間のライターが骨の折れる作業を行う必要があります。

人間のライターは、専門家、ソートリーダー、説得力のある巧みなコミュニケーターになることができます。

そして今のところ、AI ライターはそれに匹敵することはできません。

SEO を向上させ、読者を真に引き付けるコンテンツを作成したり、人間の専門家と他のデジタルマーケティング戦略を作成したりするための支援が必要な場合は、執筆の場所に来ました (しゃれの使用 – これもまた AI では不可能な作業です)。今すぐ無料相談をご利用ください。