DALL・E 2によるAI画像生成はデジタルマーケティングでどのように活用できるのか?
公開: 2022-10-17「うわー、あなたはそれを取ったのですか? ちょっと待って、プロのカメラマンが撮った…?」
以下の画像を見せたときの MD の Jake の反応はこうでした: OpenAI の DALL·E 2 によって生成されたフォトリアリスティックな画像で、「ひまわりの蝶のマクロ写真」に対して入力したプロンプトを使用して数秒で作成されました。 .
とてもリアルに見える写真で、前景の蝶のシャープさと色、背景のひまわりのソフトフォーカスを捉えています. 実際、非常に多くの人が、AI が生成した画像によく見られる明らかなテイル テール サイン、アーティファクト、または違和感を見つけることができる人を見つけるのは難しいでしょう。
これは、高度な AI システムが、多くの場合、現実の生活と見分けがつかないフォトリアリスティックな画像を理解し、作成できる段階に入ったことを実感した瞬間でした。 これは、クリエイティブ業界やデジタル業界で働く人、または実際に画像の調達や操作に関係するすべての役割に興味深い影響を与えます。
この記事では、クリエイティブおよびデジタル マーケティングの世界で OpenAI の DALL·E 2 を使用する実用的なアプリケーションと、DALL·E 2 の最近アップグレードされた編集ツールを使用してクリエイティブな作業をサポートする方法について説明します。
DALL・E2とは?
OpenAI の DALL·E 2 は、単純なテキスト ベースのプロンプトを受け取り、そのプロンプトに対する AI の理解に基づいて画像を生成する、AI ベースの画像ジェネレータです。 数秒以内に 4 つの画像バリエーションが生成され、OpenAI アカウント内でダウンロード、共有、またはお気に入りとして保存できます。
DALL・E 2 が誰でも利用できるようになりました。 1 か月あたり 15 の無料クレジットを取得できます。世代ごとに 1 クレジットが必要で、115 クレジットごとに 15 ドルかかります。 DALL·E 2 コンテンツ ポリシーに準拠している限り、ゼロから画像を生成するか、独自の写真をアップロードして操作することができます。また、使用条件に従って、「商用目的を含むあらゆる法的目的で Generations を使用することができます」。
これにより、帰属が興味深いテーマになり、プロンプトを提供した人、画像または DALL・E 2 を編集する際の画像ソースにどれだけのクレジットを与えるべきかが決まります。たとえば、このブログ投稿で使用したすべての画像は、 DALL・E 2 で生成された、または変更されたストック ライブラリ イメージを生成しましたが、これらの生成または変更を自分に帰する場合、多少の詐欺を感じるでしょう。
画像は以下に基づいて生成できます。
- 主題:何でも好きな画像を生成できます。 風景、動物、物、抽象的な概念などは、ディープフェイクの拡散を避けるために有名人の画像を生成することを禁止するなどのコンテンツ ポリシーに従っている場合に限ります。
- 媒体:鉛筆スケッチや油絵からピクセル アートやデジタル イラストまで、DALL·E 2 はあらゆる種類の媒体を表す画像を生成できます。
- 環境設定: 「夕焼け」や「霧」などの環境要因をプロンプトに追加して、画像に雰囲気を与えます。
- 場所:画像を特定の場所に配置する必要がある場合は、プロンプトに都市または国を指定すると、その場所に関連付けられたランドマーク、建物のスタイルなどを取得する必要があります。
- 芸術的なスタイル: DALL·E 2 は、さまざまなアーティストのスタイルで画像を生成できます。 プロンプトに「[アーティスト] のスタイルで」と追加するだけです。
- カメラ設定:写真スタイルに特に便利です。リクエストにカメラ設定を追加して、写真にさまざまなショットや品質を与えることができます。 例としては、「マクロ 35mm ショット」、「長時間露光」、「魚眼レンズ」などがあります。
自然言語を使用して上記のいずれかを組み合わせて、「ピカソ スタイルのパリのカフェにいるホーマー シンプソン」など、必要なものを説明すると、数秒で数世代が表示されます。
DALL·E 2 の機能を調べていると、可能性のうさぎの穴に迷い込んでしまいがちですが、この記事の後半で説明するように、特にデザインとマーケティングにおいて、このツールには多くの実用的なアプリケーションがあります。
DALL・E 2 はどのように機能しますか?
完全に理解しているふりをしたり、DALL・E 2 AI 画像生成がどのように機能するかを正確に説明したりするつもりはありません。これを行う記事はたくさんあります。 しかし、私が言えることは、複雑なロジック セットを使用するスマート アルゴリズム以上のものであるということです。 機械学習です。 何十億ものソース画像と自然言語、および両者の関係から時間をかけて訓練された人工知能。
その中心にあるのは、ランダム ノイズから始まり、要求されたプロンプトの AI の理解に似たものが現れるまで、複数のサイクルにわたって反復的に洗練される拡散モデルです。
DALL・E 2 ツール自体は簡単に使用できます。 ログインすると、単純な入力フィールドが表示され、テキスト プロンプトに基づいて画像の生成を開始したり、独自の画像をアップロードして編集したりできます。
多数の画像編集ツールが、生成された画像とアップロードされた画像の両方で利用できるようになります。これについては、この記事の後半で説明します。
画像ソースにDALL・E 2を使用
AI ベースの画像生成の最も明白な用途の 1 つは、ブログ投稿、プレゼンテーション、Web サイト、広告、およびその他のさまざまな媒体に使用する写真またはその他の画像スタイルを調達することです。 ShutterStock、iStockPhotos、または Unsplash などのストック フォト ライブラリは、画像の調達に関してはしばしば人気のある選択肢ですが、作成だけでなく、より高速で低コストの代替手段として、DALL·E 2 のようなものにますます注目するようになるでしょう。真にユニークで、オンラインのどこにも存在しない画像の。
DALL・E 2 は、「ゴールデンレトリバーがビーチに座って夕日を眺めている」や「キツネが森のブルーベルを太陽の下でジャンプしている写真」など、非常に具体的な主題を持つ画像をソースする場合に特に役立ちます。木々の間で輝く」。 さまざまなストック フォト ライブラリから同様の画像を入手するには、さらに時間がかかる可能性が高く、多くの場合、主題が存在しない可能性があります。
写真スタイルの画像生成で本当に驚くべきことは、DALL·E 2 があらゆる種類の環境設定を正確に再現できることです。 太陽光のまぶしさと影の正確なキャストから、クローズアップ オブジェクトのシャープネスと遠くの要素の段階的なぼかしまで。 「マクロ 35mm」、「フィッシュアイ」、「レンズ フレア」など、さまざまなカメラ ベースのセットアップのプロンプトを含めることもできます。
写真品質の画像を生成するとき、より一般的な主題からのより現実的な生成を観察しました。 たとえば、ブルーベルでジャンプしているキツネよりもビーチで犬の写真の方がはるかに多いため、AI が参照できるコンテンツが多くなります。
指摘する価値のある重要な制限の 1 つは、生成されるすべての画像が 1024 x 1024 ピクセルに制限されていることです。そのため、ビルボード用の写真はすぐには生成されません…
画像の寸法を拡張する
クリエイティブおよびマーケティングの世界で DALL·E 2 を使用する一般的な用途の 1 つは、新しい画像を完全に生成することではなく、既存の画像を強化および編集することです。 Web 開発者として、私はよく、まともな画像が見つかったものの、画像コンテナと画像の比率が異なるため、画像をアップロードすると、比率と寸法によってトリミングが不十分になるという課題に遭遇します。
これが例です。 注目のヒーローユニットで使用するために割り当てられた車の窓から犬が寄りかかっている素敵なストック画像ですが、ソース写真の標準的な横長の比率は、注目のヒーローの超ワイド21:9の比率ではうまく機能しませんでしたバナー。
DALL・E2に画像をアップロードし、「Generation Frame」ツールを使用することで、AIが隙間を埋めて画像を拡張することができます。 Generation Frame を使用するときは、元の画像の一部をフレーム内に保持して、AI が作業するためのより多くの情報を提供する必要があります。
ここではプロンプト テキストも重要であり、通常は、画像全体ではなく生成フレームで必要なものを説明する必要があります。 このプロンプトでは、「丘と空」を使用し、残りは DALL·E 2 に任せました。
DALL・E 2は世代ごとに4つのバリエーションからお選びいただけます。 私が感じた上の画像は、最も信頼できるものでした。 道路の十分な延長、生成された少数の樹木、劇的なオーバーレイではないいくつかの興味深い雲、および樹木の後ろを流れる小川 (私が求めたわけではありませんが、良い追加) が含まれています。
アーティファクトの編集
DALL·E 2 を使用すると、画像の問題のある部分をすばやく効率的に編集することもできます。以下の例は、建設管理者の安全メガネの気を散らす反射を置き換える必要があった最近のリクエストです。
消しゴム ツールを使用して、左上に表示されている画像の反射部分を編集し、「安全メガネをかけて iPad を見ている女性」というプロンプトを表示すると、DALL·E 2 は残りの部分を縁とハイライトまで生成しました。メガネの、シェーディングと正確なカラー マッチング。
既存の画像へのコンテンツの追加
同様に、要素を画像に追加することは、要素を削除するのと同じくらい簡単です。 これは、谷を見渡す人の写真の例です。 彼らの親友がそばにいればいいと思いませんか? 問題ありません。消しゴム ツールを使用して画像から犬サイズのスペースを消去し、適切なプロンプトを表示するだけです。 以下の例では、「遠くを見つめる女性の隣に座っているゴールデンレトリバー」が使用されました。
視覚的に類似した画像の生成
構図や主題に関しては本当に良い画像を見つけたかもしれませんが、何らかの理由でうまくいきません。 プロンプト テキストをまったく編集したり変更したりすることなく、「バリエーションの生成」機能を使用して、スタイルや構図が類似した画像を作成できます。
以下の例では、ライティング、シェーディング、カメラ アングルがすべて非常に類似しており、同じタイプの犬が再生成されています。また、ジャケットを着た女性が丘を眺め、道路が織り成す丘を眺めていますが、要素にはすべての要素が含まれています。かわった; 丘も道も新しく、女性も犬も違います。
ムードボードの作成
クリエイティブ プロジェクトの初期段階では、ムード ボードを使用して、既存のスクリーンショット、テキスト、画像を組み合わせてビジュアル スタイル、トーン、クリエイティブ ディレクションを設定することがよくあります。 鉛筆画やペイントからピクセル アートや 3D レンダリングまで、あらゆる種類のビジュアル スタイルを DALL·E 2 に指示できるため、ジェネレーティブ AI は視覚的なトーンや方向性を設定するための良い出発点となる可能性があります。
ブランド展開のサポート
新しいブランドを展開するときは、新しいデザインがさまざまな固定アイテムでどのように見えるかをモックアップするか、さまざまなデバイスでその場でウェブサイトのデザインを視覚化するのが一般的です. DALL・E 2 は、クライアントのビジネスに結びつくユニークな背景の生成をサポートできる可能性があります。
たとえば、環境志向のブランド向けに野の花畑で名刺の画像を生成したり、住宅建設部門のビジネス向けに背景にモダンな家を備えたラップトップのモックアップを作成したりします。
インスピレーションを得る
クリエイティブなロールアウト用の印刷準備完了または完全にデザインされたビジュアルを生成するには、まだ長い道のりがあると思いますが、DALL·E 2 がデザイン プロセスをサポートするのに役立つ可能性のある領域の 1 つは、クリエイティブ ジュースが流れるように迅速なインスピレーションを提供することです。 .
たとえば、「スチームパンクエールのロゴデザイン」というプロンプトを使用して、新しいスチームパンクをテーマにしたエールのロゴを生成しようとして、以下を生成しました。 DALL·E 2 はテキスト プロンプトを理解するのに優れていますが、テキスト生成は DALL·E 2 が苦労する領域の 1 つです。 作成されたすべてのバリエーションで、テキストは適格または無意味です。 とはいえ、色、構図、制作されたイメージで使用される要素など、これらのタイプの世代からインスピレーションが引き出される可能性はまだあると思います。
大まかなレイアウトの作成
DALL・E 2 がサポートできるもう 1 つの分野は、広告や Web サイトのデザインなどのアイデアや出発点として使用できる大まかなレイアウトと構成を調達することです。 以下のウェブサイトのデザインとパンフレットの広告の例は、「持続可能なエネルギー会社の [ウェブサイト] [パンフレット] のデザイン」というプロンプトに基づいています。
機械学習と数十億のソース画像の理解により、DALL·E 2 はレイアウトに関して標準的な規則を自然に取り入れます。 ウェブサイトのデザイン例では、メイン ナビゲーションはすべてのバリエーションで上部に表示され、ブランド ロゴは通常左上にあり、ほとんどの場合、ヘッダーの下に大きなヒーロー ユニットと大きな見出しがあり、その下にテキストの段落が続きます。 同様に、緑は自然に「持続可能性」という言葉と強い関連性があるため、これらのバリエーションの共通の色テーマでした.
テキストは非常に判読しにくく、レイアウト内の画像の多くは不明瞭ですが、構成の観点から、レイアウトのインスピレーションを探す際に DALL・E 2 が補助的な役割を果たすのに十分な可能性があると思います.
結論
OpenAI の DALL·E 2 と、Google の Imagen (まだ一般消費用ではありません) などの AI ベースの画像生成モデルで現在見られる進歩は、間違いなく印象的であり、デジタル マーケティングおよびクリエイティブ スペースにおけるそれらの役割は、はるかに重要であると私は見ています。クリエイティブおよびマーケティングに基づく役割に対する直接的な脅威ではなく、支援的なもの。 上記のいくつかの例で見たように、特に出力サイズとテキスト生成に関していくつかの明らかな制限があります。 記事で使用されているほとんどの写真ベースの画像でさえ、ほとんどの人はおそらくほとんどが本物の写真ではないことを知ることができますが、時間の経過とともにこれを見つけるのがますます難しくなります.
私たちはまだ AI 画像ベースの生成の初期段階にありますが、インスピレーションやアイデアの生成から、画像の調達や高度な画像編集まで、クリエイティブおよびマーケティングの分野で多くの有用なアプリケーションが見られます。 これらのツールの API が利用可能になり、PhotoShop や Figma などの一般的なデザイン ツールに組み込まれる日もそう遠くないでしょう。 これは魅力的な分野であり、今後数か月から数年にわたってその進歩を追っていきたいと思います。