テクノロジーの分野で今年最も注目されたテーマの一つが画像生成AIだ。イーロン・マスク氏も創業に関わった非営利団体OpenAIの「DALL・E2」、英国スタートアップの「Stable Diffusion」などのサービスが登場する中、今回はサンフランシスコのスタートアップが開発し日本でも大きな話題になっているMidjourneyに注目してみたい。
オンライン上のあらゆる画像を適切に引用
Midjourneyの特徴の一つは、その手軽さにある。サービスはオンラインゲームプレイヤーが多く利用するSNS、Discord上で提供され、アカウントがあれば誰でもすぐに利用が可能。Discordのアカウント自体すぐに作成でき、1アカウント25回前後の画像生成が無料で行えるため、すでにMidjourneyを試した方も多いのではないだろうか。
利用方法に関する詳細な解説は、ほかに譲りたいが、その使い方はきわめて単純だ。Midjourneyスレッドのメッセージ欄に文章やカンマで区切った単語を入力することでAIが自動的に画像を生成する。プロンプトと呼ばれる指示内容を入力すると4枚の候補画像が生成され、気に入った画像を高解像度化することで高品質なオリジナル作品が完成する。
使い方こそ簡単だが、実際に試してみると分かる通り、言葉による指示で思い通りの絵をAIに描かせることは決して容易ではない。単語の羅列よりも文章として説明した方が精度もあがるようだが、そうすると今度は補足的な指示に過大に反応するなど、AIにイメージを伝えるのは人に伝える以上に難しい。また画像生成AIはその性質上、言語に強く依拠するため、英語圏の人々のものの見方に大きく影響されることも難しさの理由のようだ。
一部の国内ユーザーはプロンプト入力を“呪文詠唱”と呼ぶようだが、Midjourneyに生成された魅力的なイマジネーションの世界を目にすると、呪文という言葉が腑に落ちてしまう。
テクノロジーの観点で画像生成AIを見た場合、その背景にはDiffusion Model(拡散モデル)をはじめとする画像生成技術の急速な進歩がある。なかでも注目したいのは、2021年にアメリカの非営利団体OpenAIが提供を開始した画像分類モデルCLIPの存在だ。
これまで画像分類に関する機械学習は、ラベル付き画像に基づき行われてきたが、ラベルの意味自体は無視されてきた。それに対しラベル内容を分析し、画像のどの要素に対応しているかまで自律的に判断することがCLIPの特徴だ。それにより画像生成AIはオンライン上のあらゆる画像を適切に引用することが論理上可能になった。
目指すのは人々のイマジンの解放
創業者CEOのデビッド・ホルツ氏によると、サンフランシスコを拠点にしたスタートアップのMidjourneyが画像分野の取り組みを開始したのはわずか1年半ほど前のことという。そこからもテクノロジー面でのOpenAIの存在の大きさがうかがえる。ホルツ氏は自社を「自己資金で運用される研究所」と表現しているが、同社は10~30ドルの課金サービスにより、すでに利益を出していると見られる。ビッグテックが支配するこの領域では、まさに異色の存在といえる。
一方、画像生成AIの台頭は、著作権を巡る新たな課題にもつながっている。それは大きく三つの観点に分けて議論されることが一般的だ。一つは「AI学習のために他人の著作物を収集・利用できるか」、次が「自動生成された画像に著作権は発生するか」、最後が「AIが自動生成した画像が既存の著作物に似ていた場合、著作権侵害になりえるか」という観点がそれである。
結論からいうと、現時点の法制度ではいずれもグレーというほかないのが実情のようだ。日本の著作権法では、文化的所産である著作物の円滑な利用の観点から、著作権には一定の制限が課されている。AI学習もこうした利用にあてはまると考えられるが、著作権者の意向を尊重すべきという解釈も当然考えられる。また現在の著作権法では著作権が発生するのは人間の創作物に限られるが、一方ではプロンプトを創作物とする考え方も成り立つはずだ。AIアートの取り扱いは今後、法曹界でも議論が進むと見られている。
さらには職業イラストレーターへの影響も考える必要があるだろう。この問題に関し、ホルツ氏はきわめて興味深い発言をしている。「Midjourneyが目指すのはAIアートではなく、人々のイマジンの解放である」という言葉がそれだ。
音楽を例にすると、楽器演奏の上達は演奏とフィードバックの繰り返しが大きな役割を果たす。試行錯誤が大きな意味を持つのは絵画も同じだ。絵筆を使った専門的な美術トレーニングに触れる機会がなかった多くの人にとり、絵筆なしに試行錯誤が繰り返せる画像生成AIは大きな福音になることは間違いない。