IoT・AI

2024年大注目! マルチモーダルAI

掲載日:2024/07/23

2024年大注目! マルチモーダルAI

2024年5月に、生成AI「GPT-4o」やGoogleの「Gemini」アップデート、Microsoftの「Copilot+PC」など次々に新しいAIが発表された。AI隆盛期ともいえる現在、注目されている一つが、複数種類のデータを処理できる「マルチモーダルAI」だ。従来のAIとは何が異なるのだろうか。

シングルモーダルとは何が違う?

従来のAIは、シングルモーダルAI(Single modal AI)またはユニモーダルAI(Unimodal AI)などと呼ばれ、一つのモーダルしか処理できない。AIにおけるモーダルとは入力される情報のことで、テキスト、音声、静止画、動画などが挙げられる。

これに対して、「マルチモーダル」は、人間の脳と同様にさまざまな種類の情報を同時に処理・解析が可能だ。動画解析をする場合、シングルモーダルAIでは映像のみ、または音声のみで処理を行うが、マルチモーダルAIでは映像と音声を同時に処理する。

監視カメラを例に挙げると、従来は映像の解析しかできず、カメラに映らない場所で異常が発生していても検出不可能なため、死角がないようにカメラの設置台数を増やすなどして対策する必要がある。一方、マルチモーダルAIを用いた監視カメラであれば、映像だけでなく人の声や異音なども同時に検知でき、カメラに映らない場所で発生した異常も検出される可能性が高まり、映像だけでは判断できない事象でも音で情報を補うことができる。

マルチモーダルAIの研究は1980年代から行われていたが、研究が急速に進み始めたのはディープラーニングが登場してからのことだ。マルチモーダルAIはLLM(大規模言語モデル)との親和性が高いとされ、LLMの発展がマルチモーダルAIの研究を推し進めており、複数のモーダルを扱えるLLMはマルチモーダルLLM(MM-LLM)と呼ばれている。

マルチモーダルAIとAGI

複数のモーダルを用いるAIと聞くと、AGI(汎用人工知能)を思い浮かべる方もいるだろう。AGIも一言で説明すれば「人間のような汎用的な知能を持つAI」で、マルチモーダルAIとほぼ同じ意味になる。しかし、AGIの特徴の一つである「複雑な情報を分析し、最適な選択を行うなどのAI自身での判断や意思決定」はマルチモーダルAIにはできない。

しかし、複数種類の情報を一度に処理することから、マルチモーダルAIは人間に近い知能を持つAGI実現のための重要なステップであるとされている。

マルチモーダルAIの活用例

製造業では不良品を検出する外観検査などにAIの導入が進んでいるが、マルチモーダルAIの活用によってさらに精密な検査が期待できるだろう。また、カメラと複数センサーが搭載された産業用ロボットも登場しており、このロボットには画像や角度、速度、触覚など複数の情報をインプット可能だ。

物流業では、不正な貨物を検査する際に貨物の重さや色、形状、送付状の内容や印字などさまざまな外観情報を参考にしている。そのため、マルチモーダルAI を活用すれば3D情報や画像、テキスト、テーブルデータといった複数の情報を基に、より正確な検査が可能になる。

実は、自動運転もマルチモーダルAIを利用した技術だ。周囲の人や物、自動車、信号などを認識し、車間距離の調整やブレーキなどを動作させているほか、カメラやミリ波センサー、加速度センサー、GPSなど複数の情報を収集し、リアルタイムで総合的に解析できるようになっているのだ。

期待したい今後の活用

国立研究開発法人産業技術総合研究所では、素材や製造プロセスの情報にとどまらず、顕微鏡画像や分光スペクトルなどのデータも利用して、一つのデータでは把握できなかった材料の状態を高度に予測するマルチモーダルを研究してきた。その結果、現在までに高分子複合材料で力学物性、熱物性、電気物性を予測するマルチモーダルAIの構築に成功している。この研究は、あらゆる複雑な材料や製造プロセスで生かされ、新しい材料開発や製造プロセスの最適化に役立つだろう。

一方で、マルチモーダルAIのデータセットは英語で開発されたものが大半を占めており、日本語には弱いのが現状だ。ただ、日本語や日本文化を認識・理解し、生成や分析などを行うモデルの研究開発は始まったばかり。生成AIの発展速度を考えれば、マルチモーダルAIが日本語にも対応してあらゆる場面で活用される日もそう遠くないだろう。現時点ではマルチモーダルAIを実装したシステムや機械は少ないが、研究開発の成果は目覚ましい。最新の情報に注目しながら今後に期待したい。