AIチャットのエンジンであるLLM(大規模学習モデル)は、インターネット上の膨大なテキストデータを学習に利用することで急速な進化を実現した。しかし、学習に利用可能な高品質なデータは今年中に枯渇するとも言われる。果たして、LLMは進化の壁に突き当たるのか。
「AIの2026年問題」の本質
ChatGPTが公開されたのは2022年のこと。ビジネスの領域に限っても、AIチャットはアイデア出しや情報の収集、ドラフト作成などに欠かせない存在になるなど、その後の進化はまさに驚くべきものである。しかし、進化は間もなく終わりを迎えるかもしれない。AIチャットのエンジンの役割を担うLLMの学習に不可欠な高品質データがまもなく枯渇するとみられることが、その理由である。これが「AIの2026年問題」の本質だ。
LLMはトレーニングを通して知識を構築し、言語の構造を理解することで、AIチャットの自然なやり取りを実現する。LLMのトレーニングは、質問・翻訳などの特定タスクに応じた「正解データ(入力と出力のペア)」を用意し、モデルに望ましい応答形式を教える調整プロセスを除くと、「教師なし学習」を通じて自律的に行われる。
トレーニングの第一段階が「自己教師あり学習」と名付けられた教師なし学習プロセスになる。その仕組みは、現代国語の試験で出題された文章の一部に適切な言葉を挿入する穴埋め問題をイメージすると理解しやすい。
自己教師あり学習では、AI自身が実際のテキストデータの一部を空白にした質問を作成し、そこに収まる適切な言葉をLLMに推測させるプロセスを通じて、言語の構造を理解していく。ただし、我々が知る現代国語の穴埋め問題との大きな違いが一つある。このトレーニングでは、宇宙物理学から料理レシピに至るあらゆるテキストの空白をノーヒントで埋めることが求められるのだ。AI自身が正誤を判定し、正しい答えに到達するまで何度でも学習は繰り返される。この単純なプロセスがAIチャットの洗練されたやり取りにつながることはまさに驚くほかないが、その実現には一連のプロセスの膨大な繰り返しが必要になることは言うまでもない。AIデータセンター向けメモリー需要の急増が価格の高騰につながった理由も、AI PCに高度な処理スペックが求められる理由もそこにある。
進化の壁ではなく転換点
また、トレーニングには膨大なテキストデータを必要とする。テキストデータは、大きく高品質テキストと低品質テキストに分けられる。前者は学術書や専門書、教科書、学術論文、百科事典、大手メディアのニュースや技術文書、政府データなど文法面の整合性と内容の正確性を兼ね備えたデータがあてはまる。後者はSNSへの投稿に代表される、文法的な間違いや誤情報が含まれるテキストデータである。トレーニングにおいて重要になるのが、効率的な学習が行える高品質テキストであることは言うまでもない。
LLMの学習データは当初、インターネットにアップされたあらゆる高品質テキストを利用していたとみられる。著作権保護と個人情報保護の観点から、現在は、書籍やニュース記事といった校閲済みの信頼できるテキストを契約に基づいて利用する形へと移行しているが、今後、新たに利用可能な高品質テキストの資源は2026年中に枯渇し、低品質テキストについても早ければ2030年には枯渇すると見られている。
では、学習用テキストの枯渇によりLLMは進化の壁に突き当たるのだろうか。既にいくつかの方向から、解決への試みが始まっている。一つが利用可能なデータを拡大する方向性だ。実データを模倣し、AIやアルゴリズムが生成する「合成データ」の活用はその代表例である。
実は、高品質テキストには企画書や稟議書、業務マニュアルなどのビジネス文書も含まれる。合成データの手法により、文書の統計的特徴を保ちつつ個人情報や機密情報を含まないデータを新たに生成することも可能だ。また、音声や動画などテキスト以外のデータの活用に向けた研究も進む。これらと並行し、より効率的な学習モデル開発も進んでいる。こうしたことから、「AIの2026年問題」は進化の壁を意味するものではなく、転換点に過ぎないとも見られている。
実は、トレーニング用テキストデータの不足は、日本語に特化した国産LLM開発において直面する課題でもある。その解決のため、国立国会図書館は官庁出版物のデジタル化画像からOCR技術によって抽出したテキストデータを国立情報学研究所に提供すると発表している。社内に眠る膨大なビジネス文書が宝の山に変わる日も訪れるかもしれない。