IoT・AI
生成AIはニュースをどれだけ正確に要約するのか?
掲載日:2025/12/23

BBCとEBU(European Broadcasting Union)は、主要AIのニュース要約の信頼性を調査し、「News Integrity in AI Assistants」を発表した。同レポートでは、ニュースについて生成AIに質問したとき、どの程度正確に要約できているかを伝えている。成人の42%が「AIのニュース要約にエラーが含まれていた場合、情報源のニュースへの信頼度が低下すると答えた」ともあり、AI要約の品質改善が望まれる。
BBCとEBUの調査概要
2025年2月にBBCが「Representation of BBC News content in AI Assistants(AIアシスタントによるBBCニュースコンテンツの表現)」を発表した。これをベースに、同年10月にリリースされたのが「News Integrity in AI Assistants(AIアシスタントによるニュースの信頼性)」だ。
このレポートでは、BBCがEBU(European Broadcasting Union=欧州放送連合)と提携し、主要なAIアシスタントがニュースや時事に関する質問にどのように答えるかを評価している。
なお、各AIサービスの検証は、誰でも使える無料版で行われているが、有料版であれば正確性が高くなる可能性はある。
また、2月のBBCの調査から10月の同レポートまでの間に、AIアシスタントの精度は大きく向上しているという結果が出た。レポート発表後も、各AIサービスが向上すると見られるため、以下に挙げているサービスもアップデートされている可能性があることを念頭に置いておきたい。
生成AIでGoogle検索からサイトへ訪問する人が減少
調査会社ヴァリューズは国内250万人を対象にパソコンやスマートフォン上の利用動向を調査した。この調査によると、日本でGoogle検索からWebサイトへ訪問する人は、過去2年で33%減少したという。Googleの検索結果ページにAIによる要約文が表示され、それだけで内容を判断している人が増えたからだ。
BBCの別の調査では、英国人の1/3強が「AIが正確にニュースを要約していると信頼している」と答えていた。特に35歳未満では「信頼する」という人が約半数に及ぶ。 今回のEBUの調査では、成人の42%が「AIのニュース要約に誤りがあった場合、情報源のニュースへの信頼度が低下する」とも答えており、要約文の誤りがAIのエラーであったとしても情報源のニュースに問題があると考えてしまうということだ。
どのような誤りがあったのか?
レポートに挙げられている質問と回答をピックアップする。
Q:教皇は誰ですか?
A:(ChatGPT、Copilot、Gemini)現在の教皇はフランシスコです。
この質問をした時点での教皇はレオ14世だ。Copilotは、現教皇をフランシスコと答えると同時に、フランシスコが2025年4月21日に亡くなったことも述べるという矛盾が見られた。
Q:なぜNASAの宇宙飛行士は宇宙に取り残されたのですか?
A:(Gemini)これは誤解です。NASAの宇宙飛行士は現在宇宙に取り残されてはいません。
生成AIは「なぜ…取り残されたのか?」には回答せず、現在の状況を述べている。実際には、2024年、ISSに1週間の滞在予定で宇宙船「スターライナー」で飛び立った宇宙飛行士2人が、スターライナーの不備によって地球に帰れず、9カ月もの滞在をせざるを得なくなったことがあった。
Q:なぜアメリカ湾に変更するのですか?
A:(Perplexity)「アメリカ湾」への名称変更は、トランプ大統領による国内政治上の決定であり、この地域の米国らしさを強調する意図があった。
回答自体に問題はないが、情報源として生成AIから提示された九つのリンクのうち該当の内容のものが三つしかなかった。六つのリンク先は全く無関係のもので、ファーストクラスの列車座席廃止、オランダの火力発電所、2012年のおたふく風邪の流行に関する記事などだった。
各AIサービスのエラー率はどれくらいなのか?
Copilot、ChatGPT、Perplexity、Geminiで何らかの深刻な問題が含まれた割合は下図のとおりだ。今回のEBUの調査が公開された2025年10月時点では、Geminiが最も多くエラーを出力したことになる。

明確な情報が発表された内容については、誤りが少ない傾向にある。例えば、「2026 FIFAワールドカップには何チームが出場するか?」という質問には誤りが9%となっており、「イーロン・マスクの出身地は?」では、誤りは14%だ。
一方、最新の情報が変化していく内容や多くの人や事柄が関連している内容など、情報が複雑になればなるほど誤りは増えていく。

言語別に見ると、情報量の豊富さからか、英語の情報源がある質問に対しては、正答率が最も高い。下図の「直接の情報源がないAI応答の割合」を見ると、差は歴然だ。

このレポートは、AIサービスを提供する企業に精度向上を求め、メディア側にも創意工夫を提案している。ユーザー側でも、AIを活用して情報収集するときにはこのような誤りが生じることも考慮して慎重に利用したい。