Google’s new tool lets large language models fact-check their responses

AIが自らファクトチェック、グーグル「幻覚」撲滅で新ツール

グーグルは自動的にファクトチェックをすることで、AIのハルシネーション（幻覚）の問題を解決できる可能性のあるツールを発表した。より多くの製品にAIを組み込もうとしているグーグルにとって重要なツールになるかもしれない。 by James O'Donnell2024.09.16

この記事の3つのポイント

グーグルが新ツール「データガンマ」を開発した
データガンマは大規模言語モデルの回答の正確性を高めるツール
RIGとRAGという2つの手法を用いて信頼性の高い情報を提示する

summarized by Claude 3

チャットボットは誕生してからずっと、物事をでっち上げてきた。そのような「ハルシネーション（幻覚）」は、AIモデルが機能する仕組みの本質的な部分である。しかし、グーグルのように人工知能（AI）に大きく賭けている企業にとっては、大問題である。AIが生成する回答をユーザーが信頼しなくなってしまうからだ。

グーグルは、この問題に対処するためのツールを発表した。「データガンマ（DataGemma）」と呼ばれるこのツールは、2つの手法を用いて、大規模言語モデル（LLM）が信頼できるデータと照らし合わせて自らの回答をファクトチェックし、より透明性が高い形でその回答の情報源をユーザーに示せるようにする。

2つの手法のうち1つは「RIG（Retrieval-Interleaved Generation、検索相互実行生成）」と呼ばれるもので、一種のファクトチェッカーとして機能する。ユーザーが、たとえば「世界の再生可能エネルギーの利用は増加しているか」という質問をモデルに投げかけると、モデルは回答の「最初の草案」を考案する。次にRIGが、その回答案のうち、グーグルのデータコモンズ（Data Commons）と照合チェックすることが可能な部分を特定する。データコモンズは、国連や米国疾病予防管理センター（CDC）のような信頼できる情報源から得たデータや統計値の巨大なリポジトリである。次に、RIGはチェックを実行し、当初の回答の中の不正確な推測部分を正しい事実に置き換える。また、その回答の情報源もユーザーに提示する。

2つ目の手法は、他の大規模言語モデルでも一般的に使われている、「RAG（Retrieval-Augmented Generation、検索拡張生成）」と呼ばるものだ。例として、「パキスタンは世界保健目標に対してどのような進歩を遂げてきたか？」というプロンプトを考えてみよう。このプロンプトに対してモデルは、安全な飲料水へのアクセスやB型肝炎の予防接種、平均寿命などに関する情報など、データコモンズのデータのうちどれがその質問への回答に役立つか検討する。利用可能な役立つ数値があれば、モデルはそのデータに基づいて回答を組み立て、情報源を提示する。

「私たちの目標は、データコモンズを使い、入手元を明らかにすることができる現実の統計データで裏付けることによって、LLMの推論を強化することでした」。グーグルのデータコモンズ部門責任者プレム・ラマズワミは話す。そうすることで、「より信用できる、信頼性の高いAIを作り出すことができます」。

ラマズワミによれば、データガンマを利用できるのは今のところ研究者だけだが、テストを重ねればさらに幅広く利用可能になるかもしれないという。もしこのツールが期待通りに機能すれば、AIを検索エンジンにより深く組み込もうとしているグーグルの計画にとって、まさに恩恵をもたらす可能性がある。

しかし、このツールには多くの注意事項が伴う。まず、それらの手法の有用性は、百科事典というよりもデータの保管庫であるデータコモンズに関連データがあるかどうかによって制限される。イランのGDPを知ることはできるが、第一次ファルージャ戦闘の日付や、テイラー・スウィフトが最新シングルをリリースした日を確認することはできない。実際、グーグルの研究者たちの検証によれば、テスト問題の約75％でRIG手法はデータコモンズから有用なデータを得ることができなかった。また、たとえデータコモンズに有用なデータが実際にあるとしても、モデルが常にそのデータを見つけるのに適切な質問を作れるとは限らない。

2つ目の注意事項として、正確性の問題がある。RAG手法をテストしたところ、このモデルの回答は6％から20％の確率で正しくないことがわかった。一方、RIG手法がデータコモンズから正しい統計値を取り出すことができたのは、58％程度だった（ただし、データコモンズに照会しない場合のグーグルの大規模言語モデルの精度である5％から17％と比較すれば、大幅な改善である）。

データガンマの精度は、より多くのデータで訓練が実施されるに従って向上していくだろうと、ラマズワミは言う。初期バージョンは約700件の質問でしか訓練されておらず、モデルをファインチューニング（微調整）するには、生成された個々の事実をラマズワミらが手作業でチェックする必要があった。研究チームはモデルをさらに改善するため、現在数百件しかないデータセットの質問の数を数百万件に増やすことを計画している。

人気の記事ランキング

ジェームス・オドネル [James O'Donnell]米国版 AI／ハードウェア担当記者: 自律自動車や外科用ロボット、チャットボットなどのテクノロジーがもたらす可能性とリスクについて主に取材。MITテクノロジーレビュー入社以前は、PBSの報道番組『フロントライン（FRONTLINE）』の調査報道担当記者。ワシントンポスト、プロパブリカ（ProPublica）、WNYCなどのメディアにも寄稿・出演している。