生成AIモデルは間違いを犯す。事実を間違えて自信を持ったり、真実の断片を無意味に組み合わせたりすることがある。これらの、いわゆる「幻覚(ハルシネーション)」は、AIモデルが膨大な量の真実の情報で訓練したとしても発生する。
30歳の浅井明里(Akari Asai)にとって、これは大きな問題だ。特に科学研究やソフトウェア開発など、事実が重要な場合にはなおさらだ。解決策は、プロンプトに応じて答えを吐き出すだけの、より大きくて、より大きくなるモデルの作成に集中することをやめることだと彼女は言う。「単一のモノリシックな言語モデルをスケールすることから、拡張された言語モデルを開発することへの変革的な切り替えが必要です」。拡張された言語モデルとは、他のエンティティと相互作用し、自身の出力と行動を分析できるモデルを意味している。
浅井は検索拡張生成(RAG)に取り組んでいる。これは言語モデルが、応答を生成する前にデータストアと呼ばれる保存された参考資料を参照する手法だ。データストアをチェックすることで、モデルが嘘を生成しようとしていることを検出できる。その後、取得した情報を使用して応答を修正できる。
浅井と共著者が2023年に導入した「Self-RAG(セルフRAG)」というフレームワークは、モデルが複数のデータストアの異なる部分と並列に作業して、どれが最も関連性が高いかを決定することで、このアプローチをさらに一歩進めるものだ。Self-RAGは幻覚を完全に防ぐわけではないが、それらを制限しようとすると同時に、機械が百科事典を読み上げているようにならないようにする。彼らのチームのテストから、メタ(Meta)のLlama(ラマ)で訓練されたSelf-RAGは、プレーンなRAGを持つLlamaよりも質問のタイプに応じて10〜25%より正確に短文の質問に答えることができる。RAGなしのLlamaに対する改善はさらに顕著だった。
ワシントン大学で博士号を修了し、2026年にカーネギーメロン大学で助教授に就任する予定の浅井は、ウィキペディアなどの一般的なデータベースよりも優れた事実確認結果をもたらす可能性があるカスタム・データストアも構築している。これまでのところ、彼女と同僚は4500万論文の科学文献用データストアと、2500万文書のコーディング用データストアを構築した。彼女は、このアプローチが、機密性の高い生物医学データでどのように機能するかも探求したいと考えている。
- 人気の記事ランキング
-
- This company claims a battery breakthrough. Now they need to prove it. すべてのパラメーターが矛盾——「出来すぎ」全固体電池は本物か?
- OpenAI’s “compromise” with the Pentagon is what Anthropic feared アンソロピック排除の裏で進んだオープンAIの軍事契約、その代償は
- AI is rewiring how the world’s best Go players think 「アルファ碁」から10年、 AIは囲碁から 創造性を奪ったのか
- How uncrewed narco subs could transform the Colombian drug trade 中には誰もいなかった—— コカイン密輸組織が作った 「自律潜水ドローン」の脅威