生成AIモデルは間違いを犯す。事実を間違えて自信を持ったり、真実の断片を無意味に組み合わせたりすることがある。これらの、いわゆる「幻覚(ハルシネーション)」は、AIモデルが膨大な量の真実の情報で訓練したとしても発生する。
30歳の浅井明里(Akari Asai)にとって、これは大きな問題だ。特に科学研究やソフトウェア開発など、事実が重要な場合にはなおさらだ。解決策は、プロンプトに応じて答えを吐き出すだけの、より大きくて、より大きくなるモデルの作成に集中することをやめることだと彼女は言う。「単一のモノリシックな言語モデルをスケールすることから、拡張された言語モデルを開発することへの変革的な切り替えが必要です」。拡張された言語モデルとは、他のエンティティと相互作用し、自身の出力と行動を分析できるモデルを意味している。
浅井は検索拡張生成(RAG)に取り組んでいる。これは言語モデルが、応答を生成する前にデータストアと呼ばれる保存された参考資料を参照する手法だ。データストアをチェックすることで、モデルが嘘を生成しようとしていることを検出できる。その後、取得した情報を使用して応答を修正できる。
浅井と共著者が2023年に導入した「Self-RAG(セルフRAG)」というフレームワークは、モデルが複数のデータストアの異なる部分と並列に作業して、どれが最も関連性が高いかを決定することで、このアプローチをさらに一歩進めるものだ。Self-RAGは幻覚を完全に防ぐわけではないが、それらを制限しようとすると同時に、機械が百科事典を読み上げているようにならないようにする。彼らのチームのテストから、メタ(Meta)のLlama(ラマ)で訓練されたSelf-RAGは、プレーンなRAGを持つLlamaよりも質問のタイプに応じて10〜25%より正確に短文の質問に答えることができる。RAGなしのLlamaに対する改善はさらに顕著だった。
ワシントン大学で博士号を修了し、2026年にカーネギーメロン大学で助教授に就任する予定の浅井は、ウィキペディアなどの一般的なデータベースよりも優れた事実確認結果をもたらす可能性があるカスタム・データストアも構築している。これまでのところ、彼女と同僚は4500万論文の科学文献用データストアと、2500万文書のコーディング用データストアを構築した。彼女は、このアプローチが、機密性の高い生物医学データでどのように機能するかも探求したいと考えている。
- 人気の記事ランキング
-
- It’s time to address the looming crisis in entry-level work. 「コーディングを学べ」もう通用せず、AIが若者の雇用を奪い始めた
- Promotion Call for entries for Innovators Under 35 Japan 2026 「Innovators Under 35 Japan」2026年度候補者募集のお知らせ
- Anthropic’s Code with Claude showed off coding’s future—whether you like it or not 「Claudeに任せてしまおう」 たった1年で激変したソフトウェア開発
- A reality check on the AI jobs hysteria 「ホワイトカラー消滅」 まだデータに兆候なし ——ただし若者に警戒信号
- Inside the stealthy startup that pitched brainless human clones 「臓器袋」から全身置換へ ステルス企業R3が隠す 「脳なし」クローン計画
