When AIs bargain, a less advanced agent could cost you

大規模モデルはやっぱり強かった——AIエージェント、交渉結果に差

AIエージェント同士に価格交渉をさせたところ、一貫して優れたAIモデルを利用するエージェントが勝つことが分かった。AIエージェントが取引を代行をするようになると、使用できるAIモデルの差がそのまま経済格差につながりそうだ。 by Caiwei Chen2025.06.19

この記事の3つのポイント

AIモデル間の交渉実験で、高性能モデルが一貫して有利な取引を獲得することが判明した
この格差により、優れたAI技術へのアクセス格差が既存の不平等を拡大させる可能性がある
現段階ではAIエージェントを交渉の代理人ではなく情報収集ツールとして活用すべきである

summarized by Claude 3

人工知能（AI）モデルの規模をめぐる競争が減速しつつある。業界の焦点が、自律的に行動し、ユーザーの代わりに意思決定や交渉ができるシステムであるエージェントに移っているのだ。

しかし、顧客と売り手の双方がAIエージェントを利用していたら、どうなるだろうか？最近のある研究でエージェント間の交渉がテストされ、強い方のエージェントがより良い取引をまとめるために、相手のエージェントの弱さにつけ込む場合があることが分かった。これは、ベテランの弁護士と新米弁護士が法廷で争うのにちょっと似ている。技術的には同じゲームをプレイしているが、オッズは最初からゆがんでいるのだ。

アーカイブ（arXiv）で公開されたこの査読前論文は、より高い推論能力と、より優れた訓練データ、より多くのパラメーターを有するより優れたAIモデルの利用が、一貫してより良い金銭的取引につながる可能性があることを明らかにした。その結果、より優れたリソースや技術的アクセスを有する人とそうでない人との間の格差が、拡大する可能性がある。もし、エージェント間でやり取りするのが当たり前のことになれば、AIの能力格差が、既存の不平等を静かに拡大させるかもしれない。

「時間が経つにつれて、デジタル情報格差が生まれる可能性があります。取引における金銭的な成果が、自分の交渉スキルというよりも、AI代理人の強さによって形成されることになるのです」。この研究論文の著者の1人であるスタンフォード大学の博士研究員、ジャシン・ペイは言う。

ペイ博士らの実験では、3つのシナリオでAIモデルに買い手と売り手の役割を演じさせ、電子機器、自動車、不動産の取引交渉をさせた。それぞれの売り手エージェントは、商品の仕様、卸売価格、小売価格の情報を受け取り、利益を最大化するように指示された。一方、買い手エージェントには、予算、小売価格、理想的な製品要件の情報が与えられ、価格の引き下げ交渉をする任務が課された。

各エージェントは関連する詳細情報をいくつか持っていたものの、情報をすべて持っていたわけではない。この設定は、現実世界の多くの交渉状況を模倣したものだ。現実の交渉状況において、当事者が互いの制約や目的を完全に把握していることはない。

性能の差は顕著だった。オープンAI（OpenAI）の「o3」が総合的に最も強力な交渉結果を出し、同社のGPT-4.1とo4-miniが続いた。この研究で使用された最も古いモデルで、ほぼ2年前にリリースされたGPT-3.5は、両方の役割で大きく後れをとった。売り手としては最も利益を出さず、買い手としては最もお金を支払った。ディープシーク（DeepSeek ）の「R1」と「V3」は、特に売り手として良い結果を収めた。アリババ（Alibaba）のQwen（クウェン）2.5は後れをとったものの、買い手の役割で強さを示した。

特筆すべきパターンの1つとして、一部のエージェントは取引を成立させられないことも多かったが、販売に成功した取引では利益を効果的に最大化させたことが挙げられる。一方、より多くの交渉を完了させたものの、より低い利益率で妥協したエージェントもあった。GPT-4.1とDeepSeek R1は最もバランスが取れており、堅実な利益と高い成約率の両方を達成した。

金銭的な損失以外にも、AIエージェントが合意に達することなく長時間の交渉ループに陥ったり、可能な限り最良の取引を追求するように指示されているにもかかわらず、早々に交渉を打ち切ったりする可能性があることも分かった。最も能力が高いモデルでさえ、そのような失敗を起こしがちであった。

「この結果は、私たちにとって非常に驚くべきものでした」と、ペイ博士は言う。「誰もが最近の大規模言語モデル（LLM）はかなり優秀と信じていますが、大きなリスクを伴うシナリオにおいて信頼できないこともあるのです」。

交渉性能における格差は、訓練データの違いや、不足している情報を推論および推測するモデルの能力の違いなど、多くの要因によって引き起こされる可能性があるとペイ博士は言う。正確な原因はまだ不明だが、1つの要因は明らかなように思われる。モデルの規模が重要な役割を果たしているのだ。大規模言語モデルのスケーリング法則によれば、パラメーター数が増えるほど能力が向上する傾向にある。この傾向は、今回の研究にも当てはまった。同じモデルファミリーの中であっても、より大規模なモデルは、買い手と売り手の両方で一貫してより優れた取引をまとめられたのだ。

現実世界の金銭的な意思決定にAIエージェントを導入することのリスクを警告する研究が増えており、今回の研究もその1つである。複数の大学の研究者で構成されるグループは6月に入ってから、LLMエージェントは単なるピーク時の性能ではなく、主にリスクプロファイルに基づいて評価されるべきであると主張した。精度とリターンに基づく指標を重視している現在のベンチマークは、あるエージェントが最高の状態でどれだけの性能を発揮できるか測定しているものの、どれだけ安全に失敗できるかという点は見落とされているという。ペイ博士らの研究で、トップクラスの性能を持つモデルであっても、敵対的な条件下では失敗に終わる可能性が高まることも明らかになった。

研究チームは、現実世界の金融という文脈においては、1%の失敗率であっても、そのわずかな弱点によってシステムがシステミック・リスクにさらされる可能性があることを指摘する。同チームは、AIエージェントを実際に使用する前に、負荷テストを実施することを推奨している。

エモリー大学の次期助教授であるハンチェン・ツァオは、価格交渉の研究には限界があると指摘する。「実験はシミュレートされた環境で実施されたため、現実世界の交渉やユーザー行動の複雑さを完全には捉えられていない可能性があります」。

ペイ博士によれば、研究者や産業界の実務家たちは、そのようなリスクを減らすためにさまざまな戦略を実験している。そういった戦略の中には、AIエージェントに与えるプロンプトを洗練させることや、エージェントが外部のツールやコードを使ってより適切な判断を下せるようにすること、複数のモデルを協調させて互いの作業をダブルチェックすること、該当分野固有の金融データでモデルを微調整することなどが含まれ、それらすべてで性能が向上する有力な見込みが示されている。

有名なAIショッピング・ツールの多くは、現在のところ商品の推薦に限定されている。たとえば、アマゾンは4月に新機能「バイ・フォー・ミー（Buy for Me）」をリリースした。顧客が探している商品がアマゾンで直接販売されていない場合に、他のブランドのサイトで見つけて購入するのを支援するAIエージェントである。

消費者向け電子商取引で価格交渉がされることは滅多にないが、企業間取引ではもっと一般的なことである。アリババは、オープンソースのQwenをベースに構築した調達アシスタント・モデルである「Accio（アクシオ）」を展開し、企業がサプライヤーを見つけたり、製品を調査したりするのを支援している。同社はMIT テクノロジーレビューに対し、リスクが高いため、今のところは価格交渉を自動化することは計画していないと語った。

それは賢明なことかもしれない。ペイ博士は消費者に対し、今のところはAIショッピング・アシスタントを、意思決定における人間の代わりではなく、役立つツールとして扱うようにアドバイスする。

「AIショッピング・エージェントに決断を委ねる私たちの準備が完全に整っているとは思いません。ですから、おそらく、交渉役としてではなく、情報ツールとして使うのがいいでしょう」。

人気の記事ランキング

ツァイウェイ・チェン [Caiwei Chen]米国版中国担当記者: MITテクノロジーレビューの中国担当記者として、グローバルなテクノロジー業界における中国に関するあらゆるトピックを取材。これまで、ワイアード（Wired）、プロトコル（Protocol）、サウスチャイナ・モーニング・ポスト（South China Morning Post）、レスト・オブ・ワールド（Rest of World ）などのメディアで、テクノロジー、インターネット、文化に関する記事を執筆してきた。ニューヨークのブルックリンを拠点に活動している。