米国防総省の安全性テスト部門が縮小、AI兵器の導入加速へ
米国防総省は兵器やシステムの安全性をテストし評価する運用試験評価局の人員をおよそ半分に削減した。AIの軍事導入が進む中、戦闘中に表面化する問題を見逃してしまう可能性がある。 by James O'Donnell2025.06.15
- この記事の3つのポイント
-
- 国防総省の運用試験評価局の規模が半分に削減された
- 削減により新システムの安全性や有効性が損なわれる懸念がある
- AIシステムの軍事利用が進む中で運用試験評価は特に重要である
トランプ政権の連邦支出に対するチェーンソー・アプローチ(組織構造の見直し、業務プロセスの見直し、コスト削減、人員削減など)は、イーロン・マスクが大統領に反旗を翻す中でも生き残っている。ピート・ヘグセス国防長官は5月28日、兵器と人工知能(AI)システムの安全性をテストし評価する国防総省の重要な部署を大幅に削減すると発表した。
官僚主義の肥大化と無駄遣いを減らし、致死性を高めることを目的とする一連の動きの一環として、ヘグセス長官は運用試験評価局(Office of the Director of Operational Test and Evaluation)の規模を半分に削減した。同局は1980年代に、国防総省が安全性や効果が宣伝通りでない兵器やシステムを配備しているという批判を受けて、議会の命令により設立された。ヘグセス長官は、同局の職員を94人から約45人に削減し、局長を解任・交代させている。そのための猶予は7日間しか与えなかった。
この40年の歴史の中で、これほど真正面から改革の対象とされたことのない省庁の大幅な見直しである。トランプ政権と密接な関係を築いてきた今日の防衛技術企業がこの改革によってどのように利益を得られるのか、そしてその結果、安全性テストがなぜ犠牲になる可能性があるのかを以下に説明する。
運用試験評価局は、「技術が実戦配備される前の最後の関門」だと、米海軍の元戦闘機パイロットで、現在はジョージ・メイソン大学の工学・コンピュータサイエンス教授を務めるミッシー・カミングスは言う。軍は新システムを小規模に実験する際にはこの局を通す必要はないが、大規模に実戦配備するものはすべてテストしなければならないのだ。
「これまで超党派的に全員が、運用試験評価局が無駄や不正行為、乱用を減らすのに役立っていると考えてきました」とカミングス教授は言う。企業や請負業者が主張する技術の性能について、独立した検証を提供するからだ。併せて、システムをより厳格な安全性テストにさらすことも同局が目的とするところである。
AI と軍の導入にとって特に重要な時期に大規模な人員削減が実施されている。国防総省(ペンタゴン)はあらゆるものにAIを導入する実験をしており、オープンAI(OpenAI)などの主要AI企業は現在、軍との協力により積極的になっている。アンドゥリル(Anduril)などの防衛大手は、AIシステムを立ち上げるための大規模な契約を獲得している(6月5日、アンドゥリルは25億ドルという莫大な資金調達ラウンドを発表し、企業価値を300億ドル以上に倍増させた)。
ヘグセス長官は、自身の削減案が「兵器のテストと配備をより効率的にする」と主張し、3億ドルの節約になると述べている。しかし、カミングス教授は、導入のスピードアップへの道を開く一方で、新システムが約束されたほど安全または有効でない可能性が高まることを懸念している。「トランプ大統領が支持する企業にとって、運用試験評価局における職員解雇は、これまで認識されたすべての障害が取り除かれるという明確なメッセージです」と同教授は言う。
軍事利用のためのAIアプリケーションを立ち上げたアンドゥリルとアンソロピック(Anthropic)に、運用試験評価局の人員削減を後押ししたり承認したりしたかどうかについて質問を送ったが、回答はなかった。オープンAIの担当者は、同社は同局のリストラのためのロビー活動には関与していないと述べた。
「これらの削減には不安を感じます」と、戦略国際問題研究所(CSIS)の上級顧問であり、以前は国防総省で試験局と協力して働いていたマーク・キャンシアンは言う。「効果のないものになるわけではありませんが、この試験段階がないと、戦闘中に表面化するであろういくつかの問題を見逃してしまうかもしれません」。
予算削減が、システムをテストする運用試験評価局の能力にどのように影響するかを正確に言うのは難しいことである。キャンシアンは、新しい技術を戦場に導入する責任者が、同局によって採用が本当に遅くなっている可能性があると不平を言っていることを認める。しかし、それでも、同局は以前は発見されなかったエラーを頻繁に発見していると述べる。
軍が生成AI のような新しいタイプのテクノロジーを採用する際は、運用試験評価は特に重要なステップであるとキャンシアンは述べている。ラボ環境ではうまく機能するシステムでも、より現実的なシナリオではほぼ常に新たな課題に直面するものであり、運用試験評価局こそが、そうした理論と実践が合致する場なのだ。
これらすべてから何を得るのだろうか? 軍は現在のAIブームよりもずっと前から、特にドローンに供給するためのコンピュータービジョンでAIの実験をしていたのは事実であり、防衛技術企業は複数の大統領政権にわたってこの推進のための大きな契約を獲得してきた。しかし、今の時代は違う。国防総省は、元々の性質からして幻覚やエラーを生み出す比較的新しい技術である大規模言語モデルのための野心的なパイロットプロジェクトを発表しており、話題のAIをすべてに導入することに熱心なようだ。だが、これらの新しく複雑なシステムの精度を評価するために専念している重要な独立グループは、現在、スタッフが半分しかいない。それが誰にとっても勝利だとは思えない。
- 人気の記事ランキング
-
- What’s next for AI and math 数学オリンピックで「人間超え」のAIは数学者になれるか?
- Promotion Call for entries for Innovators Under 35 Japan 2025 「Innovators Under 35 Japan」2025年度候補者募集のお知らせ
- IBM aims to build the world’s first large-scale, error-corrected quantum computer by 2028 IBM、世界初の大規模誤り訂正量子コンピューター 28年実現へ
- Inside the tedious effort to tally AI’s energy appetite 動画生成は別次元、思ったより深刻だったAIの電力問題
- What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法

- ジェームス・オドネル [James O'Donnell]米国版 AI/ハードウェア担当記者
- 自律自動車や外科用ロボット、チャットボットなどのテクノロジーがもたらす可能性とリスクについて主に取材。MITテクノロジーレビュー入社以前は、PBSの報道番組『フロントライン(FRONTLINE)』の調査報道担当記者。ワシントンポスト、プロパブリカ(ProPublica)、WNYCなどのメディアにも寄稿・出演している。