アンソロピックが「Claude 4」発表、数時間の自律作業可能に
アンソロピックが新しいAIモデル「Claude Opus 4」と「Claude Sonnet 4」を発表した。数千ステップの複雑なタスクを数時間かけて自律実行できるのが特徴で、24時間以上のゲーム攻略や7時間の自律コーディングが可能。楽天が導入を発表した。 by Rhiannon Williams2025.05.23
- この記事の3つのポイント
-
- アンソロピックが「Claude 4」を発表、数時間の自律作業が可能
- 24時間ゲーム攻略、7時間自律コーディングを実証、楽天も導入
- 「アシスタントから真のエージェント」への進化で、人間監督なしの長期作業を実現
アンソロピック(Anthropic)は、2つの新しい人工知能(AI)モデルを発表した。AIエージェントを真に有用なものにするための大きな一歩となる。
発表されたのは、「Claude Opus 4(クロード・オーパス4)」と「Claude Sonnet 4(クロード・ソネット4)」。同社によれば、Claude Opus 4で訓練されたAIエージェントは、長期間にわたって困難なタスクに取り組み、ユーザーの指示により的確に応答することで、AIシステムの可能性の水準を引き上げているという。Claude Opus 4はアンソロピックで最も強力なモデルとなる。
Claude Opus 4は、数千ステップに及ぶ複雑なタスクを数時間かけて実行できるように設計されている。例えば、24時間以上プレイを続けながら、ビデオゲーム『ポケットモンスター 赤』(Pokémon Red)の攻略ガイドを作成した。アンソロピックのリサーチ製品リードであるダイアン・ペンによれば、従来モデルの「Claude 3.7 Sonnet(クロード3.7ソネット)」では、わずか45分間のプレイしかできなかったという。
また、日本のテクノロジー企業である楽天(Rakuten)がClaude Opus 4を導入し、複雑なオープンソースプロジェクトにおいて約7時間にわたる自律的なコーディングを実施したことも発表された。
アンソロピックは、モデルが重要な情報を保存する「メモリファイル」を作成・維持する能力を強化することで、こうした進歩を実現した。この記憶能力の向上により、モデルはより長時間にわたるタスクの完遂が得意になっている。
「私たちは今回のモデル世代の飛躍を、アシスタントから真のエージェントへの進化と見なしています」とペンは語る。「AIアシスタントでは、人間がリアルタイムで多くのフィードバックを与え、すべての重要な意思決定を行なう必要があります。一方、エージェントはその意思決定を自ら下すことができます。これにより人間は、すべてのステップに関与するのではなく、委任者や判断者の役割を担えるようになります」。
Claude Opus 4の利用はアンソロピックの有料顧客に限定されるが、もう1つのモデルであるClaude Sonnet 4は、無料版ユーザーも利用可能となる予定だ。Opus 4は複雑な課題に対応する高性能な大規模モデルとして位置付けられており、Sonnet 4は日常用途に適したスマートで効率的なモデルとして紹介されている。
両モデルはいずれもハイブリッド構造であり、リクエストの性質に応じて迅速な応答と、より深く推論に基づいた応答のいずれも提供できる。応答を生成する際には、Web検索や他のツールの活用によって出力の質を高めることが可能だ。
スタートアップ企業ディープフロー(DeepFlow)のAI部長で、『Multi-Agent Reinforcement Learning: Foundations and Modern Approaches(マルチエージェント強化学習:基礎と現代のアプローチ)』の共著者であるステファノ・アルブレヒトは、AI企業は現在、計画・推論・複雑なタスクの実行を人間の監督なしで確実にこなせる真に有用なAIエージェントの開発競争に突入していると説明する。これには多くの場合、インターネットやその他のツールを自律的に使用することが含まれる。ただし、安全性とセキュリティに関する課題は依然として残されている。大規模言語モデルを用いたAIエージェントは、予測不能な行動や意図しない挙動を示すことがあり、人間の監督がない状況ではそれが特に問題となる。
「エージェントがより長期的な視野で自律的に行動できるようになればなるほど、人間の介入が少なくて済み、有用性が高まるでしょう」とアルブレヒト部長は言う。「新しいモデルがツールを並列で使用できる能力は興味深いですね。これにより処理時間が短縮され、より実用的になるでしょう」。
AI企業が取り組んでいる安全性の課題の一例として、エージェントが与えられた目標を達成するために予期せぬショートカットを取ったり、抜け穴を悪用したりする可能性がある。たとえば、ユーザーが確実に座席を確保できるよう飛行機の全座席を予約したり、チェスの試合に勝つために創造的なカンニングをするといったケースだ。アンソロピックは、訓練中に問題行動をより綿密に監視し、AIの訓練環境および評価手法を改善することで、「報酬ハッキング」と呼ばれるこうした行動を、Sonnet 3.7と比較して両新モデルで65%削減できたと述べている。
- 人気の記事ランキング
-
- How a 1980s toy robot arm inspired modern robotics 世界の工学者を魅了し続ける 80年代の日本のおもちゃ
- AI can do a better job of persuading people than we do LLMが説得力で人間超え、相手に合わせて議論を調整
- Why Chinese manufacturers are going viral on TikTok 「ほぼエルメス」を工場直送 中国の下請け企業が ティックトックで反旗
- How to build a better AI benchmark AIの実力、どう測る? 時代遅れのベンチマーク、 信頼できる評価方法とは

- リアノン・ウィリアムズ [Rhiannon Williams]米国版 ニュース担当記者
- 米国版ニュースレター「ザ・ダウンロード(The Download)」の執筆を担当。MITテクノロジーレビュー入社以前は、英国「i (アイ)」紙のテクノロジー特派員、テレグラフ紙のテクノロジー担当記者を務めた。2021年には英国ジャーナリズム賞の最終選考に残ったほか、専門家としてBBCにも定期的に出演している。