開発現場の日常になった
AIコーディング、
生産性向上は本物か?
AIコーディングツールは開発者の65%が使う日常的な存在になった。しかし研究では開発者が「20%速くなった」と感じても実際は19%遅くなっていたことが明らかになるなど、生産性向上の実態は不透明だ。技術的負債、セキュリティリスク、若手雇用減という課題も浮上する現状を取材した。 by Edd Gent2026.01.06
- この記事の3つのポイント
-
- AIコーディング・ツールの生産性向上効果について企業の主張と実際の研究結果に大きな乖離がある
- 巨大テック企業がLLMに数十億ドル投資しコーディングを「キラーアプリ」として推進している背景がある
- 技術的負債の蓄積やセキュリティリスクの増大、人材の先細りなどの長期的な課題解決が必要になる
誰に話を聞くかにもよるが、人工知能(AI)を活用したコーディングの評価は真っ二つに分かれる。ソフトウェア開発者にかつてないほどの生産性の向上をもたらしているのか、あるいは粗悪なコードを大量に生成して開発者の集中力を奪い、ソフトウェア・プロジェクトに深刻な長期的なメンテナンスの問題をもたらしているのかのどちらかだ。
問題は、現時点ではそのどちらが真実かを見極めるのが容易ではないということだ。
巨大テック企業が大規模言語モデル(LLM)に数十億ドルを投入する中、コーディングはLLMというテクノロジーの「キラーアプリ」としてもてはやされてきた。マイクロソフトのサティア・ナデラCEOとグーグルのサンダー・ピチャイCEOは共に、現在では自社コードの約4分の1がAIによって生成されていると主張している。また、2025年3月にはアンソロピック(Anthropic)のダリオ・アモデイCEOが、半年以内にあらゆるコードの90%がAIによって書かれるようになるだろうと予測した。これは魅力的かつ明快なユースケースだ。コードは言語の一形態であり、大量に必要とされ、手動で作成するにはコストがかかる。また、コードは正しく動作するかどうかも簡単に判断できる。プログラムを実行すれば、機能するかどうかは一目瞭然だからだ。
人間のボトルネックを打破する可能性に魅了された経営幹部たちは、エンジニアに対してAI主導の未来へ向かうよう強く求めている。しかし、MITテクノロジーレビューが開発者、技術幹部、アナリスト、研究者など30人以上に取材したところ、この未来像は見かけほど単純ではないことが分かった。
最前線で働く開発者の中には、そのテクノロジーの限界にぶつかり、当初抱いていた熱意が薄れつつある人もいる。また、生産性向上が謳い文句に過ぎない可能性を示す研究が増えるにつれ、「裸の王様ではないか」と疑問を呈する声も上がり始めている。
進歩の速さがこうした状況を複雑にしている。新しいモデルが次々とリリースされるため、AIツールの能力や予期せぬ振る舞いは常に変化し続けている。また、その有用性は適用されるタスクや、それを取り巻くプロジェクトの組織体制に依存することが多い。こうした状況の中、開発者は「期待」と「現実」の狭間で葛藤を抱えている。
チャールズ・ディケンズ風に言えば、AIコーディングにとって今は、「最良の時代」なのか、それとも「最悪の時代」なのか? もしかしたら、その両方かもしれない。
めまぐるしい変化
最近では、AIコーディング・ツールを避けて通ることは難しい。アンソロピック、オープンAI、グーグルといったAIモデル開発企業だけでなく、これらのモデルを洗練されたコード編集ソフトに組み込んだCursor(カーソル)やWindsurf(ウインドサーフ)といった製品を提供する企業からも、多くの製品が目まぐるしく登場している。スタック・オーバーフロー(Stack Overflow)の「2025年開発者調査」によると、AIコーディング・ツールは急速に普及しており、現在では開発者の65%が少なくとも週に1回は使用しているという。
AIコーディング・ツールが初めて姿を現したのは2016年頃だが、LLMの登場によってその性能は飛躍的に進化した。初期のツールは、プログラマーに対して次に何を入力すればよいかを提案するオートコンプリート機能程度のものだった。現在では、コードベース全体を分析し、複数のファイルにまたがる編集やバグ修正、さらにはコードの動作を説明するドキュメントまで作成できる。チャット形式のインターフェイスを通じて、自然言語で指示を出すだけで実行可能だ。
AIコーディング分野の最新のフロンティアを象徴するのが「エージェント」である。これは、LLMを基盤とした自律型コーディング・ツールで、大まかな計画を与えるだけで、プログラム全体を独力で構築できる。この飛躍は、複雑な問題を段階的に処理できるだけでなく、何よりもタスク完了のために外部ツールを活用できる最新の「推論(reasoning)モデル」の登場によって可能になった。「AIモデルが単にコーディングについて説明するだけではなく、実際にコーディングできるようになったということです」。こう話すのは、アンソロピックのAIコーディング・エージェント「Claude Code(クロード・コード、以下Claude)」の責任者であるボリス・チェルニーだ。
このようなAIエージェントは、ソフトウェア・エンジニアリング・ベンチマーク(モデルの性能を測定する標準テスト)において目覚ましい進歩を遂げている。オープンAIが2024年8月に、オープンソースのリポジトリにおける実際のバグ修正にAIエージェントがどの程度成功するかを評価する「SWE-bench Verified(SWEベンチ・ベリファイド)」ベンチマークを導入した際、トップモデルでも解決できたのは問題のわずか33%だった。しかしわずか1年後、主要モデルは一貫して70%以上のスコアを叩き出している。
2025年2月には、オープンAIの創業メンバーであり、テスラの元AIディレクターであるアンドレイ・カルパシーが「バイブ・コーディング(vibe coding)」という造語を提唱した。これは、人間が自然言語でソフトウェアを記述し、AIにコードの記述、修正、デバッグを任せるアプローチを意味する。ソーシャルメディアには、このビジョンを支持し、生産性の大幅な向上を主張する開発者の投稿が溢れている。
しかし、一部の開発者や企業がそのような生産性向上を報告する一方で、必ずしもその証拠は一様ではない。ギットハブ(GitHub)、グーグル、マイクロソフトによる初期の調査では、開発者がタスクを20%から55%速く完了したことが示された。しかし、コンサルティング企業のベイン・アンド・カンパニー(Bain & Company)が2025年9月に発表したレポートでは、実際のコスト削減効果は「目覚ましいものではない」とされている。
開発者分析企業のギットクリア(GitClear)のデータによると、2022年以降、ほとんどのエンジニアが「堅牢性の高いコード(数週間以内に削除や書き換えがないコード)」を約10%多く作成しており、これはおそらくAIのおかげだろう。しかし、この生産性向上は、コード品質を示すいくつかの指標の急激な低下を伴っている。エンジニア・コミュニティ「スタック・オーバーフロー(Stack Overflow)」の調査でも、AIツールに対する信頼や肯定的な受け止めが、ここにきて初めて大幅に低下したことが判明している。そして最も衝撃的なのは、非営利研究機関のMETRが7月に発表した研究結果だ。経験豊富な開発者はAIによって作業速度が20%向上すると考えていたものの、客観的なテストでは実際には19%遅くなっていたことが示されたのだ。
高まる失望感
ソフトウェア・コンサルティング企業、サブスタンシャル(Substantial)の主要開発者であるマイク・ジャッジにとって、METRの研究結果は衝撃的だった。ジャッジはAIツールをいち早く取り入れた熱心なユーザーだったが、時間が経つにつれ、その限界と生産性の向上がわずかであることに不満を募らせていった。「『AIは多少は役に立っているけど、どうすれば本当に劇的な効果が出るのかが分からない』と、周りの人に愚痴をこぼしていました」とジャッジは振り返る。「AIは本当は頭が悪いのではないかといつも感じていたのですが、正しい『魔法の呪文』さえ見つければ、無理やり賢く振る舞わせることができるのではないかとも思っていました」。
AIツールによってどの程度スピードアップができているのか友人から尋ねられたとき、ジャッジはおよそ25%だと推計していた。そのため、METRの研究で他の開発者も同様の推計値を挙げているのを知り、ジャッジは自分自身でテストしてみることに決めた。6週間、タスクにかかる時間を予想し、コインを投げて「AIを使う」か、「手動でコーディングする」かを決め、時間を計測した。驚いたことに、AIを使うと中央値で21%遅くなっていた。これは、METRの結果と一致していた。
このテストをきっかけとして、ジャッジはさらに詳しくさまざまな数値を分析し始めた。もしこれらのAIツールが本当に開発者のスピードアップにつながっているのなら、新しいアプリやWebサイトの新規開設、ビデオゲーム、ギットハブ上のプロジェクトの数が爆発的に増えているはずだとジャッジは考えた。そして、公開されているあらゆるデータを何時間も数百ドルもかけて分析した結果、どれも横ばいになっていることが分かった。
「グラフは右肩上がりになるべきではないでしょうか?」とジャッジは問いかける。「これらすべてのグラフのどこに『ホッケースティック曲線(急成長)』があるのでしょうか? 私は皆がとてつもなく生産的になっていると思っていました」。ジャッジが導き出した明白な結論は、AIツールは大部分の開発者に生産性向上をほとんどもたらしていない、というものだった。
MITテクノロジーレビューが取材した開発者たちは、AIツールが優れている点についてはおおむね意見が一致している。「ボイラープレート・コード(ほとんど修正せずに各所で使い回しできる、定型的なコードの塊)」の生成、テストコードの記述、バグ修正、新しくプロジェクトに加わった開発者に対するなじみのないコードの説明などだ。また、AIが不完全ながらも最初のプロトタイプを提供することで、開発者の創造力が刺激され、彼らが「着手の壁」を乗り越えるのに役立つと指摘する開発者もいた。そのほかに、技術に詳しくない同僚がソフトウェア機能のプロトタイプを迅速に作成できることで、すでに多忙を極めているエンジニアの負担が軽減されるという利点も挙げられた。
AIツールが優れているとされるこうしたタスクは単調で手間のかかることがあり、開発者は通常、喜んでその作業をAIツールに委ねる。しかし、それらは経験豊富なエンジニアの仕事量のほんの一部に過ぎない。多くの開発者がMITテクノロジーレビューに語ったところによると、エンジニアが真価を発揮するような、より複雑な問題において、AIツールは大きなハードルに直面するという。
おそらく最大の問題は、LLMが「コンテキスト・ウィンドウ」、つまり現実的に使える作業用メモリに保持できる情報量に限界があることだろう。この制約があるため、LLMは大規模なコードベースを解析するのに苦労し、工程の長いタスクでは何をしているのかを忘れがちになるということだ。「本当に近視眼的になり、目の前にあるものしか見なくなり …
- 人気の記事ランキング
-
- Text-to-image AI models can be tricked into generating disturbing images AIモデル、「脱獄プロンプト」で不適切な画像生成の新手法
- The paints, coatings, and chemicals making the world a cooler place 数千年前の知恵、現代に エネルギー要らずの温暖化対策
- Quantum navigation could solve the military’s GPS jamming problem ロシアGPS妨害で注目の「量子航法」技術、その実力と課題は?
- How social media encourages the worst of AI boosterism GPT-5が「未解決問題解いた」 恥ずかしい勘違い、なぜ?