AIブームに乗り遅れた
IT大国・インドの焦り、
国産モデル開発に本腰
中国発の「ディープシーク」の発表はインドのAI業界関係者にも衝撃を与えた。そのわずか10日後にインド政府が国産モデル開発の提案募集を開始。世界有数のソフトウェア輸出国でありながら、AI開発では米中に大きく水をあけられていたインドは、転換を急ぐ。 by Shadma Shaikh2025.07.08
- この記事の3つのポイント
-
- 中国ディープシークの発表がインドのAI開発者たちに衝撃と刺激
- インド政府は基盤AIモデル開発を急速に推進し、民間企業に計算資源を提供
- サルバムAIなど選定企業が多言語対応の主権AIモデル構築に取り組んでいる
今年はじめのことだ。インドのバンガロールに住むアディティア・コラヴィは、ディープシーク(DeepSeek)が世界に向けて革新的な言語モデルを発表する様子を目の当たりにし、興奮と確信が入り混じった感情を抱いていた。中国発のこの技術は、欧米の最先端と肩を並べる性能を示しながら、はるかに少ない資本と時間で構築されていた。
「これこそ、限られたリソースで革新を起こす方法だと思ったのです」。インドのAIスタートアップ、コグニティブ・ラボ(CognitiveLab)の20歳の創業者であるコラヴィはこう話す。「ディープシークにできたのなら、私たちにもできるはずです」。
一方、ソケットAIラボ(Soket AI Labs)の創業者で、インドで最も早い時期に基盤モデルの開発に取り組んだアビシェク・アッパーワルにとって、その瞬間はより複雑でほろ苦いものだった。
アッパーワル創業者のモデル「Pragna-1B(プラグナ-1B)」は、わずかな助成金でかろうじて維持されていた一方で、目の前ではグローバルな競合企業が数百万ドル規模の資金を調達していた。この多言語モデルは、比較的控えめな12.5億のパラメーターを持ち、米国や中国とは異なり、多言語対応が必須なインドにおいて「言語税」とも呼ばれる追加コストを削減するよう設計されていた。ソケットAIラボはこのモデルの訓練に成功したが、限られたリソースのためスケールアップは不可能だった。その結果、このプロジェクトは製品化には至らず、概念実証(PoC)にとどまったとアッパーワル創業者は言う。
「もし2年前に資金提供を受けていたら、ディープシークが発表したようなモデルを我々が開発していた可能性は高いと思います」(アッパーワル創業者)。
コラヴィ創業者の熱意とアッパーワル創業者の失望は、インドのAI開発者たちの間に広がる感情の振れ幅を象徴している。インドは世界的なテクノロジー・ハブであるにもかかわらず、国産AIでは米国や中国に大きく後れを取っている。このギャップは、インドが長年にわたり研究開発、学術機関、発明への投資を怠ってきたことに起因する。一方、インドでは人口の大多数が共通の言語を話さないため、言語モデルの訓練は他国よりもはるかに困難だという事情もある。
インドは歴史的にソフトウェア産業の「世界のバックオフィス」として知られており、サービス優先型のテック・エコシステムを発展させてきた。インフォシス(Infosys)やTCSといった大手企業は効率的なソフトウェア提供で成功を収めたが、発明は重視されず、評価もされなかった。加えて、インドの研究開発費は2024年時点でGDPの0.65%(254億ドル)にとどまり、中国(2.68%、4762億ドル)や米国(3.5%、9623億ドル)を大きく下回っている。アルゴリズムからチップに至るまで、ディープテックを開発・商業化するための基盤は築かれてこなかった。
世界水準の研究は、DRDO(国防研究開発機構)やISRO(インド宇宙研究機関)などの政府機関に点在して存在するものの、そうした成果が民間や商業用途に波及することはほとんどない。インドには、米国のDARPA(国防高等研究計画局)のように、リスクを伴う研究と商業化の道をつなぐ架け橋となる仕組みが存在しない。その一方で、インドの優秀な人材の多くは、ディープテックをより深く理解し、何より資金を提供するエコシステムに惹かれて国外に流出している。
そのため、オープンソースの基盤モデルである「DeepSeek-R1(ディープシーク-R1)」が突如として多くの世界的競合を凌駕したとき、インド国内では大きな衝撃が走った。この中国のスタートアップによる発表は、インドの政策立案者たちに、自国のAIインフラがいかに遅れており、どれほど迅速な対応が求められているかを突きつけることとなった。
インドの対応
2025年1月、DeepSeek-R1の発表からわずか10日後、インド電子情報技術省(MeitY)は、幅広いタスクに対応可能なインド独自の大規模AI基盤モデルの開発に向けた提案募集を開始した。この公募では、政府主導のAI研究のために、民間クラウド企業やデータセンター企業に対し、GPU(画像処理装置)計算資源の確保を求めた。
これに、ジオ(Jio)、ヨッタ(Yotta)、E2Eネットワークス、タタ(Tata)、AWSのパートナー企業、それにCDACなど、複数の事業者が応じた。この仕組みにより、電子情報技術省は民間インフラから転用された約1万9000基のGPUを補助金付き価格で確保できるようになった。これらのGPUは基盤AIプロジェクト専用に割り当てられ、この動きがきっかけとなり、自社モデル開発を目指す企業からの提案が急増した。
提案数は2週間で67件に達し、3月中旬までにはその数が3倍に膨れ上がった。
4月、インド政府は2025年末までに6つの大規模基盤モデルを開発する計画を発表した。さらに、農業、教育、気候変動対策など18分野を対象とするAIアプリケーションの開発にも取り組むと表明した。特に注目すべきは、サルバムAI(Sarvam AI)が、インドの言語とニーズに最適化された700億パラメーターのモデルを開発する企業として選定された点である。
研究インフラが長年不足していた国にとって、これは記録的なスピードでの進展であり、野心、人材、政治的意思が稀に見る形で結集した瞬間であった。
「インドはAI分野でもマンガルヤーン(Mangalyaan)を成し遂げることができます」。インドラプラスタ情報技術研究所デリー(IIIT-Delhi)のガウタム・シュロフ教授は、同国のコスト効率の高い火星探査機ミッションの成功を引き合いにしてこう話す。
AIリテラシー教育を専門とする団体「AI&ビヨンド(AI&Beyond)」のジャスプリート・ビンドラ共同創設者は、その緊急性を次のように話す。「ディープシークは、おそらくインドにとって最も重要な出来事でした。議論をやめて、行動に移すための背中を押してくれたのです」。
言語の問題
インドで基盤モデルを構築する上で最も根本的な課題の1つは、同国の言語の多様性である。インドには22の公用語、数百の方言、そして多言語を話す数千万の人々が存在し、既存の大規模言語モデル(LLM)の多くでは対応が難しい。
英語には高品質なWebデータが大量に存在する一方で、インドの諸言語はオンライン・コンテンツの1%未満しか占めていない。ボージュプリー語やカンナダ語といった言語では、デジタル化・ラベル付け・クリーニングされたデータが不足しており、インド人が実際に話す言葉や検索の仕方を理解するLLMの訓練は困難である。
トークナイザー(モデルがテキストを処理可能な単位に分割する手法)も、多くのインドの文字体系では性能が低く、文字の誤認識や一部スキップが発生する。そのため、多言語モデルにインド言語が含まれていても、正確な理解や生成がなされないことが多い。
また、オープンAI(OpenAI)やディープシークのように、構造化された英語データを用いてスケールアップできた企業とは異なり、インドのチ …
- 人気の記事ランキング
-
- Namibia wants to build the world’s first hydrogen economy 砂漠の国・ナミビア、 世界初「水素立国」への夢
- Promotion MITTR Emerging Technology Nite #33 バイブコーディングって何だ? 7/30イベント開催のお知らせ
- Promotion Call for entries for Innovators Under 35 Japan 2025 「Innovators Under 35 Japan」2025年度候補者募集のお知らせ
- What comes next for AI copyright lawsuits? AI著作権訴訟でメタとアンソロピックが初勝利、今後の展開は?
- Can we fix AI’s evaluation crisis? AIベンチマークはもはや限界、新たなテスト手法の登場相次ぐ
- What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法