ディープシークの新OCRモデル、AIの記憶を「視覚トークン」で効率化
ディープシークの新しいOCRモデルは、情報を画像として保存することでトークン数を削減する。人間の記憶に似た階層的圧縮を採用し、AIの記憶容量を拡大しながら計算リソースを抑える新手法だ。 by Caiwei Chen2025.10.30
- この記事の3つのポイント
-
- 中国AI企業ディープシークが画像形式でテキスト情報を保存する新OCRモデルを発表した
- 従来のトークン方式では長時間会話でコンテキスト劣化が生じ計算コストが急増する課題があった
- 人間の記憶に近い動的な忘却機能の実現とAIエージェント応用が今後の研究課題となる
中国のAI企業ディープシーク(DeepSeek)がリリースしたAIモデルは、AIの「記憶」能力を大幅に向上させる可能性のある新技術を採用している。
先週発表されたこの光学文字認識(OCR)モデルは、画像からテキストを抽出して機械が読み取れる単語に変換することで動作する。スキャナーアプリや写真内テキストの翻訳、多くのアクセシビリティ・ツールで使われている技術と同じものだ。
OCRはすでに多数の高性能システムが存在する成熟した分野であり、論文と一部の初期レビューによれば、ディープシークの新モデルは主要なベンチマークにおいて最上位モデルと同等の性能を示している。
しかし研究者らは、このモデルの主な革新は情報の処理方法、特に記憶の保存と検索方法にあると述べている。AIモデルの記憶方法を改善すれば、実行に必要な計算資源を削減でき、AIの大きな(そして増大しつつある)カーボンフットプリントを抑制できる可能性がある。
現在、ほとんどの大規模言語モデルはテキストを「トークン」と呼ばれる数千の小さな単位に分解して処理している。これにより、モデルが理解可能な形式へとテキストが変換される。しかし、ユーザーとの会話が長引くと、これらのトークンの保存と計算コストは急激に増大する。その結果、AIがユーザーの過去の発言を忘れたり、情報が混乱したりする「コンテキスト劣化」と呼ばれる問題が生じる。
DeepSeekが最新の論文で発表した新手法は、この問題の克服に役立つ可能性がある。単語をトークンとして保存する代わりに、この手法では情報を画像形式でパッケージ化する。本のページを写真に撮るようなイメージだ。研究者らは、これによって使用するトークン数を大幅に削減しながら、ほぼ同等の情報を保持できることを示した。
本質的に、このOCRモデルは、AIモデルにより多くの情報をより効率的に詰め込むことを可能にする新手法のテストベッドとなっている。
このモデルはテキストトークンだけでなく視覚トークンも使用することに加え、人間の記憶が時間とともに曖昧になる仕組みに似た「階層的圧縮」の一種に基づいて構築されている。古い、あるいは重要度の低いコンテンツは、スペースを節約するために若干ぼやけた状態で保存される。それでも論文の著者らは、この圧縮された情報は高いシステム効率を維持しつつ、バックグラウンドでアクセス可能なままであると主張している。
テキストトークンは長らく、AIシステムにおける標準的な構成要素とされてきた。これに対して視覚トークンを用いる手法は異例であり、そのためディープシークのモデルは研究者の注目を急速に集めている。元テスラのAI責任者でオープンAI(OpenAI)の創業メンバーであるアンドレイ・カルパシーはX上でこの論文を称賛し、最終的には画像の方がテキストよりも大規模言語モデルの入力として優れている可能性があると述べた。テキストトークンは「無駄で入力としてひどいものかもしれない」という。
ノースウェスタン大学のコンピューター・サイエンス助教授であるマンリン・リーは、この論文がAIの記憶に関する既存の課題に対処するための新たなフレームワークを提示していると述べた。「コンテキスト保存に画像ベースのトークンを使うという発想自体は完全に新しいわけではありませんが、ここまで発展させ、実際に機能する可能性を示した研究は初めて見ました」とリー助教授は語る。
この手法は、より有用なAIエージェントの構築において、AI研究と応用の新たな可能性を開くかもしれないと、同大学博士課程生のジハン・ワンは述べている。AIとの会話が継続的であることを踏まえると、このアプローチによってモデルがより多くを記憶し、ユーザーをより効果的に支援できるようになる可能性があるという。
新技術は、AIモデルの訓練用データをより多く生成する手段としても活用できる。現在、モデル開発者たちは高品質な訓練用テキストの深刻な不足に直面している。だが、ディープシークの論文によれば、同社のOCRシステムは単一のGPUで1日に20万ページ以上の訓練データを生成可能である。
もっとも、このモデルと論文は、AIの記憶処理にテキストトークンではなく画像トークンを使うという初期的な試みの段階にすぎない。リー助教授は、視覚トークンが記憶保存だけでなく推論(reasoning)にも応用されることを期待していると述べた。将来の研究では、「数年前の人生を変える瞬間は覚えているのに、先週の昼食は忘れてしまう」といった人間の記憶の特性に近い、より動的な記憶劣化の方法を探るべきだと彼女は述べている。現在のディープシークの手法では、AIは依然として非常に直線的な方法で記憶の保持と喪失を行っており、最も重要な情報ではなく、最も新しい情報を優先して思い出す傾向があると指摘している。
目立たないよう努めているものの、中国・杭州に拠点を置くディープシークは、AI研究の最前線を推進する企業としての評判を築いている。同社は今年初め、主要な西側のシステムに匹敵する性能を持ちながら、はるかに少ない計算リソースで動作するオープンソースの推論モデル「DeepSeek-R1」を発表し、業界に衝撃を与えた。
- 人気の記事ランキング
-
- What a massive thermal battery means for energy storage 1000℃のレンガで熱貯蔵、世界最大の蓄熱電池が稼働
- Promotion MITTR Emerging Technology Nite #35 Soraの問題点とは? AI時代の知財を考える11/12緊急イベント
- Exclusive: OpenAI is huge in India. Its models are steeped in caste bias. チャットGPTに 深刻なカースト差別、 「犬」画像生成も
- This startup thinks slime mold can help us design better cities 脳を持たない生物の知恵、 都市インフラ設計に活かす 「粘菌アルゴリズム」
- This retina implant lets people with vision loss do a crossword puzzle ニューラリンク元社長の新会社、格安買収で「人工視覚」実用化
- チェン・ツァイウェイ [Caiwei Chen]米国版 中国担当記者
- MITテクノロジーレビューの中国担当記者として、グローバルなテクノロジー業界における中国に関するあらゆるトピックを取材。これまで、ワイアード(Wired)、プロトコル(Protocol)、サウスチャイナ・モーニング・ポスト (South China Morning Post)、レスト・オブ・ワールド(Rest of World )などのメディアで、テクノロジー、インターネット、文化に関する記事を執筆してきた。ニューヨークのブルックリンを拠点に活動している。
