A tiny new open-source AI model performs as well as powerful big ones

720億パラメーターでも「GPT-4o超え」、Ai2のオープンモデル

アレン人工知能研究所（Ai2）がマルチモーダル言語モデル「Molmo」ファミリーをリリースした。質の高いデータと効率的な訓練によって720億パラメーターのモデルでGPT-4oを上回る性能を示したという。 by Melissa Heikkilä2024.10.09

非営利研究機関のアレン人工知能研究所（Ai2）は、オープンソース・マルチモーダル言語モデルのファミリー「Molmo（モルモ）」をリリースした。オープンAI（OpenAI）やグーグル、アンソロピック（Anthropic）の最先端の独自モデルと同等の性能を誇るという。

Molmoは複数のモデルで構成され、最大モデルは720億のパラメーターを持つ。Ai2によると、画像や図表、文書の理解度を測定するテストにおいて、1兆以上のパラメーターを持つとされるオープンAIのGPT-4oを上回ったという。一方、70億パラメーターのより小規模なMolmoモデルも、オープンAIの最先端モデルに迫る性能を持つとAi2は主張。データ収集と訓練手法の大幅な効率化によって実現したという。

Ai2のアリ・ファルハディ最高経営責任者（CEO）は、Molmoは、オープンソースAIがクローズドな独自モデルと肩を並べるレベルに達したことを示していると言う。オープンソース・モデルには大きな長所があるといい、そのオープンな性質のおかげで、他の人々がモデルをベースにさまざまなアプリケーションを構築できると話す。Molmoのデモ版はここで試すことができ、開発者向けにはハギング・フェイス（Hugging Face）のサイトで公開されている（最も強力なMolmoモデルの一部はまだ公開されない）。

一般的に大規模マルチモーダル言語モデルは、インターネットから収集された何十億もの画像やテキスト・サンプルを含む、膨大なデータセットで訓練されている。中には、数兆ものパラメーターを持つモデルもある。このプロセスが訓練データに多くのノイズを取り込み、それによってハルシネーション（幻覚）が引き起こされると、Ai2で研究担当上級部長を務めるアニ・ケンバヴィは話す。対照的に、Ai2のMolmoモデルは、わずか60万枚の画像を含む厳選されたデータセットで訓練されており、パラメーター数も10億〜720億となっている。この、無差別ではない質の高いデータを重視することで、はるかに少ないリソースで優れた性能を実現できたと同上級部長は説明する。

Ai2は、モデルの訓練データセット中の画像について、人間のアナテーター（注釈者）に複数ページにわたるテキストで極めて詳細に説明させている。Ai2はアナテーターに対し、目にした画像について文字で入力する代わりに、口頭で説明するように求めた。その後、AI技術を使ってアナテーターの音声をデータに変換し、訓練プロセスを大幅に迅速化すると同時に、必要な計算能力を削減した。

ハギング・フェイスで機械学習と社会部門を主導するヤシーヌ・ジェルニテ（この研究には関わっていない）は、AI開発に使用するデータを有意義な方法で管理したいと考える場合には、こうした手法が実際に役に立つ可能性があると言う。

スタンフォード大学基礎モデル研究センターのパーシー・リアン所長（研究には参加していない）は、「一般論として、より質の高いデータで訓練することで計算コストを下げられるのは、理にかなっています」と話す。

もう1つの印象的な能力は、このモデルが物を「指し示せる」ことだ。つまり、クエリと一致するピクセルを特定することで、画像の要素を分析できるのだ。

MITテクノロジーレビューが確認したデモでは、Ai2の研究者たちがシアトルのマリーナにあるオフィスの外で写真を撮り、デッキチェアなど、その画像の中のさまざまな要素を識別するようにモデルに求めた。モデルは、画像に写っているものをうまく説明し、デッキチェアの数を数え、研究者たちが求めた通りに画像内のその他の物体を正確に指し示した。ただし完璧ではなかった。例えば、モデルは特定の駐車場を見つけることができなかった。

ファルハディCEOは、他の高度なAIモデルは光景や画像を説明することには長けていると言う。しかし、世界と相互にやり取りして、フライトを予約できるようなより洗練されたWebエージェントを構築したいのであれば、それだけでは不十分だ。指し示すことができてこそ、人々はユーザー・インターフェースと相互にやり取りすることが可能になると同CEOは話す。

ジェルニテによれば、Ai2は従来の他のAI企業よりもオープンな姿勢で運営されているという。また、Molmoは良いスタートを切ったものの、その本当の意義は、開発者がMolmoを土台にして構築するアプリケーションと、人々がMolmoを改良する方法にあるとも話す。

ファルハディCEOも同意見だ。AI企業はここ数年、数兆ドルもの巨額の投資を引き寄せてきた。しかし、ここ数カ月で一部の投資家たちは、投資によるリターンを得られるかどうか、懐疑的な考えを表明している。大規模で高価な独自モデルはリターンをもたらさないだろうが、オープンソース・モデルなら可能だとファルハディCEOは主張する。 Ai2の取り組みは、オープンソースAIが資金と時間を効率的に利用する方法で構築可能なことを示していると同CEOは言う。

「他の人たちの可能性を支援し、彼らがMolmoを使って何を構築するかを見ることに、わくわくしています」。

人気の記事ランキング

メリッサ・ヘイッキラ [Melissa Heikkilä]米国版 AI担当上級記者: MITテクノロジーレビューの上級記者として、人工知能とそれがどのように社会を変えていくかを取材している。MITテクノロジーレビュー入社以前は『ポリティコ（POLITICO）』でAI政策や政治関連の記事を執筆していた。英エコノミスト誌での勤務、ニュースキャスターとしての経験も持つ。2020年にフォーブス誌の「30 Under 30」（欧州メディア部門）に選出された。