ニューラルネットを大幅に「ダウンサイジング」 MIT研究者が提唱
ニューラル・ネットワークの訓練には、多くの時間とコストを必要とするというのが一般的な考えだ。しかし、マサチューセッツ工科大学(MIT)の研究者が、ニューラル・ネットワークの規模を10分の1から100分の1にして訓練しても、同等のパフォーマンスを得られることを示す論文を発表した。 by Karen Hao2019.05.14
ニューラル・ネットワークは深層学習の核となるソフトウェアだ。非常に普及しているが、不明なところが非常に多い。研究者たちは、ニューラル・ネットワークがなぜそのように機能するのか実際に理解することなしに、創発特性を観察してきた。
そしていま、マサチューセッツ工科大学(MIT)の研究者たちの新たな論文が、この問題の答えに向かって大きな一歩を踏み出した。その過程で彼らは、シンプルだが目覚ましい発見をした。私たちは実際に必要とするよりも、はるかに大きなニューラル・ネットワークを使っていたのだ。場合によっては10倍、さらには100倍も大きなニューラル・ネットワークを使うことで、実際に必要とされるより桁違いに多くの時間とコンピューターの計算能力を訓練に費やしている。
言い換えれば、どのニューラル・ネットワーク内にもはるかに小さなニューラル・ネットワークが存在しており、それらは大きすぎる全体と同じパフォーマンスを達成するように訓練できるのだ。これは人工知能(AI)研究者にとって朗報であるだけではない。この発見は、これまでに思いもつかなかった新たな用途を切り開き、人々の日常生活を向上させるかもしれない。
だがまずは、なぜそれが可能かを理解するためにニューラル・ネットワークの仕組みを見ておこう。
ニューラル・ネットワークが機能する仕組み
上のような図式で示されたニューラル・ネットワークを見たことがあるかもしれない。ニューラル・ネットワークは、データ内のパターンを計算するために結合されている単純な計算ノードの層(レイヤー)の積み重ねから成っている。
ここで重要なのは、ノード間の結合の強さだ。ニューラル・ネットワークを訓練する前には、これらの結合には強度を表す0から1の間の乱数値が割り当てられている(これを「初期化」プロセスという)。訓練の間、ネットワークは、たとえば動物などの一連の写真を与えられながら、結合の強度を調整する。言ってみれば、経験と知識が蓄積される時に、脳がさまざまなニューロン間の結合を強めたり弱めたりするようなものだ。訓練が終わると、その後はずっと、最終的な結合強度が新たな写真に写っている動物を認識するのに使われる。
ニューラル・ネットワークの仕組みは十分解明されているが、それがうまく機能する理由は謎のままである。しかしながら、研究者たちは多くの実験を通じてニューラル・ネットワークの2つの特性を観察しており、これらの特性は有用であることが分かっている。
観察結果1:訓練の前にネットワークを初期化する際に、結合強度の設定の仕方によっては、訓練が不可能となる場合がある。つまり、どれだけ多くの動物の写真をニューラル・ネットワークに与えようと、ネットワークはまともなパフォーマンスを達成しない。そうした場合には、結合強度を新たな設定に初期化し直す必要がある。ネットワークが大きければ大きいほど(レイヤーとノードの数が多いほど)、こうしたことが起こる確率は低くなる。たとえば、小さなニューラル・ネットワークが5回に4回は訓練が不可能なのに対し、大きなネットワークは5回に1回だけ訓練が不可能となるか …
- 人気の記事ランキング
-
- Kids are learning how to make their own little language models 作って学ぶ生成AIモデルの仕組み、MITが子ども向け新アプリ
- The winners of Innovators under 35 Japan 2024 have been announced MITTRが選ぶ、 日本発U35イノベーター 2024年版
- These companies are creating food out of thin air 大豆・昆虫の次は微生物、 空気からタンパク質を作る 「夢の食品工場」
- The race to find new materials with AI needs more data. Meta is giving massive amounts away for free. メタ、材料科学向けの最大規模のデータセットとAIモデルを無償公開