Automated techniques could make it easier to develop AI

AI開発を効率化する「自動機械学習（AutoML）」とは何か？

アマゾンやグーグルがローコードの機械学習ツールで採用する「自動機械学習（Auto ML）」の手法は、人工知能（AI）モデル開発のプロセスを加速し、AIテクノロジーをより扱いやすくする可能性がある。 by Tammy Xu2022.08.19

機械学習の研究者は、新しいモデルを設計する際に多くの決定をする。ニューラル・ネットワークを何層にするのか、各ノードの入力にどれほどの重みを与えるのかなどを決めるのだ。こうした人による意思決定の結果、複雑なモデルは体系的にではなく、「直観的に設計」されてしまうと、ドイツ・フライブルク大学の機械学習研究所のフランク・ハッター教授は話す。

自動機械学習（AutoML）と呼ばれる成長分野は、この当て推量の排除を目的としている。モデル設計の際、現在は研究者が下さなければならない決定を、アルゴリズムに代行させようというアイデアだ。最終的には、こうした手法によって機械学習がより利用しやすくなる可能性がある。

自動機械学習が登場して10年近く経つが、研究者は今も改良に取り組んでいる。7月末、「自動機械学習会議2022（AutoML Conference 2022）」が米国メリーランド州ボルチモアで開催された。主催者の説明によると、自動機械学習をテーマとする初の国際カンファレンスだといい、自動機械学習の精度を上げる取り組みや、パフォーマンス効率化の取り組みなどが紹介された。

機械学習を簡略化してくれる自動機械学習の可能性への関心は高まっている。アマゾンやグーグルといった企業は、すでに自動機械学習の手法を駆使したローコードの機械学習ツールを提供している。これらの手法の効率がもっと上がれば、研究が加速し、より多くの人が機械学習を扱えるようになるかもしれない。

聞きたい質問を選んで自動機械学習ツールに投入すると、求める結果が得られる状態まで到達しようというアイデアだ。

このビジョンは「コンピューター科学の究極の目標」だと話すのは、カンファレンスの主催者であるワイオミング大学のラース・コットホフ助教授（コンピューター科学）だ。「問題を指定するだけで、コンピューターがその解決方法を見つけ出します。他には何もしなくていいのです」。

しかし、その前に研究者たちは、これらの手法の時間とエネルギー効率を上げる方法を考案する必要がある。

自動機械学習とは？

自動機械学習という概念は一見すると、不必要なものに思えるかもしれない。煎じ詰めれば、機械学習とはデータから洞察を得るプロセスを自動化することだからだ。しかし自動機械学習のアルゴリズムは、その基礎となる機械学習モデルよりも抽象度の高いレベルで動作し、ガイドとしてこれらのモデルの出力にのみ依存する。そのため、時間と計算量を節約できる。研究者は、事前に訓練が済んでいるモデルに自動機械学習を適用することで、既存の研究を繰り返して計算能力を浪費することなく、新しい洞察を得られるわけだ。

例えば、米国富士通研究所（Fujitsu Research of America）のメディ・バラミ研究科学者は、新しい目的にモデルを適合させるため、異なる事前訓練済みモデルにBERT-sort（バート・ソート）アルゴリズムを使う方法を、共同研究者とともに最新の研究論文として発表した。BERT-sortは、データセットで訓練すると、いわゆる「意味的順序」を探し出せるアルゴリズムだ。例えば、映画のレビューに関するデータを与えれば、「すばらしい」映画は「良い」映画や「悪い」映画よりも上位にランクされることが分かる。

自動機械学習の手法を使えば、がんの診断や韓国語の文書の分類などにも学習済みの意味的順序を外挿し、時間や計算量を削減できる。

「BERTは計算に何カ月もかかり、非常に高価です。モデルを生成し、それらのプロセスを繰り返すのに100万ドル程度の費用がかかります」とバラミ研究科学者は言う。「ですから、もし大勢の人が同じことをすれば高くつくし、エネルギー効率も悪く、世の中のためにもなりません」。

有望な分野ではあるものの、研究者たちは自動機械学習の手法をより計算効率の高いものにする方法をまだ模索している最中だ。例えば、ニューラル・アーキテクチャー探索のような手法は現在、最適なものを見つけるために多くの異なるモデルを構築してテストしているが、すべてを繰り返すのに費やされるエネルギーは相当なものになる場合がある。

自動機械学習はまた、ランダム決定フォレストやサポート・ベクター・マシンを作成してデータを分類するといった、ニューラル・ネットワークを用いない機械学習アルゴリズムにも応用できる。こうした分野の研究はさらに進んでおり、自動機械学習技術をプロジェクトに取り入れたい人のために、すでに多くのコーディング・ライブラリが利用可能だ。

次の段階は、自動機械学習を使って不確実性を定量化し、アルゴリズムの信頼性と公平性の問題に取り組むことだ、と前出のハッター教授は話す。そのビジョンにおける信頼性と公平性をめぐる基準は、精度などの機械学習の他の制約と似たようなものになる。そして自動機械学習はアルゴリズムで見つけたバイアスを、リリース前に捉えて自動的に修正できるだろう。

研究は続く

しかし、深層学習のようなものに自動機械学習を適用するのには、まだ長い道のりがある。深層学習モデルの訓練に使われるデータは、画像や文書、録音された音声など、高密度で複雑なものが多い。処理には膨大な計算能力が必要になる。これらのモデルを訓練するのにかかるコストや時間は、資金力のある民間企業で働く研究者以外にとっては法外なものになるかもしれない。

カンファレンスで実施されたコンペの1つは、ニューラル・アーキテクチャー探索のためのエネルギー効率のよい代替アルゴリズムの開発を求めるものだった。この手法には悪名高い計算需要があるため、高度な挑戦となる。無数の深層学習モデルを自動的に循環させ、研究者が用途に合ったものを選べるようにするが、処理には数カ月かかり、コストは100万ドル以上にもなる場合がある。

ゼロコスト・ニューラル・アーキテクチャー探索プロキシーと呼ばれるこうした代替アルゴリズムの目的は、必要とされる計算量を大幅に削減し、ニューラル・アーキテクチャー探索をより扱いやすく、環境に優しいものにすることだ。その結果、実行にかかる期間は数カ月ではなくわずか数秒になる。こうした手法はまだ開発の初期段階にあり、多くの場合信頼性に欠けるが、自動機械学習がモデル選択処理をはるかに効率化する可能性があると機械学習の研究者たちは予測している。

人気の記事ランキング

タミー・シュ [Tammy Xu]米国版エマージング・ジャーナリスト・フェロー: MITテクノロジーレビューのエマージング・ジャーナリスト・フェロー。