KADOKAWA Technology Review
×
大規模言語AIにアキレス腱、訓練用データが2026年にも枯渇か
Stephanie Arnett/MITTR
We could run out of data to train AI language programs 

大規模言語AIにアキレス腱、訓練用データが2026年にも枯渇か

近年、各企業がこぞって開発を進めている大規模言語モデルで、ある問題が指摘されている。同モデルを訓練するために必要な質のよい大量のデータが、早ければ2026年にも枯渇するというのだ。 by Tammy Xu2022.11.29

大規模言語モデルは現在、人工知能(AI)研究で特に活気ある分野の1つだ。各社は、理路整然とした記事のみならず、コンピューター・プログラムすら書くことのできる「GPT-3」のようなプログラムを競ってリリースしようとしている。だがAIの将来を予測しているチームによると、今、差し迫った問題があるという。それは、モデルを訓練するためのデータが枯渇するかもしれないという問題だ。

言語モデルは、ウィキペディアやニュース記事、科学論文、書籍などの情報源の文章を使って訓練される。近年は、正確性や汎用性の向上を目的に、モデルを訓練するためのデータをさらに増やそうという傾向がある。

だが問題は、言語モデルの訓練に通常使用される種類のデータが、近い将来、早ければ2026年にも枯渇する可能性があることだ。これは、AIの研究と予測をするエポック(Epoch)という団体が発表した論文で指摘されている。問題の原因は、研究者たちが能力の高い、より強力なモデルを構築するうえで、モデルを訓練するための文章をさらに見つけなければならないという事実にある。AI企業、ハギング・フェイス(Hugging Face)のテヴェン・レ・スカオ研究員(エポックの研究には不参加)は、大規模言語モデルの研究者はそうしたデータが枯渇することをますます心配していると語る。

問題の原因の一部は、言語AIの研究者が、モデルの訓練に使用するデータを「高品質」と「低品質」の2つのカテゴリーに分けていることにある。エポックの論文の筆頭著者である同社のパブロ・ヴィラロボス研究員によると、カテゴリーは境界が曖昧なこともあるという。高品質のデータはよく書けている文章を意味し、プロの書き手が作成したものであることが多い。

低品質カテゴリーのデータは、ソーシャルメディアへの投稿や「4ちゃん(4chan)」のようなWebサイトのコメントからなり、高品質とみなされるデータの量をはるかに上回っている。研究者は通常、高品質カテゴリーのデータのみを使ってモデルを訓練する。高品質なカテゴリーの言葉をモデルで再現したいと考えているからだ。こうした手法により、GPT-3などの大規模言語モデルで目覚ましい成果が出ている。

機械学習の専門家で、データセットの品質に詳しい南カリフォルニア大学のスワバ・スワヤムディプタ教授が言うには、データの制限を乗り越える1つの方法は、「低品質」「高品質」という定義を見直すことだ。データ不足のためにAI研究者がより広範なデータを訓練プロセスに組み入れるようになれば、それは言語モデルにとって「純増」になると同教授は言う。

言語モデルの訓練に使用されるデータの寿命を延ばす方法を探ることもできるだろう。現在のところ、性能やコスト面での制限のために、大規模言語モデルの訓練では同じデータを一度しか使っていない。だが、同じデータでモデルを数回訓練できる可能性もある、とスワヤムディプタ教授は指摘する。

一部の研究者は、こと言語モデルに関しては、大規模なモデルがそれに見合う利点をもたらさないかもしれないと考えている。スタンフォード大学のパーシー・リャン教授(コンピューター科学)は、単にモデルを大きくする代わりに効率を上げることで能力が向上する可能性を示す証拠があると言う。 「高品質のデータで訓練された小規模なモデルが、低品質のデータで訓練された大規模モデルの能力を上回ることができる例が見受けられます」と同教授は説明する。

人気の記事ランキング
  1. Why it’s so hard for China’s chip industry to become self-sufficient 中国テック事情:チップ国産化推進で、打倒「味の素」の動き
  2. How thermal batteries are heating up energy storage レンガにエネルギーを蓄える「熱電池」に熱視線が注がれる理由
  3. Researchers taught robots to run. Now they’re teaching them to walk 走るから歩くへ、強化学習AIで地道に進化する人型ロボット
タミー・シュ [Tammy Xu]米国版 エマージング・ジャーナリスト・フェロー
MITテクノロジーレビューのエマージング・ジャーナリスト・フェロー。
10 Breakthrough Technologies 2024

MITテクノロジーレビューは毎年、世界に真のインパクトを与える有望なテクノロジーを探している。本誌がいま最も重要だと考える進歩を紹介しよう。

記事一覧を見る
人気の記事ランキング
  1. Why it’s so hard for China’s chip industry to become self-sufficient 中国テック事情:チップ国産化推進で、打倒「味の素」の動き
  2. How thermal batteries are heating up energy storage レンガにエネルギーを蓄える「熱電池」に熱視線が注がれる理由
  3. Researchers taught robots to run. Now they’re teaching them to walk 走るから歩くへ、強化学習AIで地道に進化する人型ロボット
気候テック企業15 2023

MITテクノロジーレビューの「気候テック企業15」は、温室効果ガスの排出量を大幅に削減する、あるいは地球温暖化の脅威に対処できる可能性が高い有望な「気候テック企業」の年次リストである。

記事一覧を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る