KADOKAWA Technology Review
×
大規模言語AIにアキレス腱、訓練用データが2026年にも枯渇か
Stephanie Arnett/MITTR
We could run out of data to train AI language programs 

大規模言語AIにアキレス腱、訓練用データが2026年にも枯渇か

近年、各企業がこぞって開発を進めている大規模言語モデルで、ある問題が指摘されている。同モデルを訓練するために必要な質のよい大量のデータが、早ければ2026年にも枯渇するというのだ。 by Tammy Xu2022.11.29

大規模言語モデルは現在、人工知能(AI)研究で特に活気ある分野の1つだ。各社は、理路整然とした記事のみならず、コンピューター・プログラムすら書くことのできる「GPT-3」のようなプログラムを競ってリリースしようとしている。だがAIの将来を予測しているチームによると、今、差し迫った問題があるという。それは、モデルを訓練するためのデータが枯渇するかもしれないという問題だ。

言語モデルは、ウィキペディアやニュース記事、科学論文、書籍などの情報源の文章を使って訓練される。近年は、正確性や汎用性の向上を目的に、モデルを訓練するためのデータをさらに増やそうという傾向がある。

だが問題は、言語モデルの訓練に通常使用される種類のデータが、近い将来、早ければ2026年にも枯渇する可能性があることだ。これは、AIの研究と予測をするエポック(Epoch)という団体が発表した論文で指摘されている。問題の原因は、研究者たちが能力の高い、より強力なモデルを構築するうえで、モデルを訓練するための文章をさらに見つけなければならないという事実にある。AI企業、ハギング・フェイス(Hugging Face)のテヴェン・レ・スカオ研究員(エポックの研究には不参加)は、大規模言語モデルの研究者はそうしたデータが枯渇することをますます心配していると語る。

問題の原因の一部は、言語AIの研究者が、モデルの訓練に使用するデータを「高品質」と「低品質」の2つのカテゴリーに分けていることにある。エポックの論文の筆頭著者である同社のパブロ・ヴィラロボス研究員によると、カテゴリーは境界が曖昧なこともあるという。高品質のデータはよく書けている文章を意味し、プロの書き手が作成したものであることが多い。

低品質カテゴリーのデータは、ソーシャルメディアへの投稿や「4ちゃん(4chan)」のようなWebサイトのコメントからなり、高品質とみなされるデータの量をはるかに上回っている。研究者は通常、高品質カテゴリーのデータのみを使ってモデルを訓練する。高品質なカテゴリーの言葉をモデルで再現したいと考えているからだ。こうした手法により、GPT-3などの大規模言語モデルで目覚ましい成果が出ている。

機械学習の専門家で、データセットの品質に詳しい南カリフォルニア大学のスワバ・スワヤムディプタ教授が言うには、データの制限を乗り越える1つの方法は、「低品質」「高品質」という定義を見直すことだ。データ不足のためにAI研究者がより広範なデータを訓練プロセスに組み入れるようになれば、それは言語モデルにとって「純増」になると同教授は言う。

言語モデルの訓練に使用されるデータの寿命を延ばす方法を探ることもできるだろう。現在のところ、性能やコスト面での制限のために、大規模言語モデルの訓練では同じデータを一度しか使っていない。だが、同じデータでモデルを数回訓練できる可能性もある、とスワヤムディプタ教授は指摘する。

一部の研究者は、こと言語モデルに関しては、大規模なモデルがそれに見合う利点をもたらさないかもしれないと考えている。スタンフォード大学のパーシー・リャン教授(コンピューター科学)は、単にモデルを大きくする代わりに効率を上げることで能力が向上する可能性を示す証拠があると言う。 「高品質のデータで訓練された小規模なモデルが、低品質のデータで訓練された大規模モデルの能力を上回ることができる例が見受けられます」と同教授は説明する。

人気の記事ランキング
  1. AI just beat a human test for creativity. What does that even mean? AIが創造性テストで人間に勝利、その衝撃結果が意味すること
  2. What to know about this autumn’s covid vaccines 新型コロナに秋の流行の兆し、ワクチンの現状は?
  3. Why we should all be rooting for boring AI 生成AIの「キラキラしない」未来に期待する理由
  4. Who benefits most from the new covid vaccines? 秋接種が始まった新型コロナ・ワクチン、誰が接種すべきか?
タミー・シュ [Tammy Xu]米国版 エマージング・ジャーナリスト・フェロー
MITテクノロジーレビューのエマージング・ジャーナリスト・フェロー。
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

記事一覧を見る
人気の記事ランキング
  1. AI just beat a human test for creativity. What does that even mean? AIが創造性テストで人間に勝利、その衝撃結果が意味すること
  2. What to know about this autumn’s covid vaccines 新型コロナに秋の流行の兆し、ワクチンの現状は?
  3. Why we should all be rooting for boring AI 生成AIの「キラキラしない」未来に期待する理由
  4. Who benefits most from the new covid vaccines? 秋接種が始まった新型コロナ・ワクチン、誰が接種すべきか?
生成AI革命

自然な文章を生成するチャットGPT(ChatGPT)/GPT-4などの大規模言語モデル、テキストから画像を生成できるDALL·E 、Stable Diffusion、Midjourneyなどの拡散モデルの登場は、私たちの生活やビジネスを大きく変えようとしている。
人工知能(AI)の新時代を牽引する「生成AI(ジェネレーティブAI)」革命の最前線を追う。

記事一覧を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る