KADOKAWA Technology Review
×
【1/31まで】年末年始限定!お得に購読できるキャンペーン実施中
大規模言語AIにアキレス腱、訓練用データが2026年にも枯渇か
Stephanie Arnett/MITTR
We could run out of data to train AI language programs 

大規模言語AIにアキレス腱、訓練用データが2026年にも枯渇か

近年、各企業がこぞって開発を進めている大規模言語モデルで、ある問題が指摘されている。同モデルを訓練するために必要な質のよい大量のデータが、早ければ2026年にも枯渇するというのだ。 by Tammy Xu2022.11.29

大規模言語モデルは現在、人工知能(AI)研究で特に活気ある分野の1つだ。各社は、理路整然とした記事のみならず、コンピューター・プログラムすら書くことのできる「GPT-3」のようなプログラムを競ってリリースしようとしている。だがAIの将来を予測しているチームによると、今、差し迫った問題があるという。それは、モデルを訓練するためのデータが枯渇するかもしれないという問題だ。

言語モデルは、ウィキペディアやニュース記事、科学論文、書籍などの情報源の文章を使って訓練される。近年は、正確性や汎用性の向上を目的に、モデルを訓練するためのデータをさらに増やそうという傾向がある。

だが問題は、言語モデルの訓練に通常使用される種類のデータが、近い将来、早ければ2026年にも枯渇する可能性があることだ。これは、AIの研究と予測をするエポック(Epoch)という団体が発表した論文で指摘されている。問題の原因は、研究者たちが能力の高い、より強力なモデルを構築するうえで、モデルを訓練するための文章をさらに見つけなければならないという事実にある。AI企業、ハギング・フェイス(Hugging Face)のテヴェン・レ・スカオ研究員(エポックの研究には不参加)は、大規模言語モデルの研究者はそうしたデータが枯渇することをますます心配していると語る。

問題の原因の一部は、言語AIの研究者が、モデルの訓練に使用するデータを「高品質」と「低品質」の2つのカテゴリーに分けていることにある。エポックの論文の筆頭著者である同社のパブロ・ヴィラロボス研究員によると、カテゴリーは境界が曖昧なこともあるという。高品質のデータはよく書けている文章を意味し、プロの書き手が作成したものであることが多い。

低品質カテゴリーのデータは、ソーシャルメディアへの投稿や「4ちゃん(4chan)」のようなWebサイトのコメントからなり、高品質とみなされるデータの量をはるかに上回っている。研究者は通常、高品質カテゴリーのデータのみを使ってモデルを訓練する。高品質なカテゴリーの言葉をモデルで再現したいと考えているからだ。こうした手法により、GPT-3などの大規模言語モデルで目覚ましい成果が出ている。

機械学習の専門家で、データセットの品質に詳しい南カリフォルニア大学のスワバ・スワヤムディプタ教授が言うには、データの制限を乗り越える1つの方法は、「低品質」「高品質」という定義を見直すことだ。データ不足のためにAI研究者がより広範なデータを訓練プロセスに組み入れるようになれば、それは言語モデルにとって「純増」になると同教授は言う。

言語モデルの訓練に使用されるデータの寿命を延ばす方法を探ることもできるだろう。現在のところ、性能やコスト面での制限のために、大規模言語モデルの訓練では同じデータを一度しか使っていない。だが、同じデータでモデルを数回訓練できる可能性もある、とスワヤムディプタ教授は指摘する。

一部の研究者は、こと言語モデルに関しては、大規模なモデルがそれに見合う利点をもたらさないかもしれないと考えている。スタンフォード大学のパーシー・リャン教授(コンピューター科学)は、単にモデルを大きくする代わりに効率を上げることで能力が向上する可能性を示す証拠があると言う。 「高品質のデータで訓練された小規模なモデルが、低品質のデータで訓練された大規模モデルの能力を上回ることができる例が見受けられます」と同教授は説明する。

人気の記事ランキング
  1. These scientists used CRISPR to put an alligator gene into catfish ワニの遺伝子を組み込んだ「CRISPRナマズ」が米国で誕生
  2. Why EVs won’t replace hybrid cars anytime soon トヨタの賭け、EV一辺倒ではなくハイブリッド車を売り続ける理由
  3. How AI-generated text is poisoning the internet AI生成コンテンツに汚染されるインターネット、その対策は?
  4. What’s next for batteries リチウムイオン以外の選択肢は台頭するか? 23年の電池業界を占う
タミー・シュ [Tammy Xu]米国版 エマージング・ジャーナリスト・フェロー
MITテクノロジーレビューのエマージング・ジャーナリスト・フェロー。
2023年のテクノロジー大予測

2023年のテクノロジーはどう動くのか? AIから量子コンピューター、宇宙開発、mRNAワクチンまで、重要トレンドをMITテクノロジーレビューが徹底予測。各分野の専門家や有力プレイヤーへの取材をもとに、技術・資金・政策などの多角的な視点で解説する。

記事一覧を見る
人気の記事ランキング
  1. These scientists used CRISPR to put an alligator gene into catfish ワニの遺伝子を組み込んだ「CRISPRナマズ」が米国で誕生
  2. Why EVs won’t replace hybrid cars anytime soon トヨタの賭け、EV一辺倒ではなくハイブリッド車を売り続ける理由
  3. How AI-generated text is poisoning the internet AI生成コンテンツに汚染されるインターネット、その対策は?
  4. What’s next for batteries リチウムイオン以外の選択肢は台頭するか? 23年の電池業界を占う
MITテクノロジーレビュー[日本版] Vol.9
MITテクノロジーレビュー[日本版] Vol.9量子時代のコンピューティング

グーグルやIBMなどの巨大テック企業からベンチャーまで、世界的な開発競争が加速する「量子コンピューター」を中心に、コンピューティングの動向を取り上げる。

詳細を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る