KADOKAWA Technology Review
×
【春割】実施中!年間購読料20%オフ!
LLMの課題検証、
AI研究者が世界最大規模の
オープンソースPJ立ち上げ
Ariel Davis
人工知能(AI) Insider Online限定
The race to understand the exhilarating, dangerous world of language AI

LLMの課題検証、
AI研究者が世界最大規模の
オープンソースPJ立ち上げ

人間の会話を模倣する優れた能力で注目を集めている大規模言語モデル(LLM)には大きな課題があるが、商業主義の巨大テック企業はそれに向き合おうとしていない、そこで、同モデルの課題を検証するための世界規模のオープンソース・プロジェクトがこの4月に始動した。 by Karen Hao2021.05.26

5月18日、グーグルのサンダー・ピチャイCEO(最高経営責任者 ) は、新たな優れたツールを発表した。「ラムダ(LaMDA)」と呼ばれるその人工知能(AI)システムは、あらゆるテーマについてユーザーとチャットができる。

グーグルは手始めに、メインの検索ポータルや音声アシスタント、さらにはGメール、ドキュメント、ドライブといったクラウドベースの業務ソフトウェアを集めたワークスペースに、ラムダを統合することを計画している。しかし、ピチャイCEOによると、最終的な目標は、テキスト、ビジュアル、オーディオなど、すべてのグーグル製品にわたって、人が問いかけるだけであらゆる種類の情報を取得できる会話型インターフェイスを作り上げることだ。

ラムダの投入は、自然言語処理テクノロジーが人々の日常生活になお一層絡むようになっていることを示唆する。しかし、グーグルの華々しいプレゼンテーションは、こうした最先端システムを現在取り巻いている倫理面での論争に目を背けていた。ラムダは、大規模言語モデル(LLM)と呼ばれる、膨大な量のテキストデータを使って訓練された深層学習アルゴリズムなのだ。

大規模言語モデルには人種差別的、性差別的、虐待的な思想が組み込まれることが、いくつかの研究ですでに示されている。こうしたモデルは、例えば医師といえば男性、看護師といえば女性、あるいは上品な言葉といえば白人、下品な言葉といえば黒人といった具合に、カテゴリーの関連付けをしている。適当にカマをかけながらこれらモデルを探っていくと、虐殺、自傷行為、児童性的虐待といったことを奨励し始める。また、規模の大きさゆえに、モデルを構築する際に排出する二酸化炭素の量は驚くほど多い。さらに、生成するテキストの流暢さゆえに、モデルが作成した文章を人間が書いたものと思わせ、人々を容易に混乱に陥れる。これについて、専門家は誤った情報の大量生産が可能になると警告している。

2020年12月に、グーグルのAI倫理チームの共同リーダーであったティムニット・ゲブルが、大規模言語モデルがはらむ多くの問題を指摘した論文の撤回を拒否すると、同社はゲブルを追放した。それから数か月、グーグル社員からの公開書簡で、同社による「研究に対する前例のない検閲」と呼ばれる出来事の大規模な告発があると、ゲブルの共著者で、同じくAI倫理を率いていたマーガレット・ミッチェルも解雇された。

大規模言語モデルを導入しているのはグーグルだけではない。これまでで最も脚光を浴びた言語モデルであるオープンAI(OpenAI)の「GPT-2」と「GPT-3」は、際立って説得力のあるテキスト文を吐き出し、音楽の作曲やコンピューターコードの仕上げという別の目的にも利用できる。マイクロソフトは現在、GPT-3の独占ライセンスを取得して、今後発表する製品へ組み込もうとしている。フェイスブックは、翻訳とコンテンツモデレーションのために独自の大規模言語モデルを開発した。さらに、複数のスタートアップ企業が、大手テック企業の言語モデルを基に、数多くの製品やサービスを作り出している。そう遠くない将来、人々が電子メール送信、検索、ソーシャルメディア投稿をする際に、すべてのデジタル・インタラクションが大規模言語モデルいうフィルターを通ることになるだろう。

残念ながら、大規模言語モデルの欠陥が、現実世界の用途において人々にどのような影響があるかを理解したり、これらの課題を軽減させるより優れたモデルを設計したりしようとする研究はほとんど実施されていない。グーグルがゲブルとミッチェルの扱いで明確に示したように、大規模言語モデルを訓練し、維持するのに十分な資金を持ついくつかの企業は、大きな経済的利益を得るために、同モデルの課題を注意深く調べることを拒否している。つまり、大規模言語モデルは、科学的に不安定な基盤上に築かれたインターネットの言語インフラに、ますます統合されつつあるということだ。

だが一方で、現在、世界中で500人を超す研究者が、大規模言語モデルの機能と限界について理解しようと競い合っている。自然言語処理の理解に向けて「オープンサイエンス」のアプローチを採用するスタートアップ企業、ハギングフェイス(Huggingface)が主導する「ビッグサイエンス・プロジェクト」に協力する研究者らは、科学コミュニティの共有リソースとしての役割を担うオープンソース大規模言語モデルの構築を目指している。プロジェクトの目標は、重点期間と定めた1年以内にできるだけ多くの学識を得ることである。彼らの疑問の中心は、有害な結果を招くことなく利益を享受するには、大規模言語モデルをいつどのように開発・展開するべきかということだ。

この取り組みを共同で主導しているハギングフェイスのトーマス・ウルフCSO(最高科学責任者)は、「大規模言語モデルをめぐる熱狂は本当に止められません。誰もが大規模言語モデルを訓練したがっています。私たちにできることは、最終的にはより有益な方向に、この動きを少しずつ持っていくことです」と言う。

確率論的に繰り返すだけのオウム

ビッグサイエンス・プロジェクトが活動を開始した同じ月に、コヒア(Cohere)という名前のスタートアップが静かに姿を現した。元グーグルの研究者が創業したコヒアは、大規模言語モデルを必要とするあらゆるビジネスに対し、たった1行のコードで、同モデルを利用できるようにすることを約束している。同社は、データセンターにある一部の稼働していない計算リソースを活用して独自モデルを訓練およびホストする手法を開発した。これにより、維持と展開に必要なクラウドスペースのレンタルコストを抑えられる。

コヒアの初期の顧客のひとつに、エイダ・サポート(Ada Support)という名前のスタートアップ …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
【春割】実施中!年間購読料20%オフ!
人気の記事ランキング
  1. A new US phone network for Christians aims to block porn and gender-related content ポルノもLGBTも遮断、キリスト教徒向けMVNOが米国で登場
  2. Musk v. Altman week 1: Elon Musk says he was duped, warns AI could kill us all, and admits that xAI distills OpenAI’s models 「オープンAIを蒸留した」マスク対アルトマン第1週、法廷がざわめく
  3. Will fusion power get cheap? Don’t count on it. 核融合は本当に安くなるのか? 楽観論に「待った」をかける新研究
MITテクノロジーレビューが選んだ、 世界を変える10大技術

MITテクノロジーレビューの記者と編集者は、未来を形作るエマージング・テクノロジーについて常に議論している。年に一度、私たちは現状を確認し、その見通しを読者に共有する。以下に挙げるのは、良くも悪くも今後数年間で進歩を促し、あるいは大きな変化を引き起こすと本誌が考えるテクノロジーである。

特集ページへ
AI革命の真実 誇大宣伝の先にあるもの

AIは人間の知能を再現する。AIは病気を根絶する。AIは人類史上、最大にして最も重要な発明だ——。こうした言葉を、あなたも何度となく耳にしてきたはずだ。しかし、その多くは、おそらく真実ではない。現在地を見極め、AIが本当に可能にするものは何かを問い、次に進むべき道を探る。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る