We know remarkably little about how AI language models work

AIに人間向けのテストを解かせる意味はあるのか？

チャットGPT（ChatGPT）などの大規模言語モデルに、司法試験などの難関とされるテストを解かせて、その能力を高く評価する動きがある。しかし、大規模言語モデルに人間向けのテストを解かせることに、どれほどの意味があるのだろうか。 by Melissa Heikkilä2023.10.15

この記事は米国版ニュースレターを一部再編集したものです。

人工知能（AI）の大規模言語モデルは人間ではない。しかし私たちは司法試験や米国医師免許試験のようなテストを解かせて、それがあたかも人間であるかのように評価している。

大規模言語モデルはこのような試験で非常に良い結果を出す傾向があるが、これはおそらく、モデルの訓練データの中にこれらの試験の事例が豊富に含まれているからだろう。しかし、MITテクノロジーレビューのウィル・ダグラス・ヘブン編集者が最新記事で書いているように、「人間的な知性のきらめきに魅了される人もいれば、全く納得できていない人もいる」。

これらのテストはAIに関する過大な宣伝を助長し「大規模言語モデル」が実際よりも優れた機能を持っているという幻想」を作り出してしまうとして、これらのテストを大規模言語モデルに解かせることを止めるように求める専門家が増えている。こちらで全文をお読みいただきたい。

ヘブン編集者の話で印象に残ったのは、大規模言語モデルがどのように機能するのか、そしてなぜ大規模言語モデルがそのように動作するのかについて、私たちが知っていることは驚くほど少ないということだ。これらのテストで、私たちは、大規模言語モデルが内部でどのように機能するか完全に理解することなく、そのアウトプットに基づいてその「知性」を測定し、美化しようとしている。

私たちは物事を擬人化する傾向があるが、それがこの問題をかくも厄介なものにしている。「AIが誕生した当初から、人々はIQテストをはじめとする人間用の知能検査を機械に対して実施してきました」とニューメキシコ州にあるサンタフェ研究所（Santa Fe Institute）でAIを研究しているメラニー・ミッチェル教授は言う。「一貫して言える問題は、このような機械に対する検査が何を意味するかということです。人間に対する検査とは異なる意味合いを持ちます」。

カリフォルニア大学ロサンゼルス校の研究者たちは、魔神が 2つの瓶の間で宝石を移動させる話をGPT-3 に聴かせた後に、ボール紙や厚紙で作った筒などを使って、ある器から別の器へガムボールを移動させる方法についてGPT-3に尋ねた。ポイントは、先に聞かせた話をヒントにどのような問題解決方法をGPT-3が導くかだ。GPT-3が提案した解決策は、巧妙だが仕組みとしては意味がないものだった。「この種の問題は、子どもでも簡単に解決できます」と研究者のひとりで、カリフォルニア大学ロサンゼルス校の博士研究員を務めるテイラー・ウェッブは言う。

「規模言語モデルは人間が書いたような文章を生成できるため、人間向けの心理テストによる評価が有効だと考えたくなるのは無理もありません。しかし、それは間違いです。人間向けの心理テストは、大規模言語モデルには当てはまらないかもしれない多くの前提条件に基づいているのです」と、グーグル・ディープマインドの上級研究員であるローラ・ワイディンガー博士は言う。

英国ケンブリッジ大学の心理学者であるルーシー・チーク博士は、人間の持つバイアスに基づく性急な結論を避けるために開発され、動物の研究に使われている手法を、AI研究者が応用できる可能性があると示唆している。

大規模言語モデルがどのように機能するのかは誰も知らない。「根本的な問題は、検査結果にばかり注目していて、どのように検査に合格したかについてが疎かになっている点だと思います」と、ハーバード大学の認知科学者であるトメル・ウルマン助教授は言う。

この記事の全文はこちら。

◆

ディープマインドがAI生成画像向けの透かしツールを発表

グーグル・ディープマインドは、画像がAIで生成されたものかどうかラベル付けする新しい透かしツールを発表した。「SynthID（シンスID）」と呼ばれるこのツールは、まずグーグルのAI画像生成ツール「Imagen（イメージェン）」のユーザーのみに提供される。ユーザーは画像を生成でき、それに透かしを入れるかどうか選択できる。このツールにより、AIが生成したコンテンツが本物として出回っている時に、本物ではないと知ることができたり、著作権保護などに役立つと期待されている。

グーグル・ディープマインドは、責任あるAIを開発するという、ホワイトハウス（大統領府）との自主的な誓約に従い、このようなツールを公に発表した最初の巨大テック企業となった。この「透かし」は、テキストや画像の中に信号を隠して、そのコンテンツがAIによって生成されたものであることを識別させる手法だが、これは、AI生成コンテンツによる害を抑制するために提案された最もポピュラーなアイデアの1つとなっている。良いスタートではあるが、透かしだけではオンラインでの信頼をさらに高めることはできない。こちらで詳細をご確認ください。

AI関連のその他のニュース

最近、中国でチャットGPT（ChatGPT）に代わるサービスが一般向けに承認された。中国有数の人工知能企業の1つであるバイドゥ（Baidu：百度）は、チャットGPT に似た大規模言語モデルであるアーニー・ボット（Ernie Bot）を一般向けに開放すると発表した。これが中国のインターネット利用者にとって何を意味するのか、MITテクノロジーレビューのヤン・ズェイ記者が考察する。（MITテクノロジーレビュー）

脳インプラントは、脳卒中から生還した人の顔のデジタル・アバター作成に役立った。すばらしいニュースだ。ネイチャー（Nature）誌に掲載された2つの論文は、脳の活動を音声に変換する取り組みが大きく前進していることを示している。研究者たちは、脳インプラント、AIアルゴリズム、デジタル・アバターの助けを借りて、話す能力を失った女性たちが再びコミュニケーションできるよう支援することに成功した。（MITテクノロジーレビュー）

あらゆる物や人が売りに出されるAIポルノ市場の内側。生成AI（ジェネレーティブAI）ブームが、ディープフェイク・ポルノの怪しげな市場をどのように生み出したのかについて探った素晴らしい調査記事だ。合意に基づいていないディープフェイク・ポルノのような現実世界での危害を防ぐ取り組みを私たちほとんどしてこなかったが、これは完全に予測可能なことで、苛立たしいことだ。（ 404メディア）

「デジタルの搾取工場」で働く多くの海外労働者がAIブームを加速させる。フィリピンに住む何百万人もの人々が、米国サンフランシスコに本社を構えるデータ会社スケールAI（Scale AI）のデータ・アノテーターとして働いている。しかし、問題ある労働条件に対するこの調査記事が示すように、多くの労働者の収入は最低賃金を下回る上、支払いが遅れたり、減額されたり、支払われなかったりしている。（ワシントンポスト紙）

熱帯の島のドメイン名が注目を浴びる。AIブームにより、カリブ海に浮かぶイギリス領の小さな島であるアンギラはそのドメイン名「.ai」で宝の山を掘り当てた。アンギラは今年、この注目のドメイン名を求める企業から莫大な利益を得ると予測されている。（ブルームバーグ）

人気の記事ランキング

メリッサ・ヘイッキラ [Melissa Heikkilä]米国版 AI担当上級記者: MITテクノロジーレビューの上級記者として、人工知能とそれがどのように社会を変えていくかを取材している。MITテクノロジーレビュー入社以前は『ポリティコ（POLITICO）』でAI政策や政治関連の記事を執筆していた。英エコノミスト誌での勤務、ニュースキャスターとしての経験も持つ。2020年にフォーブス誌の「30 Under 30」（欧州メディア部門）に選出された。