AIはいかにして文を「理解」するのか?言語理論をまとめてみた
非営利団体のオープンAIが開発した「フェイクニュース量産ツール」は、悪用が懸念され、オープンソース化が控えられた。同ツールをはじめとする自然言語処理システムは、どのようにして文章を「理解」するのだろうか。現在、自然言語処理で主流となっている4つの言語理論について説明する。 by Karen Hao2019.02.20
非営利の研究団体であるオープンAI(OpenAI)は2月14日、もっともらしい文章を作成できる新たな言語モデルをリリースした。実際、あまりにももっともらしい文章を作るので、オープンAIの研究者は、フェイクニュースを大量生産する手段として悪用されないように、言語モデルのコードのオープンソース化は控えることにした。
https://twitter.com/gdb/status/1096098366545522688?ref_src=twsrc%5Etfw
オープンAIのシステムは、既存の言語モデルがこれまでに達成したレベルをはるかに超える目覚ましい成果であるが、この言語モデルに関わる技術自体はまったく新しいわけではない。今回の飛躍的な成果は主に、かつてないほど多くの訓練データを機械学習アルゴリズムに与えることで達成された。機械学習アルゴリズムに大量の訓練データを与える手法はほかにも、AIに読み書きを教える分野における昨今の進展のほとんどに寄与してきた。「より多くのデータとより大きなモデルで達成できることを知ると、人々は少なからず驚きます」とスタンフォード大学のパーシー・リャン教授(コンピューター科学)は述べる。
オープンAIの言語モデルが作成する文章は、人間が書いた文章のように見えるほど質が高い。だが、この機能を、言語を真に理解する能力と混同してはならない。コンピューターに言語を完全に理解させることは、自然言語処理(NLP)として知られるAIの一分野の研究の最終目標となっている(コンピュータービジョンの分野においても類似点がある。コンピュータービジョンのアルゴリズムは、本当の意味で視覚的に理解する能力を持っていないが、極めてリアルな画像を合成できる)。実際、機械に人間レベルの理解能力を与えるために、自然言語処理の研究者たちは苦心している。目標の達成には、数年あるいは数十年かかるかもしれず、いまだに存在しない技術が必要になる可能性が高いとリャン教授は推測する。
現在、4つの言語理論が自然言語処理技術の開発を牽引している。オープンAIが用いる言語理論から始めて、順に説明しよう。
1. 分布意味論
言語理論:単語の意味は、それがどのように使われるかに由来する。たとえば、「猫」という単語と「犬」という単語は、ほとんど同じように使用されるため、互いに意味的に関連している。猫も犬も、餌を与えたり撫でたりできる。だが、オレンジに餌を与えたり撫でたりすることはできない。
自然言語処理への応用方法:分布意味論に基づくアルゴリズムは、昨今の自然言語処理分野の発展に大きく寄与している。こうしたアルゴリズムは、機械学習を用いて文章を処理し、本質的には、単語同士が相互の関連においてどれくらいの頻度でどれくらい密接に使用されているかを計測してパターンを見つけ出す。その結果とし …
- 人気の記事ランキング
-
- The great AI hype correction of 2025 GPT-5ローンチ失敗、 企業95%が成果出せず … 転換期を迎えたAIブーム
- China figured out how to sell EVs. Now it has to deal with their aging batteries. 中国でEV廃車ラッシュ、年間82万トンのバッテリー処理追いつかず
- AI might not be coming for lawyers’ jobs anytime soon そして弁護士の仕事は残った 「44%自動化」の誇大宣伝 司法試験クリアも実務遠く
- 4 technologies that didn’t make our 2026 breakthroughs list 2026年版「世界を変える10大技術」から漏れた候補4つ