KADOKAWA Technology Review
×
【4/24開催】生成AIで自動運転はどう変わるか?イベント参加受付中
2023年のAIはこうなる
本誌が予測する4大トレンド
Stephanie Arnett/MITTR; Unsplash, Pexels, Wellcome Collection
whats-next-in-tech Insider Online限定
What's next for AI

2023年のAIはこうなる
本誌が予測する4大トレンド

2022年にはテキストから画像を生成するAIが世間の注目を浴びた。2023年、AI分野で何が起こるのだろうか。MITテクノロジーレビューのAI担当記者が予測する。 by Will Douglas Heaven2023.01.05

2022年、人工知能(AI)はクリエイティブになった。AIモデルは現在、ほんの少し指示してやるだけで、驚くほど説得力のある文章や絵、そして動画さえも作り出すことができる。テキストによる指示から画像を生成できる深層学習モデル「ダリー(DALL-E) 2」をオープンAI(OpenAI)が公開し、生成AI(ジェネレーティブAI)の爆発的な普及が始まったのは、ほんの9カ月前のことだ。その後、グーグルとメタ(Meta)が、テキストから動画を生成できる画期的なAIを発表した。そして、ほんの数週間前、オープンAIが最新の大規模言語モデル「チャットGPT(ChatGPT)」を公開し、その驚くべき雄弁さと一貫性にインターネットが沸いた。

世界を変えるU35イノベーター2022年版
この記事はマガジン「世界を変えるU35イノベーター2022年版」に収録されています。 マガジンの紹介

2022年のAIのイノベーションのスピードは目覚ましく、時には圧倒されるほどだった。このような状況を誰が予想できただろうか? そして、次に何が起こると予測できるだろうか?

MITテクノロジーレビューには、毎日、夢中になって AIの最新動向を追いかけている記者が2人いる。本誌のウィル・ダグラス・ヘヴン記者とメリッサ・ヘイキラ記者が予測する、2023年のAIシーンを形作るであろう「4大トレンド」を紹介しよう。

1. 多目的チャットボットの登場に備えよ

GPT-4は言語以外も扱えるようになるかもしれない

ここ数年、より大規模で、より優れた言語モデルが次々に登場した。現在の最高峰は、オープンAIが2022年12月初めに公開した「チャットGPT(ChatGPT)」だ。このチャットボットは、人間の言葉を驚くほど自然に模倣する言語モデルが次々と登場するきっかけとなった2020年のAIモデル「GPT-3」を洗練させ、チューンアップしたものだ。

AIの世界での3年は長い。チャットGPTは世界を席巻し、たとえ無分別だとしてもその流暢な会話スキルに世間は息をのみ、ソーシャルメディアの投稿や新聞の見出しを賑わせたものの、現在は次の大きな話題である「GPT-4」にすべての目が向けられている。情報通の投資家たちは、2023年は次世代大規模言語モデルの幕開けの年になると話している。

どんなことが期待できるだろうか? まず、将来の言語モデルは、単なる言語モデル以上のものになる可能性がある。オープンAIは、画像認識や動画認識などの多様なモダリティとテキストを組み合わせることに関心を持っている。これは、「ダリー(DALL-E)」ですでに実現された。しかし、チャットGPTの会話スキルを取り入れて、単一のモデルの中で画像操作と組み合わせれば、より汎用的で強力なものが得られのではないだろうか。チャットボットに対し、画像の中に何があるのか質問したり、画像の生成を頼んだりできるようになることを想像してほしい。そのやりとりが会話の一部となることで、DALL-Eでできることよりも改善された、より自然な結果が得られるかもしれない。

その可能性は、2022年4月に公開されたディープマインドの視覚言語モデルである「フラミンゴ(Flamingo)」で垣間見えた。フラミンゴは、自然言語を使って画像に関する質問に答えることができる。これに続き、ディープマインドは5月に「万能」モデルの「ガトー(Gato)」を発表した。ガトーは、画像の説明からビデオゲームのプレイやロボットアームの制御まで、さまざまな種類のタスクを実行するために、大規模言語モデルと同じ手法を用いて訓練されている。

GPT-4がそのようなテクノロジーをベースに構築されるとすれば、一体化された最高の言語・画像生成AI(およびそれ以上)の能力を期待できる。言語と画像のスキルを組み合わせることで、次世代AIは理論上、その両方をより深く理解できるようになるはずだ。そして、この動きはオープンAIだけにとどまらない。2023年は他の大手研究機関、特にディープマインドが、マルチモーダル・モデルを推し進めることが期待される。

しかしもちろん、マイナス面もある。次世代の言語モデルは、事実とフィクションの識別ができないことや、偏見を持つ傾向など、現世代の言語モデルの問題のほとんどを受け継ぐことになる。また、言語モデルがより優秀になれば、さまざまな種類のメディアを信頼する …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
【春割】実施中! ひと月あたり1,000円で読み放題
10 Breakthrough Technologies 2024

MITテクノロジーレビューは毎年、世界に真のインパクトを与える有望なテクノロジーを探している。本誌がいま最も重要だと考える進歩を紹介しよう。

記事一覧を見る
気候テック企業15 2023

MITテクノロジーレビューの「気候テック企業15」は、温室効果ガスの排出量を大幅に削減する、あるいは地球温暖化の脅威に対処できる可能性が高い有望な「気候テック企業」の年次リストである。

記事一覧を見る
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る