「生成AI革命」は日本に何をもたらすか？

リアル開催としてはおよそ3年半ぶりとなる「Emerging Technology Nite #22 Plus」（主催＝MITテクノロジーレビュー［日本版］、協力＝Global Business Hub Tokyo）が2023年4月25日、東京・大手町のGlobal Business Hub Tokyoで開催された。「生成AI革命——破壊的テクノロジーがもたらすチャンスとリスク」をテーマとした今回は、オフライン／オンライン合わせて600人近くが参加。5人の専門家が登壇し、それぞれの立場から生成AIの可能性について議論を交わした。

登壇者は、東京大学松尾研究室特任助教を務める鈴木雅大氏、画像生成AI「ステーブル・ディフュージョン（Stable Diffusion）」の開発元であるスタビリティAI（Stability AI ）のジェリー・チー氏、ゲームAI開発者・研究者で東京大学生産技術研究所特任教授の三宅陽一郎氏、アーティスト／Qosmo代表取締役／慶應義塾大学特別招聘准教授の徳井直生氏、シティライツ法律事務所に所属の法律家・弁護士である水野祐氏。後半のパネルディスカッションのモデレーターは、MITテクノロジーレビュー［日本版］アドバイザーの遠藤諭が務めた。

【お知らせ】

本イベントのアーカイブ動画を有料会員限定で公開中。こちらからご視聴ください。
チャットGPT/LLMの産業応用をテーマにした「生成AI革命2」を6月15日に開催します。

ディープラーニングを用いた深層生成モデルが生成AIの発展を加速

鈴木氏の講演のテーマは「テクノロジー視点での生成AIの捉え方ーGANから拡散モデルへ、深層生成モデルの技術的発展ー」。画像を中心とする生成AI研究の歴史と、深層生成モデル、そして現在注力している世界モデルの研究について解説した。

鈴木氏は博士課程の2015年から東京大学の松尾研究室に所属し、深層生成モデルとマルチモーダル学習の研究を続けている。現在の生成AIの要素技術である深層生成モデルの研究自体も、この頃から始まったものだ。それより前からも生成モデルの研究はあったが、「画像を扱うことはほとんどなかった」と鈴木氏は話す。

深層学習が発明されてからは、深層ニューラルネットワークを使い、画像のような複雑なデータを生成する研究が進んだ。これが深層生成モデルだ。

最初期の研究では、VAE（Variational Autoencoder）と呼ばれるモデルが主流だったが、1年ほど後れてGAN（Generative Adversarial Networks：敵対的生成ネットワーク）と呼ばれる深層生成モデルが登場する。ただ、VAEとGANはいずれも2つのモデルを学習する必要があるため、バランスよく学習しないと安定しないとの課題があった。また、一度学習した後に画像の品質を上げようとすると、モデルに手を加えられず、「もっとたくさん学習する」しか改善方法がなかった。

「そういった背景があって、近年では1つの生成モデルを使って反復的に生成する、拡散モデルが着目されてきたというのが歴史的な流れです」と鈴木氏は説明する。

拡散モデルでは、2つの過程を考える。画像にランダムノイズを徐々に追加して生成する拡散過程と、逆に完全なノイズの画像からだんだんノイズを除去して元の画像に復元していく逆過程だ。ここにノイズ予測というものを用いて、拡散過程のある特定のタイムステップの画像、つまりある程度ノイズが入った画像を用意し、そこから完全なノイズ画像を生成する。そのノイズ画像からノイズを除去していく逆過程をモデル化することで学習を行う。

現在、鈴木氏らの研究室では深層生成モデルを使った世界モデルに注力しているという。

「我々は外界から情報を獲得し、頭の中で世界の予測モデルを作っています。それと同じことを、AIでも実現しようという研究が、世界モデルの研究です」（鈴木氏）。

例えば、学習する画像に複数の物体がある場合、それぞれの物体の存在を認識し、それらの物体が動くときには、物体間の関係性を踏まえた予測をするといった具合だ。人間は視覚だけでなく、さまざまな情報に基づいて予測し、意思決定をしている。それと同様に、さまざまな情報を統合し、AI自らが情報の構造、世界の理を理解できるようにする。

深層生成モデルの課題として鈴木氏は、「時系列情報から長期の予測モデルを学習するためには、その時系列情報を抽象化する表現を獲得する必要がある」と話した。時間的抽象化と呼ばれる研究が、今後出てくるであろう動画の生成などにおいて重要になると考えられる。

生成AIで全人類はDJになる

アーティストであり、コンピューターによる創造性（computational creativity）の研究者である徳井氏は、音楽を表現するスペクトログラム画像を生成し、リズム、ベースライン、メロディなどのループをリアルタイムで音響合成して、それらを徳井氏がDJとしてミックスするパフォーマンス活動をしている。

徳井氏は、「人の知性や創造性を、機械を使って模倣しようという試みは古くからあったが、模倣しようとしてしきれなかったところから新しい表現が生まれてきた」と話す。その上で「生成AIも、そうした『人を模倣する機械』の歴史につながる新しいテクノロジーだとすると、過去を振り返ることで生成AIとの付き合い方が見えてくるのではないか」との見方を示す。

徳井氏は、創造性には大きく2種類あるという。ある表現の枠、ジャンルやスタイルといったものの中で新しいものを探索するあり方と、ジャンルやスタイルそのものを新たに生み出そうとする創造性のあり方だ。

「生成AIがもたらすものは、既存の表現の組み合わせや探索の効率化だといえる。ありとあらゆる表現がある島があるとして、その中に高速道路や新幹線を張り巡らせて奥地に入って行けるようにする。いわば田中角栄が掲げた『日本列島改造論』的創造性。一方、既存の表現の外側へ領域を拡張していこうとする創造性が、コロンブスが生きた『大航海時代的』創造性だ。これは生成AI単体ではもたらせない」と徳井氏は話す。

ただ、DJがすでにある楽曲を組み合わせて新しい音楽やスタイルを生み出すように、既存の表現の組み合わせから新しい何かが生まれ得ないわけでもない。

徳井氏は「生成AIは全人類をDJにする」と主張する。人間が、既存の表現物に生成AIを通して容易に、高速にアクセスし、それを組み合わせてコンテキストをつくるようになるとの考えだ。

生産性を高める生成AIの活用

スタビリティAIのチー氏は、生成AIをビジネスにどう応用していけるのか、ベンダーの立場から可能性について語った。

チー氏は、ビジネスのさまざまな場面で生成AIが、作業効率・生産性の向上に寄与すると話す。

「生成AIを、自分のアシスタントと考える人もいます。今までは時間がなかったり、能力が足りなかったりしてクリエイターになれなかった人が、クリエイターになれる時代。これは大きなパラダイムシフトです」。

タスクによっては「できなかった」ことが「できる」ようになることも、生産性の観点で小さくない。例えば、小説家が漫画を描けるようになる、コードが書けなくても自然言語でソフトウェア開発ができるようになるといったことも出てくる。

「生成AIは、文章や画像、動画などいろいろなコンテンツを大量に作れる。人間の役割は、その中から良いものを選ぶとか、何をどのツールに任せて、何をどの人に任せるか、そうして出来たものをどのようにつなげるかという、プロデュースの仕事が重要になっていくのではないか」とチー氏は語った。

AIと人間がキャッチボールしながらゲームを作る

チー氏の話を踏まえて、ゲーム開発の世界では実際にそのような流れが起こりつつある、と述べたのが、ゲームAI開発者・研究者の三宅氏だ。

ゲームの世界において、自動生成は40年ほど前から基本技術として取り入れられてきた。Procedural Contents Generation（PCG）と呼ばれ、ゲーム内世界のビジュアル要素やマップ・地形などを生成してきた。機械学習の発達に伴い、AI技術を使ってコンテンツが生成されるようになり、ゲームそのものの生成も試みられている。

一方で、大手のゲーム開発会社・パブリッシャーでは、生成AIをゲームに組み込みにくい事情もある。理由の1つは「人が作ったものに比べて質が低いから」だと三宅氏は断言する。ゲームの場合は世界観やキャラクター性が重視されるため、トーンが違うものが出てきてもすぐには使えないのだという。

もう1つの理由は、権利侵害の問題だ。責任を負うパブリッシャーの立場としては、何を学習してきたか分からないAIを使うことは慎重にならざるをえない。そのため、マップにしろキャラクターのモーションにしろ、社内で強化学習を用いて独自のモデルを作ってくことがメジャーな手法になっている。

ただ、大手では導入しにくい生成AIも、「インディーズと呼ばれる小規模のゲーム開発には大きなインパクトを与える」と三宅氏は言う。

「インディーズの会社はアーティストを1人も抱えていないところが多い。そこに生成AIが入ること、0人だったものが1人のAIになることのインパクトは甚大です。インディーズのゲーム開発は、生成AIで間違いなく進化する」と三宅氏は話した。

生成AIの活用に有利な日本の現状

法律家・弁護士の水野氏は、「生成AIの法的・倫理的な論点」について講演した。

著作権に関する論点として、学習がどこまで認められるか、AI生成物に著作権が発生するか、著作権侵害が成立するかという点が挙げられる。また、アーティストやクリエイターの作品へのフリーライドにならないのか、なるとすれば適正な対価はどのように設定され、どのような手法で還元されるべきか？といった、法的な問題にとどまらない倫理的な問題もはらんでいる。

ほかにも、個人データ・プライバシー保護、情報漏洩・セキュリティの問題のほか、生成AIの学習用データの偏りによる出力の偏り、誤情報の拡散・氾濫などのような悪用への対策など、生成AIで考慮すべき点は少なくない。

これらのうち著作権に関しては、情報解析のための利用・学習がどこまで認められるかが大きな論点になっているという。2018年の著作権法改正（施行は2019年1月）により、この論点に関しては「柔軟な権利制限規定」になったと水野氏は説明する。「日本の法律は欧米に比べて遅れていると思われることが多いが、著作権法の機械学習の分野においては、世界に先駆けた非常に先進的な規定を持つことになった」（水野氏）。

この法改正で、著作権法30条の4第には、著作物に表現された思想又は感情の享受を目的としない場合、「いずれの方法によるかを問わず、利用することができる」と明記された。「違法に入手した著作物であっても、また利用目的が営利・商業目的であっても情報解析のためといえば適法」だと読み取れる、諸外国と比べても「広範で強力な明文規定」（水野氏）だ。

ただ、「著作権者の利益を不当に害することとなる場合は、この限りではない」というただし書きはあり、現在はその解釈をめぐって議論がある。「今後、文化庁がさらなるガイドラインを出してくるのか、あるいは司法の判断が下されるのかについては、いろいろな可能性があります」と水野氏は話した。

日本として生成AIにどう向き合うのか

後半のパネルディスカッションでは、来場者から「生成AIモデルに日本のことを学習させるべきか、そうではないか、日本的なモデルを作るべきか」という質問が寄せられた。また別の来場者からは、「日本は石橋を叩いて渡るような慎重な国民性でありながら、著作権や個人情報保護についてはゆるい環境があり、矛盾をはらんだ状況に見える」といった意見もあり、米国を中心に進む生成AIの技術に対して、日本がどのように相対していくべきかに関心が寄せられた。

鈴木氏は前者の質問に対しては、「今ある大規模言語モデル、例えばチャットGPTなどは我々が持っている言語データをほぼ全て網羅するレベルまで学習していて、他の言語も学習している。そうなると日本に特化する、偏るといったことはなくなってくると思う」と回答した。

「AIアラインメントという、『我々はいかにAIを制御下に置くか』という考え方は、それを非常に欧米的だと感じています。一方、日本人はSF作品などを通じてAI的なものに慣れていて、心理的抵抗が少ない。AIに対して友だちのようなイメージを持ち、AIの方が人間より多少賢くなっても仕方ないと思う人も少なくない。だから、キャッチアップして、試して、応用していもらうのがいいのでは」。
三宅氏は次のように話した。

「生成AIは、我々自身を形成する一部であると思います。AIは対峙するものではなく、自分の一部を形成するものとしてAIを考える。特に若い方は、おそらく自分の手足のように生成AIを使うようになるでしょう。そうなった時に、人間とAIの間にどのような循環ができるかが一番重要。人間は環境の中に自分という存在をつくり、存在の輪の中に、これまでも本だったり道具だったり、機械や電気、いろいろなものが入ってきた。そしてその度にこの輪は変容してきたわけです。今、生成AIが入ってきたけれど、まだ輪がうまくつくれていない。この循環が形成できた時に、生成AIは普通のものになっていくんじゃないかと思います」。

徳井氏は、日本的なモデルを作ることに対して、「どんどんすべき」と前向きだ。「結局、日本人がやらなくても他の国がやる。それに、やったところで『それっぽいもの』ができて終わりだとも思います。その上で本当に日本人的な感性で新しいものを創れるかどうかは、また別の話です。そういう日本的な感性−−それが何なのか分からないですけど、そういうものが世界的に重宝される可能性もあるかもしれません」。

水野氏は、「ビジネスに関して今の日本は、生成AIに関して学習しやすいし、進めやすい状況。ただ一方で、日本の個人情報保護法や著作権法が今後もゆるいままかというと、分からない。欧州のように厳しくなっていく可能性も十分あるので、それを見越して先んじて議論したりルールを作ったりしておく方が、国際的なハーモナイゼーションの観点では良い可能性もある。ただ、チャンスといえる法環境であることは間違いないと思います」。

チー氏は、「日本特化、日本語特化の生成AIモデルをつくることが当社の日本オフィスの存在意義でもある」と明かした。

「日本の文化や価値観を尊重したモデルを作りたくて、日本オフィスができました。仮に全ての文化を理解しているモデルがあったとして、例えば『人を描いてください』というと白人男性ばかり出てきたらどうでしょうか。そういう時にデフォルトで何を出力するかということは、その国の価値観・倫理観によって違う。その意味で、日本特化モデルをつくる意味はあると思います。ただ、今は日本のユースケースにAIを使う場合、欧米や中国のモデルの精度に及ばない。日本は、政府や企業が力を合わせて、オープンな日本特化の良いモデルを作っていくべきです」。

（写真：杉能信介）

What do you think the "Generative AI Revolution" will bring to Japan? 「生成AI革命」は日本に何をもたらすか？