中国テック事情:話題の動画生成AI「Kling」を試してみた
中国のテック企業・快手(クアイショウ)が動画生成モデル「Kling」をリリースし、話題になっている。TikTokなどに投稿するショートクリップの制作方法を一変させるかもしれない。 by Zeyi Yang2024.06.25
- この記事の3つのポイント
-
- 中国企業の快手が動画生成AIをリリース
- Klingは5秒の短編動画を生成可能
- ショート動画業界に大きな影響を与える可能性
この記事は米国版ニュースレターを一部再編集したものです。
「快手(クアイショウ)」という名前にはあまり馴染みがないかもしれない。だが、この中国企業はつい先日、大きなマイルストーンを達成した。テキストから動画を生成する人工知能(AI)モデルを初めてリリースし、一般ユーザーが自由に試せるようにしたのだ。
6億人以上のアクティブ・ユーザーを抱えるショート動画プラットフォームの快手は6月6日、この新しいツール「Kling(クリング)」を発表した。オープンAIの「Sora(ソラ)」のように、Klingは「1秒あたり30フレーム(fps)、最大1080p動画解像度で最長2分」の動画を生成できると、同社はWebサイトで説明している。
発表から4カ月経った今でも一般公開されていないオープンAIのSoraとは異なり、Klingはすでにモデルを試せるようになっている。
私も実際に試してみた1人だ。快手の動画編集ツールをダウンロードして、中国の電話番号でサインアップした後、待機リストへ登録し、快手のユーザー・フィードバック・グループを通じて追加フォームへの記入を済ませると、Klingにアクセスできた。このモデルは、すべて英語で書かれたプロンプト(指示テキスト)は処理できないが、使用したいフレーズを中国語に翻訳するか、中国語の単語を1つか2つ含めた英語交じりのプロンプトを利用すれば英語ユーザーでも利用できる。
ではさっそく、Klingで生成した結果をいくつか紹介しよう。Soraが生成した東京のストリートシーンや庭を突き進む猫の印象的なデモ映像を覚えているだろうか?以下はKlingが生成した映像だ。
DALL-E(ダリー)で生成された、馬に乗った宇宙飛行士の画像を覚えているだろうか? 私はKlingに動画バージョンの生成を頼んでみた。
これらの動画には優れた点がいくつかある。どの動画もプロンプトから大きく逸脱していないし、カメラのパンニング、揺れる葉、地球を背景に馬と宇宙飛行士が回転する方法など、物理的な挙動も適切なようだ。生成処理にはそれぞれ3分ほどかかった。待ち時間ゼロではないが、十分受け入れられるスピードだ。
ただ、明らかな不満もある。720pフォーマットの動画はぼやけて粒子が粗いように見えるし、Klingはプロンプトの主要な要求を無視することがある。そして最も重要なことは、現在のところ生成されるすべての動画の長さは5秒が上限であり、ダイナミックさや複雑さに欠けることだ。
とはいえ、これらの結果をSoraのデモ映像と比較するのは公平とは言えない。SoraのデモはオープンAIが厳選したものが公開されており、おそらく平均よりも良い結果が得られたものだろう。今回のKlingの動画は、私がプロンプトを入力して初めて試したものであり、「8K、フォトリアリズム」などのプロンプト・エンジニアリング・キーワードを追加して結果を微調整するようなことはしていない。
Klingが生成した動画をもっと見たいなら、中国のオープンソースAIコミュニティがまとめた便利なコレクションをチェックするといい。すばらしい結果と、あらゆる種類の失敗の両方が紹介されている。
北京在住のAIアーティストであるグイザン(本人の希望によりハンドルネームで記載)は、Klingは全般的に十分な能力を持つと話す。グイザンはこのAIモデルのリリース以来、テストを重ねており、SoraとKlingを直接比較して一連の記事にまとめてきた。Klingの欠点は、構図やカラーグレーディングといった結果の美的感覚にあると、グイザンは言う。「しかし、それは大きな問題ではありません。すぐに修正できます」。
本誌の取材に対し、グイザンは「モデルの核となる能力は、物理現象と実際の自然環境をどのようにシミュレートするかという点にあります」と話し、Klingはその点で良好であるとした。
Klingは、Soraと同じような仕組みで機能する。動画生成AIで従来から使われてきた拡散モデルをトランスフォーマー・アーキテクチャと組み合わせることで、より大きな動画データファイルを理解し、より効率的に結果を生成するのに役立てている。
だがKlingは、Soraをしのぐ重要な強みを持っている可能性がある。中国ではドウイン(Douyin:抖音)の最も有名なライバルである快手は、数億人のユーザーを抱える巨大な動画プラットフォームを有しており、Klingの訓練に使える信じられないほど大量の貴重な動画データがアップロードされている。快手は本誌の問い合わせに対し、「Klingは業界標準に従い、世界中のインターネットで公開されている利用可能なデータを使い、モデルを訓練しています」と回答。訓練データの詳細については説明しなかった(オープンAIもSoraについて同様の対応しかしておらず、知的財産権保護に関する懸念を引き起こしている)。
このモデルをテストした結果、Klingの有用性に関する最大の限界は、5秒の動画しか生成できないことだと感じた。
「動画が長ければ長いほど、モデルがハルシネーション(幻覚)を起こしたり、一貫性のない結果を生成したりする可能性が高くなります」と、北京の清華大学でAIとメディアについて研究するシェン・ヤン教授は話す。こうした限界のため、このテクノロジーは映画業界よりもショート動画業界に大きな影響を与えるだろうと、シェン教授は言う。
縦長の短編動画(スマホでの視聴を想定したもの)は通常、数秒で視聴者の注意を引き付ける。シェンによれば、中国のティックトック(TikTok)のようなプラットフォームは、スクロールして動画から離れる前に最初の3~5秒を何人が注視するかによって、その動画の成功を評価することが多いという。そのため、AIが生成した5秒しかない高品質の動画クリップは、ショート動画クリエーターにとってゲームチェンジャーになる可能性がある。
グイザンも、AIが短編動画のコンテンツ制作現場を混乱させる可能性があることに同意する。短期的には生産性を高めるツールとしてクリエイターに利益をもたらすだろうが、長期的には快手やドウインなどのプラットフォームが動画制作を引き継ぎ、ユーザーに応じてカスタマイズされたコンテンツを直接生成するようになることで、プラットフォームのスタークリエーターへの依存度が低下することをグイザンは懸念している。
このテクノロジーがそのレベルまで進歩するにはまだしばらく時間がかかるかもしれない。ただ、テキストから動画を生成するツールの分野は今、ますます大きな話題になりつつある。Klingのリリースから1週間後、米国カリフォルニア州のスタートアップ企業「ルマAI(Luma AI)」も、一般利用向けに同様のモデルをリリースした。動画生成分野の有名スタートアップ企業「ランウェイ(Runway)」は、自社のモデルをより強力にする大幅なアップデートを小出しに発表している。快手の最大のライバルであるバイトダンスもまた、近日中のリリースを目指して生成動画ツールに取り組んでいると伝えられる。「年末までに、私たちが利用できる多くの選択肢が登場するでしょう」と、グイザンは言う。
私はKlingに、「誰もが自分のニーズに応じて素早く動画クリップを生成できる」ようになった社会がどのようなものか、動画を生成するように頼んだ。その結果がこれである。手の表現は見事なものだが、質問には答えていない。ちょっと残念だ。
中国関連の最新ニュース
1.新たな調査により、米軍がソーシャルメディアにおいて、2020年と2021年に反ワクチンのプロパガンダ投稿キャンペーンを密かに実施していたことが明らかになった。東南アジア諸国で中国製の新型コロナウイルス・ワクチンに対する不信感を植え付けることが目的だったという。(ロイター )
2.中国の裁判所が、中国での#MeToo運動の立ち上げを支援したジャーナリスト、ホアン・フュエチンに 対し、「国家権力転覆扇動罪」で懲役5年の判決を下した。(ワシントンポスト )
3.シーイン(Shein)のある幹部が、同社の企業価値が基本的に同社を米国企業にしていると述べた。しかし同社は現在、中国政府の気分を害さないように、その発言を隠そうとしている。(フィナンシャル・タイムズ )
4.中国で世界最大の粒子加速器の建設に近づきつつある。建設は2027年中にも始まるかもしれない。(ネイチャー)
5. 中国政府は、欧州連合(EU)による電気自動車への関税引き上げに報復するため、欧州が豚肉輸出に対し不当な補助金を提供している疑いがあるとして調査を開始した。(ニューヨーク・タイムズ )
- 食品に関連した話題:ドリアンに対する中国の需要が近年爆発的に伸びていることで、東南アジアにおいて60億ドル規模のビジネスが生まれ、ドリアン農園にするためジャングルやコーヒーの樹を伐採する農家も出てきている。(ニューヨーク・タイムズ )
「おやすみ」メールを送るネット・サービスの話
2012年、当時20代の中国人女性ジウメイが、「おやすみ」メールを1通1人民元(約0.14ドル)で送るサービスをネット上で販売し始めた。
中国のオンラインメディア「パーソネージ(Personage)」によると、ジウメイは12年にわたり、3つの携帯電話と4つの電話番号を使って5万通以上のメッセージを送り続けている。顧客の中には、最も寂しい時や絶望的な気分の時に定期的に誰かと話したいと思い、自分自身のためにこのサービスを購入している者もいる。また、辛い状況にある友人や、連絡を絶った元恋人に対し、匿名でメッセージを送るために購入している者もいる。
このビジネスはあまり利益になっていない。ジウメイは本業に加えてこのビジネスから年間3000元(410ドル)ほどの収入を得ているが、近年は利益がさらに減っている。それでもジウメイがこのビジネスを続けているのは、それらのメッセージを送る行為が毎晩の儀式になっているからだ。顧客のためだけでなく、ジウメイ自身のための行為にもなっており、孤独や困難を感じるときに自分自身に慰めを与えている。
- 人気の記事ランキング
-
- A tiny new open-source AI model performs as well as powerful big ones 720億パラメーターでも「GPT-4o超え」、Ai2のオープンモデル
- The coolest thing about smart glasses is not the AR. It’s the AI. ようやく物になったスマートグラス、真価はARではなくAIにある
- Geoffrey Hinton, AI pioneer and figurehead of doomerism, wins Nobel Prize in Physics ジェフリー・ヒントン、 ノーベル物理学賞を受賞
- Why OpenAI’s new model is such a big deal GPT-4oを圧倒、オープンAI新モデル「o1」に注目すべき理由
- ヤン・ズェイ [Zeyi Yang]米国版 中国担当記者
- MITテクノロジーレビューで中国と東アジアのテクノロジーを担当する記者。MITテクノロジーレビュー入社以前は、プロトコル(Protocol)、レスト・オブ・ワールド(Rest of World)、コロンビア・ジャーナリズム・レビュー誌、サウスチャイナ・モーニング・ポスト紙、日経アジア(NIKKEI Asia)などで執筆していた。