KADOKAWA Technology Review
×
グーグル、短い「音」から続きを生成するオーディオAI
Erica Snyder/MITTR | Unsplash/Pixabay
人工知能(AI) 無料会員限定
Google’s new AI can hear a snippet of song—and then keep on playing

グーグル、短い「音」から続きを生成するオーディオAI

グーグルの新しい技術「オーディオLM(AudioLM)」は、人間が準備したテキストやラベル付けをした訓練データなしに、これまで以上に自然なオーディオを生成する。 by Tammy Xu2022.10.14

グーグルの研究チームが開発した新しい人工知能(AI)システムは、数秒間の録音データを与えるだけで、それに続く自然なスピーチや音楽を作ることができる。

「オーディオLM(AudioLM)」は、ピアノ曲のような複雑な音や人間の音声など、プロンプトのスタイルに合ったオーディオを、元の録音データとほとんど遜色ないレベルで生成する技術だ。オーディオ生成AIの訓練プロセスを高速化する可能性がある技術であり、いずれは映像に乗せて流す音楽の自動生成にもつながるかもしれない。

自然言語処理を利用した音声アシスタントのアレクサ(Alexa)に代表されるように、AIによって生成されたオーディオはすでに一般化している。オープンAI(OpenAI)の「ジュークボックス(Jukebox)」のようなAI音楽システムは、見事な結果を出している。だが、多くの既存の技術は、人間が文字起こしを準備したりテキストベースの訓練データにラベル付けをしたりする必要があるため、非常に多くの時間と労力がかかる。例えば、ジュークボックスではテキストベースのデータを使って歌詞を生成している。

9月に発表された非査読論文で説明されたオーディオLMは、多くの既存の技術とは異なり、文字起こしもラベル付けも不要だ。その代わり、音データベースをプログラムに読み込み、機械学習で録音ファイルを「トークン」と呼ばれる音の断片に、さほど情報を失うことなく圧縮する。そして、トークン化された訓練データを、自然言語処理を使って音のパターンを学習する機械学習モデルに読み込ませる。

オーディオを生成するには、数秒間の録音データを与えるだけでいい。オーディオLMはそれに続く音を予測する。GPT-3のような言語モデルが、次につながる文章や単語を予測するのと似たプロセスだ。

研究 …

こちらは会員限定の記事です。
メールアドレスの登録で続きを読めます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. Inside the tedious effort to tally AI’s energy appetite 動画生成は別次元、思ったより深刻だったAIの電力問題
  2. Promotion Call for entries for Innovators Under 35 Japan 2025 「Innovators Under 35 Japan」2025年度候補者募集のお知らせ
  3. IBM aims to build the world’s first large-scale, error-corrected quantum computer by 2028 IBM、世界初の大規模誤り訂正量子コンピューター 28年実現へ
  4. What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る