自然言語処理でウイルスの変異を予測＝MIT研究チーム

マサチューセッツ工科大学の研究チームは、自然言語処理のアルゴリズムを用いてウイルスの遺伝子の変化を読み解く手法を開発した。新型コロナウイルスの新たな変異種を予測し、特定する研究を加速させる可能性がある。 by Will Douglas Heaven2021.01.21

かつてガリレオは、自然は数学で書かれていると言った。生物学はもしかしたら言語で書かれるのかもしれない。今や自然言語処理（NLP）アルゴリズムは、タンパク質配列を生成し、新型コロナウイルス（SARS CoV-2）が免疫系を逃れるに当たっての鍵となる重要な変化をはじめとする、ウイルスの突然変異を予測できるようになった。

こうしたことが可能になったのは、生物学的システムの特性の多くは単語と文章に翻訳可能だという重要な見識によっている。「私たちは進化の言語を研究しています」と、マサチューセッツ工科大学（MIT）の計算生物学者であるボニー・バーガー教授は話す。

この数年、遺伝学者ジョージ・チャーチ教授の研究室や、テック企業のセールスフォースの研究チームをはじめとする数多くの研究者らが、タンパク質配列と遺伝子コードは自然言語処理の手法を使ってモデル化可能であることを示してきた。

1月15日に「サイエンス（Science）誌」に掲載された研究において、バーガー教授と同僚らはいくつかのDNA鎖を引き合いに出して、ウイルスが人間の免疫系の抗体に検知されるのを回避する「ウイルス免疫回避」と呼ばれるプロセスを引き起こす突然変異を、自然言語処理の手法を用いて予測した。その基本となる考え方は、免疫系がウイルスを解釈するのは、人間が文章を解釈するのと類似しているというものだ。

「これまでの研究の流れを汲んだ良い論文です」。セールスフォースの科学者で、自然言語処理を用いてタンパク質配列の予測をしているアリ・マダニ博士はそう話す。

バーガー教授のチームは、文法とセマンティクス（意味論）という2つの異なる言語的概念を利用している。あるウイルスの遺伝的、あるいは進化的な適応度（宿主への感染力がどれほど強いかといった、特性のこと）は、文法的な正確性によって解釈できる。うまく感染を広げることに成功したウイルスは文法的に正しく、そうでないウイルスは文法的に誤っているということだ。

同様に、ウイルスの突然変異もセマンティクスによって解釈できる。ある環境において、外部からの見た目を変える突然変異（表面のタンパク質を変化させることで、特定の抗体からは見えなくなる）は、意味を変化させていることに該当する。異なる突然変異を起こしたウイルスはそれぞれ違う意味を持ち、異なる意味を持ったウイルスには、それを読み解くために異なる抗体が必要になる可能性がある。

こうした特性をモデル化するために、研究者らはニューラル・ネットワークの一種であるLSTM（Long short-term memory、長・短期記憶）を用いた。LSTMは、オープンAI（OpenAI）が構築した「GPT-3」のような大規模言語モデルが利用しているトランスフォーマー（Transfomer）ベースのものより前から存在するニューラル・ネットワークだ。こうした旧式のネットワークは、トランスフォーマー・ベースのものよりもはる …

こちらは会員限定の記事です。 メールアドレスの登録で続きを読めます。

有料会員にはメリットがいっぱい！

毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
重要テーマが押さえられる。
各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。

人気の記事ランキング