アルファフォールド2が社会に与える「アルファ碁」以上のインパクト
生命の再定義

What impact will DeepMind's scientific AI have on our society? アルファフォールド2が社会に与える「アルファ碁」以上のインパクト

囲碁AI「アルファ碁」で世界に衝撃を与えたディープマインドが次に狙いを定めたのは、生体内に存在するタンパク質の立体構造予測だった。「アルファフォールド」と名づけられたタンパク質構造予測AIもまた生物学研究者に大きな衝撃を与え、医薬品開発や産業応用に大きくつながる可能性を秘めている。 by Shosuke Shimada2022.06.17

2016年3月、人工知能(AI)の歴史に新たな一歩が刻まれた。韓国のプロ棋士であるリ・セドルを相手に、囲碁AI「アルファ碁(AlphaGo)」が勝利したのである。

アルファ碁は、2010年に創業されたディープマインド(DeepMind)が開発したAIだ。創業当時からゲームを攻略するAIの開発を得意としており、ブロック崩しやスペースインベーダーのゲームではAIが人間よりもうまくプレーできる様子がユーチューブで公開されている。2014年からはグーグルの傘下に置かれ、豊富な研究開発費を基にAIの開発に注力してきた。

対するリは「韓国棋士の魔王」という異名を持っており、当時は世界トップクラスの選手。下馬評ではリの圧勝という見方がほとんどだった。というのも、碁石の置き方は10の190乗以上のパターンがあり、現在のどんなコンピューターでもすべて計算できない。AIがプロ棋士に勝つのはずっと先だと思われていた。

多くの生命現象にタンパク質が関わっている。タンパク質の機能や性質を理解することで産業応用や医薬品開発につなげることができるのだ。

対局はインターネットでライブ配信され、世界中のプロ棋士や囲碁ファン、そしてAI研究者が世紀の一戦を見守った。結果は周知のとおり、4勝1敗でアルファ碁が勝ち越した。世界に衝撃を与え、AIの進歩を象徴する出来事となった。

そして、ディープマインドが次に狙いを定めたのは、生命科学で長年の難問とされてきた、タンパク質の構造予測だった。

タンパク質は生命を支え、産業や医療に応用できる

なぜ、ディープマインドはタンパク質の構造予測に挑むことにしたのか。タンパク質の機能や特徴、そして応用の可能性を知れば、タンパク質の構造予測がいかに未来を変える技術なのか、理解できるようになる。

タンパク質といえば、栄養素の1つを思い浮かべる人もいるだろう。生命現象を解明する生命科学の分野では、生命現象を担う生体分子として研究されている。たとえば、血液中で酸素を運ぶ赤血球の中にはヘモグロビンというタンパク質があり、実際に酸素と結合しているのはヘモグロビンである。唾液に含まれてデンプンを糖に分解する消化酵素であるアミラーゼも、筋肉の伸び縮みに関係するミオシンもタンパク質だ。遺伝子を改変するゲノム編集の1つであるCRISPR Cas9(クリスパー・キャスナイン)に使われるCas9というタンパク質は、細菌が持っているDNA切断酵素である。新型コロナウイルス(SARS-CoV-2)は、自身の表面にあるスパイク・タンパク質がヒトの細胞表面にあるACE2受容体というタンパク質に結合して細胞内に侵入する。要するに、多くの生命現象にタンパク質が関わっているのだ。

タンパク質の性質を知るということは、生命現象を解明するだけでなく、産業分野にも応用できる。たとえば、デンプンを糖に分解するアミラーゼは、食品用の糖質の製造などで使われている。また、植物に由来するエネルギー資源であるバイオマスを分解する微生物が持つ酵素(タンパク質)の実用化も進んでいる。ペットボトルの原料であるポリエチレン・テレフタレート(PET)を分解する酵素を持つ細菌が発見されており、PET分解酵素を活用するPETリサイクルの研究もある。

私たちが体調不良で薬を服用するときにも、タンパク質が関わっている。体内のタンパク質に作用して異常な反応を抑えるのが薬の成分である。解熱鎮痛剤のアセチルサリチル酸(アスピリン)は、炎症作用や発熱作用のある物質を作るタンパク質の機能を阻害する。また、病原体のタンパク質を直接攻撃する薬もある。新型コロナウイルス感染症(COVID-19)の薬の1つであるレムデシビルは、ウイルスの遺伝物質であるRNAを合成する酵素に作用する抗ウイルス薬である。

このように、タンパク質の機能や性質を理解することで産業応用や医薬品開発につなげることができるのだ。

立体構造がタンパク質の機能を決める

ヒトが持つタンパク質は数万種類にものぼり、それぞれ異なる機能を持っている。タンパク質の機能を決めるのは、タンパク質の3次元の立体構造である。「タンパク質の立体構造を知ることは、生命を理解する上で非常に大切なことです」と話すのは、酵素学を専門とする東京大学大学院農学生命科学研究科の伏信進矢教授だ。

たとえば、食べ物を分解したり、新たに物質を合成したりする酵素は、分子と結合する「活性部位」という場所を持っている。活性部位の構造は酵素ごとに異なり、構造の違いによって結合できる分子が決まる。つまり、酵素の機能を決めている。そして、ほんの少し構造が変わるだけで、酵素を含めたタンパク質の機能が失われたり、逆に活性が飛躍的に高まったりする。生まれつきヘモグロビンの構造が変わっている人は酸素を十分に運ぶことができず、貧血になりやすい「鎌状赤血球症」という先天性疾患になってしまう。タンパク質の産業応用では、より活性の高い酵素を見つけ出すことが重要であり、タンパク質の構造のどこに注目するかがカギとなる。医薬品の開発では、特定のタンパク質と結合できる薬の成分を探しており、そのためにはタンパク質の構造を知り、どのような分子であればタンパク質の機能を調節して症状を抑えることができるのかということに着目して研究している。

また最近では、タンパク質を人工的にデザインし、合成できるようにもなっている。生物が持つタンパク質を利用するにとどまらず、どの生物も持っていないタンパク質を作り出すこともできるのだ。理想の機能を持つタンパク質をデザインするということは、理想とする構造を作ることである。

「基礎研究だけでなく、医療や産業など、あらゆる生命科学の分野においてタンパク質の構造解明が求められているのです」(伏信教授)

長年の難問だった構造予測

タンパク質の構造を決めるものは、タンパク質を構成するアミノ酸の並び方だ。どんな複雑な形状のタンパク質でも、ほどけばアミノ酸が鎖状につながった1本の紐で構成されている。タンパク質を構成するアミノ酸は20種類あり、1つのタンパク質は数百からときには千個を超えるアミノ酸から成る。最初は1本の紐だったものが、各アミノ酸の化学的な性質によって磁石のように近づいたり離れたりして、らせん状にひねられたり、ジグザグになったりして複雑な立体構造を作る。

なお、アミノ酸の順番は、DNAに暗号化された状態で刻まれている。細胞の中では、DNAからメッセンジャーRNA(mRNA)という別の種類の核酸にコピーされ、mRNAの暗号を基にアミノ酸をつなげ、タンパク質が作られる。分かりやすい例が、新型コロナウイルス感染症のmRNAワクチンだ。mRNAに新型コロナウイルスのスパイク・タンパク質の情報があり、細胞内でmRNAからアミノ酸を順番につなげ、スパイク・タンパク質を作る。しばしば「DNAは生命の設計図」と表現されるが、その設計図に書かれているのはタンパク質のアミノ酸配列だ。

タンパク質の構造を予測する問題は、年以上にわたって研究者を悩ませてきた。1つ1つを実験で確かめるしかなかった。

アミノ酸の順番によってタンパク質の構造が決まるということは、アミノ酸配列を見ればどのような構造のタンパク質を作るのか、理論的には分かるはずである。しかし、実際にはアミノ酸配列からタンパク質の構造を予測するのは非常に難しい。300個のアミノ酸から成り立つタンパク質の構造を予測したいと思ったら、それぞれのアミノ酸同士の相互作用を調べないといけない。これは膨大な計算量となり、囲碁で例えるならば碁石の置き方をすべて計算するようなものである。1列のアミノ酸が折り畳まれてタンパク質が立体構造を取る過程を「折り畳み(フォールディング)」と呼ぶことから、アミノ酸配列からタンパク質の構造を予測する問題は「タンパク質の折り畳み問題」と言い、50年以上にわたって研究者を悩ませてきた。長年、タンパク質の折り畳み問題の突破口を見い出すことができず、結局1つ1つを実験で確かめるしかなかった。

しかし、実験で構造を調べるのは簡単なことではない。たとえば、X線結晶構造解析という方法では、タンパク質を規則正しく並べる「結晶化」という手順を踏んでからX線を当てる。タンパク質の構造解析ではよく使われている手法で歴史もあるが、結晶化が難しいという欠点がある。試行錯誤のために1年以上かかることも珍しくなく、結晶化できずにあきらめることもある。核磁気共鳴(NMR)という方法は結晶を作らなくてもいいが、大きいタンパク質には適用できない。最近では、2017年のノーベル化学賞の受賞テーマになったクライオ電子顕微鏡という装置が使われるようになっている。原子レベルの分解能でタンパク質を観察でき、必要なサンプル量も少なくて済み、結晶化も不要だ。ただし、顕微鏡といっても1台あたり数億円で、運用コストも大きい。それでも米国や中国でクライオ電子顕微鏡の導入が増えており、タンパク質の構造解析が将来の科学技術を担うものであるという期待の表れといえる。

溶液中の生体分子を高分解能で構造解析または測定でクライオ電子顕微鏡の開発に、2017年のノーベル化学賞が授与された。伏信教授いわく「近年の技術開発によるブレークスルー」(画像提供:高エネルギー加速器研究機構物質構造科学研究所)。

人手と時間、コストのかかるタンパク質構造解析を高速化するため、1994年から「CASP(タンパク質構造予測精密評価)」というコンテストが2年に1回の頻度で開催されている。世界100カ国以上の研究グループが参加し、コンピューターによるタンパク質構造予測プログラムを競わせるもので、いわば「タンパク質構造予測のオリンピック」だ。しかし、精度の高い予測プログラムはなかなか登場せず、実用化に至らないまま、2010年代に入ると停滞気味になっていた。

ところが、13回目の開催となった2018年のCASP13で彗星のごとく登場し、2位以下に大差をつけて優勝したプログラムが注目を集めた。それこそが、ディープマインドの開発したアルファフォールドである。

実験データと予測が一致した驚きとショック

ディープマインドは、ゲームAIから急にタンパク質の折り畳み問題に方針転換したのではない。むしろ、科学でのAI活用は創業当初からの目標だった。同社の共同創業者でもあるデミス・ハサビスCEO(最高経営責任者)は1990年代に大学の友人が、「タンパク質の折り畳み問題を解決できれば生命科学に革命をもたらすことができる」と語っていたことをずっと覚えていた。

2016年、アルファ碁が韓国人棋士を下してからすぐにディープマインドは数人の生命科学者を採用し、タンパク質の折り畳み問題に挑戦し始めた。こうして開発されたのがアルファフォールドだ。アルファフォールドが学習データとしたのは「タンパク質構造データバンク(Protein Data Bank:PDB)」というものだ。PDBは日米欧の各拠点機関が運用しており、タンパク質のアミノ酸配列と、実験から明らかになった構造が登録されている。アルファフォールドは、立体構造の中でも特徴的な構造に関係するアミノ酸配列に注目するよう設計されており、アルファ碁などの開発で培った深層学習が活用されている。

アルファフォールド2の精度は、実験で観測した構造に匹敵する正確性を誇る。誤差は原子の直径以下で、実験で生じる誤差とほぼ変わらない。

同社はさらに改良を進め、2年後にアルファフォールド2を発表した。その精度は、実験で観測した構造に匹敵する正確性を誇る。誤差は原子の直径程度であり、実験で生じる誤差とほぼ変わらない。アルファフォールド2は、2020年に開催されたCASP14でも優勝し、2連覇を果たした。これを機に生命科学の研究者から注目を集めるようになり、いよいよ実用化に耐えうるタンパク質構造予測AIが登場したことになる。

その性能は衝撃的なものであると、伏信教授は述べる。「私たちの研究室の実験で確かめた未発表のタンパク質の構造をアルファフォールド2に予測させると、実験データとほぼ同じ構造を表示したのです。これは驚きであり、ショッキングでした。いろいろ試してみても、どれもこれも非常に高い精度で構造を予測します。かなり信頼できるものだと、私たち研究者の意識が変わっています」。伏信教授はさらにこう付け加える。「タンパク質の折り畳み問題はほぼ解決したと言っていいと思います」

ミオグロビンに対して、アルファフォールド2での構造予測(左)と、X線結晶構造解析の結果(右)の比較(画像提供:東京大学大学院農学生命科学研究科酵素学研究室)。

構造予測AIでデザインしてからタンパク質合成も可能になる

2021年には、ディープマインドはアルファフォールド2のソースコードを公開し、オープンソースとして自由に活用できるようにした。これを受け、有志の研究者が、誰でも簡単にアルファフォールド2を利用できるよう、「コラボフォールド(ColabFold)」というWebサイトを開設した。たとえば、筋肉に含まれるミオグロビンというタンパク質のアミノ酸配列を入力すると、1時間後には立体構造の予測を完了してしまう。その構造は、実際にX線結晶構造解析で得られた結果とほぼ変わらない。アミノ酸配列はさまざまなデータベースで公開されており、自由にコピー&ペーストができる。研究者でなくても簡単にアルファフォールド2を利用できるのだ。

有志によってグーグルコラボで公開されたアルファフォールド2の簡易版「コラボフォールド(ColabFold)」。

アルファフォールド2は、タンパク質研究のあり方すら変えると、伏信教授は話す。「タンパク質の構造をX線結晶構造解析で明らかにしようと思ったら1年以上かかります。しかしアルファフォールド2は、信頼できる精度の構造を1時間で出します」。つまり、これまでタンパク質の構造を知りたいと思ったら、数年かかることを覚悟して本腰を入れなければならなかった。しかし、アルファフォールド2なら、試しにアミノ酸配列を入力するだけで、1時間後にはおおよその構造を把握できてしまう。今までなら、構造解析が研究の山場だったものが、初期の段階で目星がつくということだ。

ディープマインドは、欧州バイオインフォマティクス研究所(European Bioinformatics Institute:EBI)と共同でデータベースを立ち上げ、アルファフォールド2による構造予測のデータを公開し始めた。2022年5月の執筆時点でさまざまな生物種のタンパク質99万2316種類が登録されている。これもまた、今までのタンパク質研究ではあり得なかった飛躍である。たとえば、ヒトには全部で約10万種類のタンパク質があると推定されているが、実験によって構造が確かめられたものは17パーセントに過ぎず、ある程度の信頼性で推定されているタンパク質を含めてもわずか31パーセントである。ところがアルファフォールド2は、未解明の約70パーセントのうちおよそ30パーセントを予測してデータベースに登録している。研究者が利用できる構造が、一気に倍に増えたということだ。また、生命科学ではシロイヌナズナという植物が世界で研究されているが、シロイヌナズナのタンパク質の構造はほとんど分かっていない。アルファフォールド2は、シロイヌナズナのタンパク質の半数を予測しており、このインパクトはかなり大きいだろう。植物の研究は、農作物の収量アップや病原体に強い品種の作製に直結する可能性があり、将来の食糧問題の解決につながるかもしれない。

また、これまでの研究では、タンパク質の機能を理解してから構造を解明するという流れだった。しかし、構造予測が1時間で済むならば、まず理想の構造となるようアルファフォールド2で試してから、そのタンパク質を合成するという、今までの逆の流れも可能になる。タンパク質の設計図はDNAであることを思い出してほしい。作りたいタンパク質の構造が決まれば、その設計図となるDNAを合成すればいい。あるいは、タンパク質の一部のアミノ酸だけ変えるのであれば、部位特異的変異導入法という技術がすでにあり、それでDNAを変えればいい。理想の構造を持つタンパク質とは、活性の高い酵素や、抗体医薬品などが考えられる。「アルファフォールド2による予測構造からタンパク質をデザインすることも可能になるのです」(伏信教授)

伏信教授は「いまはアミノ酸の配列を投げるだけで1時間くらいで答えが返ってきます。アルファフォールド2の公開以降、これが私たちのいる世界です」と語る。

AIがある今、研究者が真にやるべきこと

生命科学に革命をもたらしているアルファフォールド2だが、決して万能ではない。タンパク質の中には、アミノ酸が1カ所変わるだけで構造が大きく変わって機能が完全に失われるものもあるが、それをアルファフォールド2が予測できない場合もある。

タンパク質の中には、2種類以上のタンパク質が結合した「複合体」を形成して初めて機能するものも存在する。複合体の予測は当初のアルファフォールド2が想定するものではなかった。しかしその後、複合体予測の機能も盛り込んだアップデートが実施されている。

「私たち研究者の目的は、タンパク質の構造を知ることではありません。構造を通じて機能を理解することが目的です」
東京大学の伏信進矢教授

また、タンパク質によっては、タンパク質以外の別の分子と結合すると構造が変化し、機能が変わるものがある。たとえば、神経細胞の表面にあるタンパク質は、神経伝達物質と結合して構造がわずかに変わることで神経細胞を活性化させる。別の分子と結合したときの構造はアルファフォールド2ではまだ予測できず、この点においてはまだX線構造解析などに軍配が上がる。他の分子との結合による構造変化の予測は、深層学習とは違うイノベーションが必要かもしれない。

ところで、伏信教授は個人的な見解と断った上で、気になる点があると指摘する。「アルファフォールド2は、私たちがPDBに登録しそうなものを予測しているように思えるのです」。アルファフォールド2は、前述のとおり、PDBを学習データとしている。実験によって構造が確認できたタンパク質は、論文発表前にPDBに登録することが義務付けられている。その際、もし1つのタンパク質の構造について実験から2種類の結果が得られたとすると、研究者は正しそうな一方だけをデータベースに登録することがあるという。アルファフォールド2はPDBから学習しているため、今まで人類がPDBに登録したものだけから予測している、一種のバイアスがあるのかもしれない。これはアルファフォールド2に限らず、AIの世界ではしばしば見られる問題だ。かつてアマゾンが自社開発した人材採用AIが、過去の採用データから「女性は能力が低い」と学習してしまったことがある。学習データとなった過去10年間の履歴書のほとんどが男性だったためとされている。

また、機能が不明なタンパク質については、構造だけ見ても何か情報が得られるわけではない。結局、地道な実験を通じてタンパク質の機能を明らかにすることに変わりはないのだ。「私たち研究者の目的は、タンパク質の構造を知ることではありません。構造を通じて機能を理解することが目的なのです」(伏信教授)。ただ、アルファフォールドは、タンパク質の機能を理解する上で、研究の劇的なスピードアップに間違いなく貢献するだろう。