フラッシュ2024年2月21日
-
人工知能(AI)
Transformerの化学言語モデルはキラリティ認識が苦手
by MITテクノロジーレビュー編集部 [MIT Technology Review Japan]東京大学の研究チームは、深層学習モデルのTransformer(トランスフォーマー)が多様な化合物構造を学習していく過程で、特定の部分を苦手としていることを発見した。深層学習モデルは薬学研究でも活用されており、化合物構造を自然言語処理を使って数値へ変換する化学言語モデルが使われている。ただ、深層学習モデルが多様な化合物構造をどのように認識し、学習しているのかは明らかになっていなかった。
研究チームは、深層学習モデルは学習を重ねるごとに精度が向上していく点に着目して、学習の進捗に応じてTransformerの性質がどのように変遷するのかを調べた。その結果、学習開始早々に、化合物構造を表現する文字列の部分的な学習が完了するが、文字列全体の学習には時間がかかることを確認。さらに、学習経過が異なる複数のモデルを用意し、それぞれで化合物の毒性や物性を推定させたところ、学習経過に関係なく、学習初期段階からほぼ同等の精度となることを発見した。この検証の最中に、深層学習モデルの学習が確率的に滞る現象を確認し、原因を探索した。
その結果、化合物の立体的特性であるキラリティを表現する文字(@、@@)を見出したことから、キラリティの認識がTransformerモデルの学習に大きく影響することが分かった。加えて、原子ごとの精度を評価する際にもキラリティの学習が遅いことも分かった。さらに、この分野で頻用するSMILES(Simplified Molecular Input Line Entry System)表現やInChI(International Chemical Identifier)表現でも同様の現象を確認できた。
研究成果は2月16日、ネイチャー・コミュニケーションズ(Nature Communications)にオンライン掲載された。
(笹田)
-
- 人気の記事ランキング
-
- How to run an LLM on your laptop チャットGPTからの卒業:自分のパソコンでLLMを動かしてみよう
- Promotion MITTR Emerging Technology Nite #34 【9/10開催】伝説の玩具「アームトロン」開発者が誕生秘話を語る
- On the ground in Ukraine’s largest Starlink repair shop <現地ルポ>ウクライナの 生命線「スターリンク」 1万台超を直した非公式工場
- Why recycling isn’t enough to address the plastic problem リサイクルだけでは「プラスチック問題」を解決できない理由
- In a first, Google has released data on how much energy an AI prompt uses 1クエリでレンジ1秒分、グーグルがGeminiの消費電力を初公開