Spotlightによる酵素変異体の活性予測精度を先行研究と比較
2023.06.05
はじめに
事業開発部の礒崎です。弊社では酵素の活性や耐熱性などのプロパティを向上させる変異体を機械学習モデルを用いて提案するSpotlightというサービスを提供しています。様々な酵素を使って学習済みのモデルに、社内または社外から依頼を受けた目的の配列をインプットすることで活性などが向上する変異体を予測します。今回のtechblogではこのSpotlightの変異体の活性予測精度が先行研究と比較してどの程度なのか検証しました。
比較対象に使用した先行研究
Ref1の論文では、酵素のアミノ酸配列と化合物を入力情報としてkcatを予測する機械学習モデルを作っていました。今回の比較ではこの機械学習モデルアルゴリズム(DLKcat)を用い、かつ、比較を平等にするためにSpotlightと同じ教師データであるBRENDAのkcat エントリーを使ってモデルを再構築しました。この再構築したDLKcatにより予測した変異体のkcatの値とSpotlightで予測したkcatの値のいずれが実測値とより近いか比較しました。
今回使用したBRENDAのエントリーにはwild type (WT) と単変異体のみが含まれるように抽出し、変異1つに対する感度が2つのモデルでどれくらい違うかに注目して比較しました。
結果1 BRENDAのkcat (=Turnover Number)のデータを用いた学習モデルの構築
BRENDAのkcatが記載されている変異体、そのWTの配列のエントリーおよびkcatを測定した化合物の情報を抽出し、これらを酵素ファミリーに偏りが生じないように、かつ、およそ教師データ:テストデータ= 3 : 1になるように分割しました。分割後の教師データではkcatが向上しているエントリーが3969、変化しないエントリーが2985、減少しているエントリーが8296でした(図1)。分割後のテストデータではkcatが向上しているエントリーが792、変化しないエントリーが748、減少しているエントリーが1926でした(図2)。
抽出したBRENDAのエントリーの情報をDLKcatが要求する特徴量の形に変換し、教師データの中のkcatの実験値と合わせて学習モデルを構築しました。Spotlightでも同様にこれらのエントリーをSpotlightが要求する特徴量の形に変換して、kcatの実験値と合わせて学習モデルを構築しました(図3)。
図1. 今回使用したBRENDAのkcatエントリーのうち教師データに用いたエントリーの単変異体/WTのkcatの比率の対数のヒストグラム。
図2. 今回使用したBRENDAのkcatエントリーのうちテストデータに用いたエントリーの単変異体/WTのkcatの比率の対数のヒストグラム。
結果2 DLKcat・Spotlightで予測したkcatの変異体/WT比率の評価
図3. 学習モデルを構築・変異体のkcatを予測するためのフロー。
DLKcatで予測した変異体のkcatとWTのkcatの比率は実測値と予測値の間でピアソン相関係数が0.18でした。(図3)。DLKcatにおいて予測した変異体とWTのkcatの比率が実測値と良く相関しなかった理由は、DLKcatでは特徴量として配列の全長をベクトルに変換しているため1アミノ酸の違いが特徴量に現れづらくなっているからであると考えています。
Spotlightで予測した変異体のkcatとWTのkcatの比率は実測値と予測値の間でピアソン相関係数が0.66でした(図3)。弊社のSpotlightでは特徴量に変異体としての性質を大きく反映できる工夫をしてあるため、単変異体のエントリーであってもWTからの1変異による変化を正確に予測することができています。
おわりに
弊社のSpotlightでは先行研究と比べて、単変異体というWTから1アミノ酸しか違わないようなケースでもその変化を正確に反映してより実験値に近い値を予測できるということがわかりました。
謝辞
今回の酵素活性予測の精度比較には以下の論文のデータを利用させていただきました。
Li et al., (2022) Deep learning-based kcat prediction enables improved enzyme-constrained model reconstruction. Nature Catalysis.