今日の創薬で最重要素材は抗体です。自然界において、抗体ほど抗原(標的分子)に正確かつ強力に結合する物質はないからです。抗体は遺伝子を設計図として無尽蔵に生成されるため、抗体遺伝子情報を収集すれば有用な抗体をサーチできるはずです。ところが通常の生物では抗体遺伝子解読が容易ではなく、データ蓄積に限界がありました。
そこでCOGNANOは、例外的に単純な抗体遺伝子を持つアルパカを免疫し、多様な抗体遺伝子を取得してデジタルデータ化しました。一般に抗体と抗原の結合は1対1対応で、結合部位(エピトープ)は1か所です。そこで抗体・抗原の対応を数値情報に置き換え機械に学習させたところ、未学習の抗体の結合性を高精度に予測できることが確認されました。今回の論文はAI創薬のために構築した、世界で最も精密で巨大な抗原・抗体対応データセットの報告です。
このロジックを用いて、結合予測だけではなく、エピトープや、抗原・抗体のアミノ酸配列まで推定できるようになると考えられ、近い将来、機械による自動創薬の実現が期待されます。COGNANOは本成果をGoogle, LLC.と共同でNeurIPS 2023で発表します。
公開したデータセットをダウンロードできるWebサイト
Title | AVIDa-hIL6: A Large-Scale VHH Dataset Produced from an Immunized Alpaca for Predicting Antigen-Antibody Interactions |
Authors | Hirofumi Tsuruta, Hiroyuki Yamazaki, Ryota Maeda, Ryotaro Tamura, Jennifer N. Wei, Zelda Mariet, Poomarin Phloyphisut, Hidetoshi Shimokawa, Joseph R. Ledsam, Lucy Colwell, Akihiro Imura |
URL |
1. 背景
抗体は、我々の生命や健康を守る免疫システムにおいて重要な役割を担うタンパク質です。抗体は、ウイルスや細菌などの抗原に対する高い結合親和性と特異性を持つことから、ヒトの病気を治療するための重要な創薬モダリティの一つとなっています。近年、抗体医薬の開発を加速するために、標的抗原に対して特異的に結合する候補抗体を、多大な時間とコストを要するバイオ実験を介さず、人工知能(AI)技術を用いて計算機のみで予測することに大きな関心が集まっています。しかし、AIに学習させるための抗原抗体相互作用の高品質で大規模なデータセットが存在しないため、AIを活用した抗体医薬開発の進歩は、他の創薬分野の進歩に比べて遅れをとっています。例えば、既存の公開されている抗原抗体相互作用に関するデータセットは、データサンプル数が少ないことや、結合しない抗原・抗体ペアの情報がないこと、抗原の正確なアミノ酸配列が収録されていないことなどの制約があります。どれだけ優れたAIモデルを設計できたとしても、そのモデルに学習させる十分なデータがなければ、モデルの性能は頭打ちになり、実用的なAI創薬の実現は不可能となります。そのため、今後のAI創薬のさらなる推進には、高品質で大規模なデータセットの作成が必要不可欠です。
2. 研究成果
主な研究成果は以下の3点挙げられます。
- 世界最大規模の抗原抗体相互作用のデータセットであるAVIDa-hIL6を公開しました。AVIDa-hIL6には正確なアミノ酸配列が付与された573,891の抗原・抗体ペアと、そのペアが結合するかしないかの2値ラベルが収録されています。AVIDa-hIL6は前述した既存データセットの課題である「データサンプル数が少ないことや、結合しない抗原・抗体ペアの情報がないこと、抗原の正確なアミノ酸配列が収録されていないこと」をすべて克服しています。
- 生きたアルパカの免疫システムを利用した新たなデータセット作成手法を提案しました。AVIDa-hIL6はヒトIL-6タンパク質を抗原として採用しましたが、提案するデータセット作成手法は、あらゆる標的抗原に対して適用可能です。そのため、本手法は今後より大規模かつ網羅的な抗原抗体相互作用データセットを作成する上での基盤技術になります。実際に、我々は新型コロナウイルスの表面に存在するスパイクタンパク質を標的抗原として同様の手法でデータセットを作成し、有効な抗体の発見に成功しています。303 See Otherhttps://www.nature.com/articles/s42003-022-03630-3
- ニューラルネットワークなどのいくつかのAIモデルを用いたベンチマーク実験の結果から、AVIDa-hIL6が抗原抗体相互作用を予測するAIモデルの性能を評価するための貴重なベンチマークデータセットとなることを示しました。そのため、AVIDa-hIL6の公開は、抗原抗体相互作用を予測するAIモデルの設計や開発を促進することが期待されます。
3. 公開したデータセット (AVIDa-hIL6)
データセットはCC BY-NC 4.0ライセンスの下でWebサイト(https://avida-hil6.cognanous.com)上で公開しており、誰でもすぐにダウンロードして利用可能です。データセットには、抗原として採用したヒトIL-6タンパク質のアミノ酸配列と、抗体のアミノ酸配列、および結合ペア・非結合ペアを示す2値ラベルが含まれています。アミノ酸配列とは、1文字のアルファベットで表現される20種類のアミノ酸が並んだものであり、単なる文字列として捉えられます。データセットの利用者は、与えられた二つの文字列から、それらが結合するかしないかを予測する2値分類問題を解くことができます。
AVIDa-hIL6は、ヒトIL-6タンパク質の野生型に加え、野生型から一つのアミノ酸配列を人工的に変化させた30種類の変異体を有しています。これは、COVID-19のパンデミックのように、ウイルスがヒトの免疫システムを回避するために次々と変異する生物進化を模倣しモデル化しています。実際に、AVIDa-hIL6には、ヒトIL-6タンパク質の一つのアミノ酸の変異が、抗体結合を増強または阻害するようなセンシティブなデータが多く含まれています。この特徴により、抗原変異による抗体結合の変化を予測するAIモデルの設計や開発に取り組むことができます。
4. 今後の展望
AIモデルが特定のタスクを解く場合、学習に用いるデータセットの規模や多様性は、モデルの性能に直結します。AIモデルは、大量のデータからそのデータに潜む法則性を捉えることは得意ですが、学習データに存在しない情報を捉えることは困難です。そのため、ヒトIL-6タンパク質という特定の抗原を対象としたAVIDa-hIL6のみを用いて学習したAIモデルが他の抗原に対して有効な抗体を予測することは極めて困難です。しかし、実用的なAI創薬を実現するためには、多様な抗原、理想的には未知の抗原に対して有効な抗体を予測できるAIモデルが必要です。「2. 研究成果」の2点目で述べた通り、アルパカの免疫システムを利用した我々のデータセット作成手法は、あらゆる標的抗原に対して適用できます。将来的に、本手法を用いて作成したより多様な抗原に対する抗原抗体相互作用のデータセットを公開し、さらなるAI創薬の推進に貢献していきます。
記者会見
本リリースに関して、2023年9月27日に記者会見を行いました。以下はその時の動画です。