ブログ

COGNANOで機械学習に関する研究や開発を担当している鶴田です。2023年12月11日よりアメリカ合衆国ルイジアナ州ニューオーリンズで開催されたNeurIPS 2023にて、「AVIDa-hIL6: A Large-Scale VHH Dataset Produced from an Immunized Alpaca for Predicting Antigen-Antibody Interactions」と題して、アルパカ免疫を利用して作成した抗原抗体相互作用のデータセットに関する研究について発表してきました。今回は、我々の発表を中心にNeurIPS 2023の参加レポートをお届けします。

論文の内容については、下のブログで解説しているので、興味のある方はぜひご覧ください。

アルパカ抗体のデータセットに関するNeurIPS 2023採択論文の解説 - COGNANO ブログ
COGNANOで機械学習に関する研究や開発を担当している鶴田です。先日、『アルパカ免疫により得られた抗原抗体相互作用の大規模データセットに関するCOGNANO・Googleの共著論文が世界最高峰のAI国際会議「NeurIPS 2023」に採択』というプレスリリースを公開しました。本論文では、アルパカという動物から創薬のためのデータを高品質かつ大量に創出するという非常にユニークかつ将来性のある方法論を提案しました。これは、COGNANOが目指す創薬の世界を実現するための出発点ともいえる研究であり、現在も論文中で示したコンセプトや技術に基づき、日々研究開発に取り組んでいます。今回は、我々のNeurIPS採択論文を機械学習(以下、ML)の観点から重要��ポイントに絞って解説したいと思います。まずは、簡単に研究の背景についてお話しします。抗体とは、我々の生命や健康を守る上で重要な役割を担うタンパク質...
iconhttps://www.cognano.co.jp/blog/avida-hil6-paper-introduction
image

NeurIPS 2023 Datasets and Benchmarks Track

我々の論文は、NeurIPS 2023のDatasets and Benchmarks Trackに採択されました。Datasets and Benchmarks Trackは、2021年に新設されて今年で3回目の開催となりますが、年々投稿件数は増えており、NeurIPS 2023では投稿987件、採択322件、採択率32.6%でした。2022年と比べて投稿件数が倍以上に増えていることからも、モデルやアルゴリズムだけでなく、データを中心とした研究への関心が高まっていることが見て取れます。

Image

NeurIPS 2023 Opening Remarksのスライドより

ポスター発表

我々は、現地時間の12月13日17:00~19:00のポスターセッションの枠で発表をしました。

Image
発表に使ったポスター。

以下、当日のポスター発表の様子です。多くの方が熱心に発表を聞いてくれました。

Image
Image
Image

セッション開始の30分前からポスターを貼って準備をしていると、貼り終わった直後から2時間半もの間、途切れることがなく多くの方が発表を聞きにきてくれました。常に数名の方はポスター発表を聞くために順番を待ってくれている状態で、第一著者の鶴田だけでなく、第二著者の山崎、伊村 明浩 CEO、伊村 泰子 CFOのCOGNANOメンバー総出で発表を聞きにきてくれた方々に我々の取り組みについて説明させてもらいました。

発表を終えての感想

これまでCOGNANOの研究成果は、バイオ系のジャーナルに投稿することがほとんどであり、機械学習分野に投稿して発表するのは初めての経験でした。そのため、今回のNeurIPSの参加・発表はこれまでとは違った刺激を多く受けることができました。ここでは、論文執筆と研究発表を中心的に行った鶴田と山崎から、NeurIPSへの参加と発表を終えた感想をお伝えします。

鶴田(第一著者)

まず、NeurIPSに初めて参加して驚いたことは、創薬やタンパク質などのバイオ関連の研究に対する関心の高さです。ポスターセッションは全部で6セッションありましたが、どのセッションでも創薬やタンパク質に関する研究発表があり、多くの人が集まっていました。また、今年は「New Frontiers of AI for Drug Discovery and Development」と題したワークショップも開催されており、大盛況だったようです。私は、我々のポスター発表を聞きにきてくれた方に必ず最初に「タンパク質や抗体について馴染みがありますか?」と聞いていましたが、一人としてNoと答えた方はいませんでした。その中には、製薬会社でAI創薬に関わる仕事をされている方もいましたし、「友達がVHH(アルパカの抗体)の研究しているからポスターの写真を送るよ!」と言ってくれた方もいました。それだけ多く研究者が、創薬やタンパク質に対する機械学習の応用研究に興味を持っていることに驚いたと同時に、その方々が我々の研究に興味を持って発表を聞きにきてくれたことは大変嬉しく思いました。

次に、改めて我々のデータのポテンシャルを再確認する機会にもなりました。発表の中で「アルパカから得られる抗体は免疫後のタイミングやサンプルの取得部位で変わりますか?」という質問を受けました。これは非常に鋭い質問で、実は今回の論文では語りきれなかった我々のデータの重要な特徴の一つでもあります。我々のデータは一頭のアルパカに対して、ターゲット分子(抗原)を約2週間おきに4回免疫して、それぞれの免疫後にリンパ節や血液のサンプルを取得しています。そして、それぞれのサンプルがどこ由来で、何回目に取得したかのメタデータも公開しています。今回の論文ではこれらの情報は無視してデータ解析を行っていますが、免疫反応のメカニズムやダイナミクスを探る上で重要な情報が含まれていると思います。質問をしてくれた方にそのことを伝えると、とても嬉しそうにされていたのが印象的でした。このように、我々が発表したデータは、一つの論文では伝えきれない使い道やポテンシャルを秘めているということを再認識し、引き続き研究を深めていく励みになりました。

山崎(第二著者)

COGNANO研究員の山崎です。普段は血液内科の臨床医として働く傍らで、データ解析や医学的な検体収集および検証実験などを行っています。これまでは医学分子生物学分野の学会にしか参加したことがなく、今回初めて機械学習分野の学会で発表する機会を頂きました。僕にとって異分野かつ国際的にもトップレベルの学会参加は非常に刺激的でした。研究者同士のコミュニケーションが非常に活発で、ポスター発表の演者はもちろん、口頭発表の演者や著名な研究者とも気兼ねなく意見を交わすことのできる雰囲気に感銘を受けました。

Image
New Frontiers of AI for Drug Discovery and DevelopmentのWorkshopの様子。聴講者は常に満席で部屋に入りきらず溢れており、床に座り込んで聞いている人も。

周知の通り、機械学習は言語や画像、音声処理において絶大な発展を遂げておりますが、おそらく最も複雑な系の一つであろう医学分子生物学分野でのモデル開発が今後活発になっていくのは必然でしょう。特に、生物の構成要素である蛋白質、脂質、糖質、核酸などの構造予測やそれらの相互作用予測は、生命現象の理解や創薬に直結するからです。実際に今回の学会でも様々なアプローチで創薬関連の演題が見られ、聴講者がひっきりなしに往来しており、この分野が非常に注目されているのを肌で感じることができました。

一方、これらの分野には大きな課題があります。それは信頼性のある教師データの数が非常に限られている、ということです。AlphaFoldの礎にもなっているように、蛋白質の立体構造予測モデルの教師データは、事実上、PDBというサイトで公開されている巨大なデータベース一つしかありません。自然界のそのままの状態だとデータが取れないために、人為的に蛋白質に変異をいれざるを得ないケースも少なくありません。また、一つ一つのデータを取得するのに大きな時間的金銭的なコストがかかるため、今後も簡単にはデータを増やすことが出来ません。さらに医学分子生物学の分野というのは、物理学や生化学分野と比較して系があまりに複雑なため、データの再現性という点では非常に心許ない部分があります。複数の分子が揃って初めて正常に相互作用する現象も知られています。従って、各種分子の相互作用の有無のみならず、その強さを絶対的客観的な数値として取得することは極めて困難です。しかし、機械学習への利用を前提として実験系を構築するなど、研究方法を開発していく余地は十分にあると考えます。機械学習分野では、少ない現実のデータからでも有用なモデルを開発できるような、素晴らしい理論やアイデアを生み出し続けています。双方の分野が文字通り相互に理解、融合していくことで、更なる大きな技術革新が起きると確信しています。

今後に向けて

今回の発表したデータセットは、IL-6タンパク質という特定のターゲット分子(抗原)に対する多様な抗体の相互作用のデータセットです。重要なのは、このデータセット単体に強い価値があるのではなく、我々のデータ作成の方法論があらゆるターゲット分子に対して適用可能であり、今後広範な抗原に対する抗原抗体相互作用の網羅的なデータベースを構築する基盤技術となりうるということです。私たちは、IL-6タンパク質はあくまで練習問題だと考えています。

今後、さらにインパクトのあるデータセットに関する研究成果を出していきたいと思っています。来年バンクーバーで開催されるNeurIPS 2024にて、その成果を発表することを直近の一つの目標として、引き続き研究活動に邁進してまいります。

Image
発表を終えた夜にニューオーリンズの街を散策。至る所から音楽が聞こえ、とても賑やかでした。
Image
ニューオーリンズ名物のワニ料理。アリゲーターフライ美味しかったです。