Deep Signal
論文解説

DrugCLIPの仕組みを読む——タンパク質-化合物スクリーニングをベクトル探索に変えたCLIP型フレームワーク

DrugCLIPはタンパク質-化合物の仮想スクリーニングをCLIPの対照学習で再定式化した2023年のフレームワーク。従来のドッキング計算を埋め込みベクトル探索に置き換え、最大1,000万倍の高速化を実現。200万件のヒット化合物データベースも公開し、AI創薬の基礎インフラとして後続技術(GenDrugCLIP、DrugHash)の出発点となっている。

ソース: Science / arXiv原文を読む →
DrugCLIPの仕組みを読む——タンパク質-化合物スクリーニングをベクトル探索に変えたCLIP型フレームワーク

創薬の初期段階でほぼ必ず通る「仮想スクリーニング」は、膨大な化合物ライブラリの中から標的タンパク質に結合しそな候補を絞り込む作業だ。医薬品開発の成否はこのフィルタリング精度に大きく左右されるが、従来手法が抱えていた計算コストの壁は、研究者が「実用的に扱える」化合物の数を厳しく制約していた。DrugCLIPはその壁を構造的に突き崩した論文として、2023年にScience誌に掲載された。

仮想スクリーニングが抱えていた速度の壁

DrugCLIP 仮想スクリーニング タンパク質 化合物

従来の物理シミュレーション型ドッキング(AutoDock VInaなど)は、タンパク質の活性部位と化合物の結合エネルギーを原子レベルで計算する。精度は高いが、計算量が化合物1件あたり数秒〜数分オーダーかかる。数百万件のライブラリを全件スクリーニングすれば、スーパーコンピュータを使っても現実的な時間に収まらない。

ここ数年で登場したディープラーニング型スコアリング(EquiBind、TANKBindなど)は速度を大幅に改善したが、それでも検索の本質的な構造——「クエリ(タンパク質)に対してライブラリを総なめにする」枠組み——は変わっていない。スループットの改善は線形であり、ライブラリが大きくなれば計算時間も比例して増える。

DrugCLIPが持ち込んだのは、この「総なめ」という発想からの離脱だ。

CLIPを創薬に転用する——DrugCLIPの構造

DrugCLIP CLIP対照学習 埋め込み空間 タンパク質 化合物

DrugCLIPのコアアイデアは、OpenAIがテキストと画像の対照学習に使ったCLIPアーキテクチャを、タンパク質ポケット構造と化合物分子に適用することだ。具体的には、2つのエンコーダを用意する。一方はタンパク質の結合ポケット構造を入力として埋め込みベクトルに変換し、もう一方は化合物の3D形状・電荷・疎水性などの分子特性を入力として埋め込みベクトルに変換する。学習時は「結合する(ポジティブ)ペア」の埋め込みが近く、「結合しない(ネガティブ)ペア」の埋め込みが遠くなるよう対照損失(InfoNCE)で最適化する。

推論時の鍵はここにある。化合物ライブラリを事前に全件埋め込んでベクトルとしてインデックス化しておき、クエリのタンパク質が来たときはそのポケット構造をエンコードしてベクトル1本を生成し、ライブラリのインデックスに対して近傍探索を走らせる。要するに、ドッキングを「ベクトル類似度検索」に置き換えた。この設計により、ライブラリが10倍になっても追加の推論コストはほぼゼロ——インデックス構築は事前に済んでいるからだ。

論文が報告した速度改善は最大1,000万倍。ベンチマークデータセットDUD-Eではドッキング精度を維持しながら、処理時間を既存手法比で桁違いに短縮した。この数字は理論的な上限に近い——ベクトル探索はO(log N)でスケールするが、ドッキングはO(N)のため、ライブラリが大きくなるほど差が広がる。

200万ヒット化合物データベース——DrugCLIPが開放した資産

DrugCLIP 200万化合物 ヒット化合物データベース AI創薬 研究

速度改善だけであれば、他の高速ドッキング手法と本質的に同じ話になる。DrugCLIPが創薬研究の実践的なインフラとして位置づけられる理由は、Enamine REAL Spaceの2億件以上の化合物ライブラリをスクリーニングして得た約200万件の「ヒット化合物データベース」を公開したことにある。

これは何を意味するか。中小規模の研究室や製薬スタートアップは、スクリーニングのための計算リソースを持っていないことが多い。DrugCLIPのデータベースを使えば、自分の標的タンパク質のポケット構造を入力するだけで、200万件の候補から迅速に絞り込みを始められる。スクリーニングコストの民主化と言い換えてもいい。

著者(北京大学・張楠グループ)はこのデータベースを含むコードとモデルをGitHubで公開しており、2024年以降に多くの研究グループが自前の標的でDrugCLIPを適用した報告が出ている。DrugCLIPはスクリーニングのスタートポイントとして機能するだけでなく、その後の絞り込みフェーズ(自由エネルギー計算や実験的な結合アッセイ)への接続も視野に設計されている。

後続技術との位置関係——GenDrugCLIP・DrugHash・IsoDDE

GenDrugCLIP DrugHash IsoDDE 創薬AI 技術系譜

DrugCLIPの発表後、同じ対照学習フレームワークを拡張・競合する手法が登場している。GenDrugCLIPはDrugCLIPに生成モデルを組み合わせ、スクリーニングだけでなく候補化合物の設計(de novo分子生成)まで対応した。DrugHashはハッシュ関数を使ったさらに高速な化合物インデックス構築を提案し、より大規模なライブラリへの対応を目指す。これらはDrugCLIPが切り拓いた「ベクトル空間での創薬」という発想の上に成立している。

一方、Deep Signalで先日取り上げたIsomorphic LabsのIsoDDEは別のアプローチを取る。AlphaFold 3の構造予測精度をベースにした統合型プラットフォームであり、タンパク質-リガンド結合のエンドツーエンド設計を目指す。IsoDDEとDrugCLIPは競合関係というより補完関係に近い——DrugCLIPが「広く浅くスクリーニング」するのに対し、IsoDDE系は「狭く深く精密設計」するフェーズで使われる位置づけだ。

また、Mantis Biotechのデジタルツインが示すように、AI創薬の裾野はスクリーニングや構造設計を超えて患者データの統合まで広がっている。DrugCLIPが化合物ライブラリの探索を変えたとすれば、デジタルツインは「誰に、どの化合物が効くか」という個別化の問いを構造化しようとしている。この2つの方向性——ヒット化合物発見の高速化と、有効性の個別化予測——は2026年現在、AI創薬の二本柱として相互に発展している。

DrugCLIPが示す「埋め込み空間の普遍性」

DrugCLIPを創薬ニュースとしてではなく、表現学習の応用事例として読むと別の景色が見える。CLIPが「テキストと画像」という異質なモダリティを同一の埋め込み空間に収めたように、DrugCLIPは「タンパク質構造と化合物分子」という異なる化学実体を同じ空間に収めた。モダリティが違っても、「関連するものは近く、無関係なものは遠い」という制約を対照損失で与えれば、有用な構造が生まれることの証明でもある。

この発想はすでに他の生物学ドメインに拡張されつつある。RNA-化合物、抗体-抗原、タンパク質-タンパク質相互作用など、生化学の結合問題は構造的に似ており、DrugCLIPのフレームワークを移植しやすい。筆者の読みでは、DrugCLIPはVirtual Screeningの特定ソリューションにとどまらず、「生物学的結合問題の対照学習的定式化」という一般化可能なパターンを示した点で長期的な価値を持つ。

Science誌に掲載されてから2年以上が経過したが、引用は増加を続けており、ウェットラボとの接続を試みる追試も続いている。創薬AIが「計算でヒット候補を特定し、実験でそれを検証する」サイクルを短縮する方向に動いている以上、DrugCLIPが担うスクリーニングフェーズの重要性は下がるどころか、パイプラインの前段として定着しつつある。

#AI創薬#DrugCLIP#仮想スクリーニング#対照学習#タンパク質

◇ 関連記事

Isomorphic LabsがAlphaFold 3を超える創薬AI「IsoDDE」を発表——ElilLillyとNovartisとの$30億ディールが動き出す
速報ニュース4月9日Nature / The Decoder

Isomorphic LabsがAlphaFold 3を超える創薬AI「IsoDDE」を発表——ElilLillyとNovartisとの$30億ディールが動き出す

DeepMindスピンオフのIsomorphic Labsが、AlphaFold 3の精度を2倍以上超える統合型創薬プラットフォーム「IsoDDE」を発表。Eli LillyとNovartisとの30億ドル超の提携は前臨床候補の生成フェーズへと移行し、2026年内にAI設計分子の第I相臨床試験が視野に入った。

#AI創薬#Isomorphic Labs#AlphaFold
Mantis Biotech——人体の「デジタルツイン」で医薬品研究のデータ不足を解決する
トレンド解説3月30日TechCrunch

Mantis Biotech——人体の「デジタルツイン」で医薬品研究のデータ不足を解決する

Mantis Biotechが医療・ゲノム・行動データを統合した人体「デジタルツイン」生成AIプラットフォームを開発。実患者データを使わず統計的に本物そっくりな合成患者データを生成することで、HIPAAやGDPR等のプライバシー規制と稀少疾患の患者数問題を同時に解決しようとする。AIへの信頼低下(Quinnipiac調査)という逆風の中で、合成データの透明性・再現性・規制対応が医療AI信頼性設計の核心課題となる。科学研究LLM活用ガイドで論じられた再現性原則、Secure AI Agentsのシステムアーキテクチャ信頼設計がそのまま医療AI領域に適用される構造。製薬大手の関心は高いが、FDA・EMA規制フレームワークの未整備が最大の課題。

#医療AI#デジタルツイン#合成データ
NVIDIA NemoCLAWが示す企業向けAIエージェント本番運用の要点——GTC 2026から読み解く実践知
ガイド3月28日NVIDIA Newsroom / digitalapplied.com / MindStudio

NVIDIA NemoCLAWが示す企業向けAIエージェント本番運用の要点——GTC 2026から読み解く実践知

NVIDIA GTC 2026でのNemoCLAWとNeMo Agent Toolkitの発表は、AIエージェントが「試験運用」から「本番稼働」に移行する段階で企業が直面する三つの壁(ガバナンス・コスト予測・フォールバック設計)を正面から解こうとするフレームワークとして位置づけられる。HyperAgents(#29)の自己改善エージェントや、エージェントハーネス論文(#20)が整理したシリアル/パラレル/ヒエラルキカルパターン、MCPの9700万DL突破(#28)という文脈と重ねると、NemoCLAWは「標準化されたプロトコルの上に企業向けガバナンスレイヤーを乗せる」という2026年のエンタープライズAIアーキテクチャの主流を体現している。

#NVIDIA#NemoCLAW#GTC 2026