DrugCLIPの仕組みを読む——タンパク質-化合物スクリーニングをベクトル探索に変えたCLIP型フレームワーク

創薬の初期段階でほぼ必ず通る「仮想スクリーニング」は、膨大な化合物ライブラリの中から標的タンパク質に結合しそな候補を絞り込む作業だ。医薬品開発の成否はこのフィルタリング精度に大きく左右されるが、従来手法が抱えていた計算コストの壁は、研究者が「実用的に扱える」化合物の数を厳しく制約していた。DrugCLIPはその壁を構造的に突き崩した論文として、2023年にScience誌に掲載された。

仮想スクリーニングが抱えていた速度の壁

従来の物理シミュレーション型ドッキング（AutoDock VInaなど）は、タンパク質の活性部位と化合物の結合エネルギーを原子レベルで計算する。精度は高いが、計算量が化合物1件あたり数秒〜数分オーダーかかる。数百万件のライブラリを全件スクリーニングすれば、スーパーコンピュータを使っても現実的な時間に収まらない。

ここ数年で登場したディープラーニング型スコアリング（EquiBind、TANKBindなど）は速度を大幅に改善したが、それでも検索の本質的な構造——「クエリ（タンパク質）に対してライブラリを総なめにする」枠組み——は変わっていない。スループットの改善は線形であり、ライブラリが大きくなれば計算時間も比例して増える。

DrugCLIPが持ち込んだのは、この「総なめ」という発想からの離脱だ。

CLIPを創薬に転用する——DrugCLIPの構造

DrugCLIPのコアアイデアは、OpenAIがテキストと画像の対照学習に使ったCLIPアーキテクチャを、タンパク質ポケット構造と化合物分子に適用することだ。具体的には、2つのエンコーダを用意する。一方はタンパク質の結合ポケット構造を入力として埋め込みベクトルに変換し、もう一方は化合物の3D形状・電荷・疎水性などの分子特性を入力として埋め込みベクトルに変換する。学習時は「結合する（ポジティブ）ペア」の埋め込みが近く、「結合しない（ネガティブ）ペア」の埋め込みが遠くなるよう対照損失（InfoNCE）で最適化する。

推論時の鍵はここにある。化合物ライブラリを事前に全件埋め込んでベクトルとしてインデックス化しておき、クエリのタンパク質が来たときはそのポケット構造をエンコードしてベクトル1本を生成し、ライブラリのインデックスに対して近傍探索を走らせる。要するに、ドッキングを「ベクトル類似度検索」に置き換えた。この設計により、ライブラリが10倍になっても追加の推論コストはほぼゼロ——インデックス構築は事前に済んでいるからだ。

論文が報告した速度改善は最大1,000万倍。ベンチマークデータセットDUD-Eではドッキング精度を維持しながら、処理時間を既存手法比で桁違いに短縮した。この数字は理論的な上限に近い——ベクトル探索はO(log N)でスケールするが、ドッキングはO(N)のため、ライブラリが大きくなるほど差が広がる。

200万ヒット化合物データベース——DrugCLIPが開放した資産

速度改善だけであれば、他の高速ドッキング手法と本質的に同じ話になる。DrugCLIPが創薬研究の実践的なインフラとして位置づけられる理由は、Enamine REAL Spaceの2億件以上の化合物ライブラリをスクリーニングして得た約200万件の「ヒット化合物データベース」を公開したことにある。

これは何を意味するか。中小規模の研究室や製薬スタートアップは、スクリーニングのための計算リソースを持っていないことが多い。DrugCLIPのデータベースを使えば、自分の標的タンパク質のポケット構造を入力するだけで、200万件の候補から迅速に絞り込みを始められる。スクリーニングコストの民主化と言い換えてもいい。

著者（北京大学・張楠グループ）はこのデータベースを含むコードとモデルをGitHubで公開しており、2024年以降に多くの研究グループが自前の標的でDrugCLIPを適用した報告が出ている。DrugCLIPはスクリーニングのスタートポイントとして機能するだけでなく、その後の絞り込みフェーズ（自由エネルギー計算や実験的な結合アッセイ）への接続も視野に設計されている。

後続技術との位置関係——GenDrugCLIP・DrugHash・IsoDDE

DrugCLIPの発表後、同じ対照学習フレームワークを拡張・競合する手法が登場している。GenDrugCLIPはDrugCLIPに生成モデルを組み合わせ、スクリーニングだけでなく候補化合物の設計（de novo分子生成）まで対応した。DrugHashはハッシュ関数を使ったさらに高速な化合物インデックス構築を提案し、より大規模なライブラリへの対応を目指す。これらはDrugCLIPが切り拓いた「ベクトル空間での創薬」という発想の上に成立している。

一方、Deep Signalで先日取り上げたIsomorphic LabsのIsoDDEは別のアプローチを取る。AlphaFold 3の構造予測精度をベースにした統合型プラットフォームであり、タンパク質-リガンド結合のエンドツーエンド設計を目指す。IsoDDEとDrugCLIPは競合関係というより補完関係に近い——DrugCLIPが「広く浅くスクリーニング」するのに対し、IsoDDE系は「狭く深く精密設計」するフェーズで使われる位置づけだ。

また、Mantis Biotechのデジタルツインが示すように、AI創薬の裾野はスクリーニングや構造設計を超えて患者データの統合まで広がっている。DrugCLIPが化合物ライブラリの探索を変えたとすれば、デジタルツインは「誰に、どの化合物が効くか」という個別化の問いを構造化しようとしている。この2つの方向性——ヒット化合物発見の高速化と、有効性の個別化予測——は2026年現在、AI創薬の二本柱として相互に発展している。

DrugCLIPが示す「埋め込み空間の普遍性」

DrugCLIPを創薬ニュースとしてではなく、表現学習の応用事例として読むと別の景色が見える。CLIPが「テキストと画像」という異質なモダリティを同一の埋め込み空間に収めたように、DrugCLIPは「タンパク質構造と化合物分子」という異なる化学実体を同じ空間に収めた。モダリティが違っても、「関連するものは近く、無関係なものは遠い」という制約を対照損失で与えれば、有用な構造が生まれることの証明でもある。

この発想はすでに他の生物学ドメインに拡張されつつある。RNA-化合物、抗体-抗原、タンパク質-タンパク質相互作用など、生化学の結合問題は構造的に似ており、DrugCLIPのフレームワークを移植しやすい。筆者の読みでは、DrugCLIPはVirtual Screeningの特定ソリューションにとどまらず、「生物学的結合問題の対照学習的定式化」という一般化可能なパターンを示した点で長期的な価値を持つ。

Science誌に掲載されてから2年以上が経過したが、引用は増加を続けており、ウェットラボとの接続を試みる追試も続いている。創薬AIが「計算でヒット候補を特定し、実験でそれを検証する」サイクルを短縮する方向に動いている以上、DrugCLIPが担うスクリーニングフェーズの重要性は下がるどころか、パイプラインの前段として定着しつつある。

DrugCLIPの仕組みを読む——タンパク質-化合物スクリーニングをベクトル探索に変えたCLIP型フレームワーク

仮想スクリーニングが抱えていた速度の壁

CLIPを創薬に転用する——DrugCLIPの構造

200万ヒット化合物データベース——DrugCLIPが開放した資産

後続技術との位置関係——GenDrugCLIP・DrugHash・IsoDDE

DrugCLIPが示す「埋め込み空間の普遍性」

◇ ◇ 関連記事

Isomorphic LabsがAlphaFold 3を超える創薬AI「IsoDDE」を発表——ElilLillyとNovartisとの$30億ディールが動き出す

Mantis Biotech——人体の「デジタルツイン」で医薬品研究のデータ不足を解決する

NVIDIA NemoCLAWが示す企業向けAIエージェント本番運用の要点——GTC 2026から読み解く実践知