マルチモーダル検索の本質的な問題:なぜ画像×テキストの検索は難しいのか
大規模言語モデルの能力が向上する中で、RAGシステムの検索精度がボトルネックになりつつある。特に深刻なのが「マルチモーダル推論集約型クエリ」への対応だ。ダイアグラム、グラフ、スクリーンショットなどの画像と文字情報を深く統合して初めて答えられる質問に対して、現在の最高性能マルチモーダルモデルはnDCG@10で27.6しか達成できず、純粋なテキストベースの検索モデル(32.2)にすら劣っている。
この性能差の原因は、マルチモーダルエンコーダーが画像とテキストを同一の埋め込み空間に押し込む際に「推論に必要な論理的・視覚的な文脈」を失ってしまうことにある。たとえば、「このグラフが示すアルゴリズムの計算量は?」というクエリに正確に答えるには、グラフの形状からO(n log n)かO(n²)かを推論し、その推論結果に対応するドキュメントを検索する必要がある。この種の「推論してから検索する」プロセスを単一のエンコーダーが担うのは本質的に困難だ。
HIVEの4ステージパイプライン:推論と検索の反復統合
HIVE(Hypothesis-driven Iterative Visual Evidence Retrieval、arXiv:2604.07220)はこの問題に対して、LLMを検索プロセスの中に組み込んで「推論と検索を反復させる」というアプローチを提案する。フレームワークは4つのステージで構成される。
第1ステージは通常の初期検索だ。ユーザーのクエリを元にコーパスを検索し、上位k件の候補を取得する。この時点では既存の検索エンジンと同じ動作をする。第2ステージがHIVEの核心だ。LLMが上位k件の候補を分析し、「どのような視覚的・論理的な情報が欠けているか」を明示的に言語化した「補完クエリ」を合成する。この「視覚的・論理的ギャップの言語化」が従来の検索にない特徴だ。第3ステージでは補完クエリを使って再検索を行い、第4ステージでLLMが初回と再検索の候補をマージして最終的なリランキングと検証を行う。
設計上の重要な特徴として、HIVEは「プラグアンドプレイ」だ。既存の検索システムにHIVEのフレームワークを被せるだけで機能し、ベースとなる検索エンジンを変更する必要がない。標準的なリトリーバーとリーズニング強化リトリーバーの両方に対応している。
MM-BRIGHTで実証——ゲーム分野68.2、全体+14.1ポイント
HIVEの性能はMM-BRIGHT(2,803の実世界クエリ、29技術領域)ベンチマークで検証された。評価指標はnDCG@10(正規化割引累積利得、上位10件の検索結果の質を測る標準指標)だ。HIVEが達成した総合スコアはnDCG@10=41.7。最高性能のテキストのみモデルDiVeR(32.2)に対して+9.5ポイント、最高性能のマルチモーダルモデルNomic-Vision(27.6)に対して+14.1ポイントという大差だ。
内訳を見ると、ベースリトリーバーの改善が33.2を担い、HIVEフレームワーク自体が追加で+8.5ポイントを上乗せしている。ドメイン別の突出したスコアはゲーム(68.2)、サステナビリティ(49.4)、化学(42.5)だ。これらの分野はダイアグラムや数式、グラフを多用するため、視覚的推論が検索精度に直結する。HIVEの「仮説生成」ステップが視覚的ギャップを言語化してブリッジすることで、この種のクエリへの適合性が特に高い。
WriteBack-RAGとMCPとの相乗効果——RAGインフラの2層アーキテクチャへ
HIVEのアーキテクチャは、Deep Signalが報じてきたRAGエコシステムの進化と連動している。WriteBack-RAG(Deep Signal既報)は、成功した検索事例から知識ユニットを蒸留してコーパスに追記するだけで全設定・全ベンチマークで平均+2.14%の改善を達成した。こちらは「知識ベース自体を進化させる」アプローチであり、HIVEの「検索プロセスを推論で強化する」アプローチとは別の軸で機能する。両者は組み合わせることで相乗効果が期待できる。
MCPが9,700万ダウンロードを突破してエージェントAIの標準プロトコルになりつつある(Deep Signal既報)という文脈でも、HIVEは興味深い位置づけを持つ。エージェントが複数のツールを呼び出す際に「どのツール(検索エンジン)をどのクエリで叩くか」を最適化するメタ推論層として、HIVEの仕組みが応用できる。エンタープライズのRAGシステムにおいて、「第1層:ベクトルDB検索(Pinecone・Weaviate・pgvector等)」「第2層:LLM推論強化(HIVEフレームワーク)」という2層アーキテクチャが標準になる可能性を示唆している。今後、HIVEをPineconeやpgvectorと組み合わせた実際のプロダクション環境での事例が蓄積されることが期待される。



