LingBot-VLA——Ant Groupが公開したデュアルアームロボット向けオープンソースVLA基盤モデルの技術解剖

Ant Group傘下のロボティクス研究部門Robbyantが2026年1月に公開した「LingBot-VLA」は、デュアルアームロボット操作に特化したVision-Language-Action（VLA）基盤モデルだ。モデル重みとコード、データ収集ツール全てをオープンソースとして公開したことで、産業向けVLA研究のアクセスコストが大幅に下がった。

VLAモデルは、カメラ映像（Vision）と言語指示（Language）を入力として受け取り、ロボットの動作シーケンス（Action）を出力するアーキテクチャだ。2023年頃から研究が活発化したが、実世界の操作データを大量に必要とするため、産業規模のロボット群を持つ企業が優位に立つ傾向があった。LingBot-VLAはその非対称性を逆手に取り、Ant GroupのAliPayロボット展開で蓄積した2万時間の実操作データを学術・産業コミュニティに開放した形だ。

本稿では、LingBot-VLAのアーキテクチャ設計・訓練データ構成・他VLAモデルとの比較を、公開された論文と実装コードを参照しながら検証する。

Mixture of Transformers設計の本質 — なぜ単一モデルで9種のロボットに対応できるのか

LingBot-VLAの中核的な設計思想は「Mixture of Transformers（MoT）」だ。通常のTransformerが全ての入力に対して同一の重みを適用するのに対し、MoTは入力の種類（画像・言語・ロボット状態）に応じて異なるエキスパートTransformerブロックをルーティングする。Sparse MoE（Mixture of Experts）の概念をマルチモーダル入力のモダリティ分離に適用した形といえる。

バックボーンにはAlibaba QWENシリーズの最新マルチモーダルモデル「Qwen2.5-VL」を採用している。Qwen2.5-VLは視覚エンコーダとLLMの統合モデルとして2024年末に公開され、画像・動画・文書理解のベンチマークで競合モデルに優位を示している。LingBot-VLAはこのQwen2.5-VLにAction Head（行動出力層）を追加し、ロボット制御に転用した構造だ。

9種類のデュアルアームロボットへの対応は、MoTの設計から自然に導かれる。各ロボットの関節自由度・ツールエンドエフェクター・センサー構成が異なるため、通常のファインチューニングでは機体ごとにモデルを用意する必要がある。MoTでは「ロボット種別」をルーティングトークンとして扱い、機体固有のエキスパートを動的に選択することで、単一モデルがマルチロボット操作を処理する。Rethink RoboticsのSawyer、ABBのYuMi相当のロボット構成を含む9種での評価が報告されている。

RoboManip Pipeline — 2万時間のデータをどう集めたか

LingBot-VLAの訓練に使用された2万時間のロボット操作データは、「RoboManip Pipeline」と名付けられた独自の収集・クリーニングパイプラインで生成された。このパイプラインの公開はモデル重み公開と同じく重要な貢献だ。再現性のある高品質なデータ収集手順が整備されることで、他機関がデータを追加生成して知識を積み上げられる基盤になる。

データ構成を見ると、全2万時間のうち約40%がAliPayの実店舗・物流センターで収集されたリアルワールドデータ、残り60%が高品質シミュレーター（Isaac Sim、MuJoCo）で生成されたデータだ。リアルデータのタスクカテゴリは「物品の把持・移動・整列」「容器の開閉・内容物の操作」「複数ステップの組み立て操作」の3系統に分類される。各タスクには自然言語による指示ラベルが付与されており、VLA入力形式への変換が事前処理として組み込まれている。

シミュレーションデータのドメイン適応は、テクスチャランダム化とカメラポーズのオーグメンテーションで対処している。ただし論文の実験結果を見ると、シミュレーション → リアル転移のギャップは依然として課題として残っており、特に不定形物体（袋・布・食材）の操作精度でリアルデータ訓練モデルとの差が顕著だ。

OpenVLA・π0・GR00T N1との比較 — 基盤モデルの設計思想の違い

VLA基盤モデルの研究は2024年以降に急速に多様化した。Deep Signalでは以前、具身AI競争が転換期にある2026年の全体像を報告したが、LingBot-VLAはその中で「大企業発オープンソースモデル」という新しいポジションを占める。

代表的なVLAモデルとの比較を整理する。OpenVLA（スタンフォード大学、2024年）は汎用ロボット操作を対象にしたオープンソースモデルの先駆けだが、訓練データはOpen X-Embodimentデータセット（約100時間相当のデモ）に依存しており、スケールで差がある。Physical IntelligenceのπOs（π0）は2024年末に公開されたモデルで、73Bパラメータのロボティクス特化LLMをバックボーンに持つ。データスケール（Pi社の独自収集データ）と評価タスクの複雑さでLingBot-VLAを上回る部分があるが、重みは非公開のまま商用ライセンスに留まっている。NVIDIAのGR00T N1（2025年初頭）はヒューマノイドロボット向けの設計で、アームのみの操作に特化したLingBot-VLAとはターゲット市場が異なる。

LingBot-VLAが優位に立つのは「デュアルアーム特化」「完全オープンソース」「産業スケールの実データ」の3点の組み合わせだ。GPT-4Vレベルの視覚理解力を持つQwen2.5-VLを流用することで、ゼロからVision-Language事前学習する必要がなく、計算コストを行動学習に集中できた設計判断も効いている。

完全公開の意図と産業採用へのインパクト

LingBot-VLAがモデル・コード・データパイプラインを全て公開した背景には、Ant Groupの技術戦略上の判断がある。AliPayのロボット展開はデータ収集の機会として機能するが、LLMやVLAの開発競争でOpenAIやDeepMindに単独で対抗するのは現実的でない。オープンソース化によって外部研究者のファインチューニングやデータ貢献を呼び込み、エコシステムの中心に位置するポジションを確保する戦略だ。

産業採用の観点から見ると、LingBot-VLAのようなデュアルアーム特化モデルが公開されたことは、製造・物流・食品加工などのロボット導入コストを下げる可能性がある。従来はロボット制御AIを内製するか、高額なSIer（システムインテグレーター）ソリューションに依存していた中規模以下の企業が、LingBot-VLAをベースに独自環境でファインチューニングする選択肢を持てる。

推論速度の課題はまだ残る。LingBot-VLAの単フレームあたり推論時間は公表されていないが、Qwen2.5-VLのサイズ（7B〜72Bの複数バリアント）を考えると、消費者向けGPU（RTX 4090相当）では30fps以上のリアルタイム制御は難しい可能性がある。Deep Signalで紹介したHeiSD（VLA推論2.8倍高速化）のような最適化技術との組み合わせが、実用展開の条件になる。

VLA研究の1つの問いは「何を基盤モデルと呼ぶべきか」だ。LingBot-VLAがオープンソースとして公開されることで、この問いに対する実験が外部から加速する。筆者の読みでは、2026年末までにLingBot-VLAをバックボーンにしたファインチューニング済みモデルが複数公開され、デファクトの評価基準点として機能するシナリオは十分にある。

LingBot-VLA——Ant Groupが公開したデュアルアームロボット向けオープンソースVLA基盤モデルの技術解剖

Mixture of Transformers設計の本質 — なぜ単一モデルで9種のロボットに対応できるのか

RoboManip Pipeline — 2万時間のデータをどう集めたか

OpenVLA・π0・GR00T N1との比較 — 基盤モデルの設計思想の違い

完全公開の意図と産業採用へのインパクト

◇ ◇ 関連記事

HeiSD（arXiv:2603.17573）——ロボット制御VLAモデルを運動学的推測デコードで2.8倍高速化

具身AI競争が転換期——VLAモデルとオープンソースハードウェアが変える2026年のロボット産業

Vega：自然言語命令で自動運転を学習する新アーキテクチャ——arXiv論文解説