Ant Group傘下のロボティクス研究部門Robbyantが2026年1月に公開した「LingBot-VLA」は、デュアルアームロボット操作に特化したVision-Language-Action(VLA)基盤モデルだ。モデル重みとコード、データ収集ツール全てをオープンソースとして公開したことで、産業向けVLA研究のアクセスコストが大幅に下がった。
VLAモデルは、カメラ映像(Vision)と言語指示(Language)を入力として受け取り、ロボットの動作シーケンス(Action)を出力するアーキテクチャだ。2023年頃から研究が活発化したが、実世界の操作データを大量に必要とするため、産業規模のロボット群を持つ企業が優位に立つ傾向があった。LingBot-VLAはその非対称性を逆手に取り、Ant GroupのAliPayロボット展開で蓄積した2万時間の実操作データを学術・産業コミュニティに開放した形だ。
本稿では、LingBot-VLAのアーキテクチャ設計・訓練データ構成・他VLAモデルとの比較を、公開された論文と実装コードを参照しながら検証する。
Mixture of Transformers設計の本質 — なぜ単一モデルで9種のロボットに対応できるのか

LingBot-VLAの中核的な設計思想は「Mixture of Transformers(MoT)」だ。通常のTransformerが全ての入力に対して同一の重みを適用するのに対し、MoTは入力の種類(画像・言語・ロボット状態)に応じて異なるエキスパートTransformerブロックをルーティングする。Sparse MoE(Mixture of Experts)の概念をマルチモーダル入力のモダリティ分離に適用した形といえる。
バックボーンにはAlibaba QWENシリーズの最新マルチモーダルモデル「Qwen2.5-VL」を採用している。Qwen2.5-VLは視覚エンコーダとLLMの統合モデルとして2024年末に公開され、画像・動画・文書理解のベンチマークで競合モデルに優位を示している。LingBot-VLAはこのQwen2.5-VLにAction Head(行動出力層)を追加し、ロボット制御に転用した構造だ。
9種類のデュアルアームロボットへの対応は、MoTの設計から自然に導かれる。各ロボットの関節自由度・ツールエンドエフェクター・センサー構成が異なるため、通常のファインチューニングでは機体ごとにモデルを用意する必要がある。MoTでは「ロボット種別」をルーティングトークンとして扱い、機体固有のエキスパートを動的に選択することで、単一モデルがマルチロボット操作を処理する。Rethink RoboticsのSawyer、ABBのYuMi相当のロボット構成を含む9種での評価が報告されている。
RoboManip Pipeline — 2万時間のデータをどう集めたか

LingBot-VLAの訓練に使用された2万時間のロボット操作データは、「RoboManip Pipeline」と名付けられた独自の収集・クリーニングパイプラインで生成された。このパイプラインの公開はモデル重み公開と同じく重要な貢献だ。再現性のある高品質なデータ収集手順が整備されることで、他機関がデータを追加生成して知識を積み上げられる基盤になる。
データ構成を見ると、全2万時間のうち約40%がAliPayの実店舗・物流センターで収集されたリアルワールドデータ、残り60%が高品質シミュレーター(Isaac Sim、MuJoCo)で生成されたデータだ。リアルデータのタスクカテゴリは「物品の把持・移動・整列」「容器の開閉・内容物の操作」「複数ステップの組み立て操作」の3系統に分類される。各タスクには自然言語による指示ラベルが付与されており、VLA入力形式への変換が事前処理として組み込まれている。
シミュレーションデータのドメイン適応は、テクスチャランダム化とカメラポーズのオーグメンテーションで対処している。ただし論文の実験結果を見ると、シミュレーション → リアル転移のギャップは依然として課題として残っており、特に不定形物体(袋・布・食材)の操作精度でリアルデータ訓練モデルとの差が顕著だ。
OpenVLA・π0・GR00T N1との比較 — 基盤モデルの設計思想の違い

VLA基盤モデルの研究は2024年以降に急速に多様化した。Deep Signalでは以前、具身AI競争が転換期にある2026年の全体像を報告したが、LingBot-VLAはその中で「大企業発オープンソースモデル」という新しいポジションを占める。
代表的なVLAモデルとの比較を整理する。OpenVLA(スタンフォード大学、2024年)は汎用ロボット操作を対象にしたオープンソースモデルの先駆けだが、訓練データはOpen X-Embodimentデータセット(約100時間相当のデモ)に依存しており、スケールで差がある。Physical IntelligenceのπOs(π0)は2024年末に公開されたモデルで、73Bパラメータのロボティクス特化LLMをバックボーンに持つ。データスケール(Pi社の独自収集データ)と評価タスクの複雑さでLingBot-VLAを上回る部分があるが、重みは非公開のまま商用ライセンスに留まっている。NVIDIAのGR00T N1(2025年初頭)はヒューマノイドロボット向けの設計で、アームのみの操作に特化したLingBot-VLAとはターゲット市場が異なる。
LingBot-VLAが優位に立つのは「デュアルアーム特化」「完全オープンソース」「産業スケールの実データ」の3点の組み合わせだ。GPT-4Vレベルの視覚理解力を持つQwen2.5-VLを流用することで、ゼロからVision-Language事前学習する必要がなく、計算コストを行動学習に集中できた設計判断も効いている。
完全公開の意図と産業採用へのインパクト

LingBot-VLAがモデル・コード・データパイプラインを全て公開した背景には、Ant Groupの技術戦略上の判断がある。AliPayのロボット展開はデータ収集の機会として機能するが、LLMやVLAの開発競争でOpenAIやDeepMindに単独で対抗するのは現実的でない。オープンソース化によって外部研究者のファインチューニングやデータ貢献を呼び込み、エコシステムの中心に位置するポジションを確保する戦略だ。
産業採用の観点から見ると、LingBot-VLAのようなデュアルアーム特化モデルが公開されたことは、製造・物流・食品加工などのロボット導入コストを下げる可能性がある。従来はロボット制御AIを内製するか、高額なSIer(システムインテグレーター)ソリューションに依存していた中規模以下の企業が、LingBot-VLAをベースに独自環境でファインチューニングする選択肢を持てる。
推論速度の課題はまだ残る。LingBot-VLAの単フレームあたり推論時間は公表されていないが、Qwen2.5-VLのサイズ(7B〜72Bの複数バリアント)を考えると、消費者向けGPU(RTX 4090相当)では30fps以上のリアルタイム制御は難しい可能性がある。Deep Signalで紹介したHeiSD(VLA推論2.8倍高速化)のような最適化技術との組み合わせが、実用展開の条件になる。
VLA研究の1つの問いは「何を基盤モデルと呼ぶべきか」だ。LingBot-VLAがオープンソースとして公開されることで、この問いに対する実験が外部から加速する。筆者の読みでは、2026年末までにLingBot-VLAをバックボーンにしたファインチューニング済みモデルが複数公開され、デファクトの評価基準点として機能するシナリオは十分にある。



