Deep Signal
論文解説

LingBot-VLA——Ant Groupが公開したデュアルアームロボット向けオープンソースVLA基盤モデルの技術解剖

Ant Group傘下Robbyantが公開したVLA基盤モデル「LingBot-VLA」の技術解剖。2万時間の実世界ロボット操作データ、Qwen2.5-VLバックボーンのMixture of Transformers設計、9種類のデュアルアームロボット対応など、モデル・データ・コードを完全公開した産業向けVLAの設計思想を検証する。

ソース: Robbyant / Ant Group原文を読む →
LingBot-VLA——Ant Groupが公開したデュアルアームロボット向けオープンソースVLA基盤モデルの技術解剖

Ant Group傘下のロボティクス研究部門Robbyantが2026年1月に公開した「LingBot-VLA」は、デュアルアームロボット操作に特化したVision-Language-Action(VLA)基盤モデルだ。モデル重みとコード、データ収集ツール全てをオープンソースとして公開したことで、産業向けVLA研究のアクセスコストが大幅に下がった。

VLAモデルは、カメラ映像(Vision)と言語指示(Language)を入力として受け取り、ロボットの動作シーケンス(Action)を出力するアーキテクチャだ。2023年頃から研究が活発化したが、実世界の操作データを大量に必要とするため、産業規模のロボット群を持つ企業が優位に立つ傾向があった。LingBot-VLAはその非対称性を逆手に取り、Ant GroupのAliPayロボット展開で蓄積した2万時間の実操作データを学術・産業コミュニティに開放した形だ。

本稿では、LingBot-VLAのアーキテクチャ設計・訓練データ構成・他VLAモデルとの比較を、公開された論文と実装コードを参照しながら検証する。

Mixture of Transformers設計の本質 — なぜ単一モデルで9種のロボットに対応できるのか

LingBot-VLA アーキテクチャ概念図

LingBot-VLAの中核的な設計思想は「Mixture of Transformers(MoT)」だ。通常のTransformerが全ての入力に対して同一の重みを適用するのに対し、MoTは入力の種類(画像・言語・ロボット状態)に応じて異なるエキスパートTransformerブロックをルーティングする。Sparse MoE(Mixture of Experts)の概念をマルチモーダル入力のモダリティ分離に適用した形といえる。

バックボーンにはAlibaba QWENシリーズの最新マルチモーダルモデル「Qwen2.5-VL」を採用している。Qwen2.5-VLは視覚エンコーダとLLMの統合モデルとして2024年末に公開され、画像・動画・文書理解のベンチマークで競合モデルに優位を示している。LingBot-VLAはこのQwen2.5-VLにAction Head(行動出力層)を追加し、ロボット制御に転用した構造だ。

9種類のデュアルアームロボットへの対応は、MoTの設計から自然に導かれる。各ロボットの関節自由度・ツールエンドエフェクター・センサー構成が異なるため、通常のファインチューニングでは機体ごとにモデルを用意する必要がある。MoTでは「ロボット種別」をルーティングトークンとして扱い、機体固有のエキスパートを動的に選択することで、単一モデルがマルチロボット操作を処理する。Rethink RoboticsのSawyer、ABBのYuMi相当のロボット構成を含む9種での評価が報告されている。

RoboManip Pipeline — 2万時間のデータをどう集めたか

ロボット操作訓練データ収集パイプライン

LingBot-VLAの訓練に使用された2万時間のロボット操作データは、「RoboManip Pipeline」と名付けられた独自の収集・クリーニングパイプラインで生成された。このパイプラインの公開はモデル重み公開と同じく重要な貢献だ。再現性のある高品質なデータ収集手順が整備されることで、他機関がデータを追加生成して知識を積み上げられる基盤になる。

データ構成を見ると、全2万時間のうち約40%がAliPayの実店舗・物流センターで収集されたリアルワールドデータ、残り60%が高品質シミュレーター(Isaac Sim、MuJoCo)で生成されたデータだ。リアルデータのタスクカテゴリは「物品の把持・移動・整列」「容器の開閉・内容物の操作」「複数ステップの組み立て操作」の3系統に分類される。各タスクには自然言語による指示ラベルが付与されており、VLA入力形式への変換が事前処理として組み込まれている。

シミュレーションデータのドメイン適応は、テクスチャランダム化とカメラポーズのオーグメンテーションで対処している。ただし論文の実験結果を見ると、シミュレーション → リアル転移のギャップは依然として課題として残っており、特に不定形物体(袋・布・食材)の操作精度でリアルデータ訓練モデルとの差が顕著だ。

OpenVLA・π0・GR00T N1との比較 — 基盤モデルの設計思想の違い

VLAモデル比較と設計思想

VLA基盤モデルの研究は2024年以降に急速に多様化した。Deep Signalでは以前、具身AI競争が転換期にある2026年の全体像を報告したが、LingBot-VLAはその中で「大企業発オープンソースモデル」という新しいポジションを占める。

代表的なVLAモデルとの比較を整理する。OpenVLA(スタンフォード大学、2024年)は汎用ロボット操作を対象にしたオープンソースモデルの先駆けだが、訓練データはOpen X-Embodimentデータセット(約100時間相当のデモ)に依存しており、スケールで差がある。Physical IntelligenceのπOs(π0)は2024年末に公開されたモデルで、73Bパラメータのロボティクス特化LLMをバックボーンに持つ。データスケール(Pi社の独自収集データ)と評価タスクの複雑さでLingBot-VLAを上回る部分があるが、重みは非公開のまま商用ライセンスに留まっている。NVIDIAのGR00T N1(2025年初頭)はヒューマノイドロボット向けの設計で、アームのみの操作に特化したLingBot-VLAとはターゲット市場が異なる。

LingBot-VLAが優位に立つのは「デュアルアーム特化」「完全オープンソース」「産業スケールの実データ」の3点の組み合わせだ。GPT-4Vレベルの視覚理解力を持つQwen2.5-VLを流用することで、ゼロからVision-Language事前学習する必要がなく、計算コストを行動学習に集中できた設計判断も効いている。

完全公開の意図と産業採用へのインパクト

オープンソースVLAの産業展開シナリオ

LingBot-VLAがモデル・コード・データパイプラインを全て公開した背景には、Ant Groupの技術戦略上の判断がある。AliPayのロボット展開はデータ収集の機会として機能するが、LLMやVLAの開発競争でOpenAIやDeepMindに単独で対抗するのは現実的でない。オープンソース化によって外部研究者のファインチューニングやデータ貢献を呼び込み、エコシステムの中心に位置するポジションを確保する戦略だ。

産業採用の観点から見ると、LingBot-VLAのようなデュアルアーム特化モデルが公開されたことは、製造・物流・食品加工などのロボット導入コストを下げる可能性がある。従来はロボット制御AIを内製するか、高額なSIer(システムインテグレーター)ソリューションに依存していた中規模以下の企業が、LingBot-VLAをベースに独自環境でファインチューニングする選択肢を持てる。

推論速度の課題はまだ残る。LingBot-VLAの単フレームあたり推論時間は公表されていないが、Qwen2.5-VLのサイズ(7B〜72Bの複数バリアント)を考えると、消費者向けGPU(RTX 4090相当)では30fps以上のリアルタイム制御は難しい可能性がある。Deep Signalで紹介したHeiSD(VLA推論2.8倍高速化)のような最適化技術との組み合わせが、実用展開の条件になる。

VLA研究の1つの問いは「何を基盤モデルと呼ぶべきか」だ。LingBot-VLAがオープンソースとして公開されることで、この問いに対する実験が外部から加速する。筆者の読みでは、2026年末までにLingBot-VLAをバックボーンにしたファインチューニング済みモデルが複数公開され、デファクトの評価基準点として機能するシナリオは十分にある。

#VLA#LingBot-VLA#ロボティクス#基盤モデル#オープンソース

◇ 関連記事

HeiSD(arXiv:2603.17573)——ロボット制御VLAモデルを運動学的推測デコードで2.8倍高速化
論文解説3月30日arXiv

HeiSD(arXiv:2603.17573)——ロボット制御VLAモデルを運動学的推測デコードで2.8倍高速化

VLAモデルのリアルタイムロボット制御における推論遅延をハイブリッド推測デコードと運動学的知識の組み合わせで解決。350ms→138msのレイテンシ改善と2.8倍の推論高速化を達成しながら制御精度を維持した。推測デコードへの物理制約組み込みというアーキテクチャは、S2D2(純テキストLLMへの自己推測デコード)と補完的な研究として位置づけられる。R-C2が正確さを、HeiSDが速さを向上させ、具身AI商用化の両輪が同時進行することで実用化タイムラインが圧縮される。Physical IntelligenceのπOのような大型VLAへのプラグイン的適用が可能であり、具身AI産業全体の展開コスト効率を改善する可能性がある。「ドメイン固有の制約を推測プロセスに取り込む」設計思想は医療AI・材料設計AIなど他領域にも波及しうる。

#VLA#推測デコード#ロボット
具身AI競争が転換期——VLAモデルとオープンソースハードウェアが変える2026年のロボット産業
トレンド解説3月30日arXiv / TechCrunch

具身AI競争が転換期——VLAモデルとオープンソースハードウェアが変える2026年のロボット産業

2026年、具身AI(Embodied AI)競争が決定的な転換期を迎えた。Physical IntelligenceのVLAベース汎用ロボットモデル(π0)、オープンソースロボットハンドRuka-v2、ヒューマノイドロボットへの大規模投資を分析。HeiSDのVLA推論高速化(350ms→138ms、2.8倍)とVegaの自動運転VLA適用を経て、「資金調達・推論速度・ドメイン適用」の3ベクトルが同時進行することで技術的成熟のフライホイールが回り始めている。「ロボットのためのLinux」という構想が現実味を帯びる転換点としての2026年を包括的に描写。

#具身AI#VLA#ロボット
Vega:自然言語命令で自動運転を学習する新アーキテクチャ——arXiv論文解説
論文解説3月27日arXiv

Vega:自然言語命令で自動運転を学習する新アーキテクチャ——arXiv論文解説

arXiv論文VegaはVLA(Vision-Language-Action)アーキテクチャで自然言語指示を直接自動運転学習に活用。走行スタイルを「穏やかに」「急いでいるが法令遵守」と自然言語で指定でき、個人の嗜好プロファイルをゼロショットで適応。具身AI(Physical Intelligence等)のVLAモデルと同じ問題構造を持ち、HeiSD論文の推論高速化(350ms→138ms)は自動運転への応用でも重要。自然言語エージェント設計の曖昧性問題を高リスクドメインで解こうとする先駆的研究。CARLA実験でスタイル適合度の大幅向上を示した。

#自動運転#自然言語処理#強化学習