Deep Signal
ガイド

1-bit LLMが商用段階に——PrismML Bonsaiシリーズが示す「ビット当たりの知能密度」革命

Caltechの研究を基盤にKhosla Ventures・Google出資のPrismMLが、1-bitで実用性能を達成したBonsaiシリーズを公開。8Bモデルがわずか1.15GBで動作。

ソース: PrismML原文を読む →
1-bit LLMが商用段階に——PrismML Bonsaiシリーズが示す「ビット当たりの知能密度」革命

1-bit量子化が「使える」段階に到達した

LLMの量子化研究は長らく「精度を犠牲にしてサイズを削る」トレードオフの世界だった。PrismMLのBonsaiシリーズは、その常識を覆す。Caltechの研究を基盤に、Khosla Ventures、Google、Cerberus Capital Managementの支援を受けたPrismMLは、「ビット当たりの知能密度(intelligence per bit)」を最大化する新しいアプローチで、1-bitモデルの商用化に挑んでいる。

Bonsaiシリーズは3つのモデルサイズで展開される。フラグシップのBonsai 8Bは、通常の8Bモデルの14分の1のメモリ(わずか1.15GB)で動作し、RTX 4090で368 tokens/secという推論速度を達成する。ベンチマーク平均は70.5と、full-precisionモデルに迫る。

モデルラインナップと性能

Bonsaiシリーズの3モデルは、それぞれ異なるデプロイシナリオを想定している。

Bonsai 8B(1.15GB): デスクトップ/エッジサーバー向け。RTX 4090で368 tokens/sec、full-precisionの8倍高速。IFEval、GSM8K、HumanEval+、BFCL、MuSR、MMLU-Reduxの6ベンチマーク平均70.5。知能密度はfull-precision 8Bモデルの10倍と主張。

Bonsai 4B(0.57GB): ノートPC/タブレット向け。M4 Proで132 tokens/sec。速度とエネルギー効率を重視。

Bonsai 1.7B(0.24GB): スマートフォン/IoT向け。iPhone 17 Pro Maxで130 tokens/sec。完全なオンデバイス推論を実現。

なぜ1-bitが重要なのか

GPT-5.4やClaude Opus 4.6のような大型モデルが「能力の天井」を押し上げる一方で、推論コストとエネルギー消費は深刻な課題になっている。米上院がAIデータセンターの電力消費調査に乗り出すほど、この問題は政治的にも注目されている。

1-bitモデルは、この「大きければ大きいほど良い」パラダイムへのカウンターだ。0.074 mWh/tokenというBonsai 8Bのエネルギー効率は、データセンター運用者にとっても、エッジデバイスメーカーにとっても、コスト構造を根本から変える可能性がある。

S2D2からBonsaiへ——推論効率化の系譜

推論の効率化はDeep Signalで繰り返し取り上げてきたテーマだ。S2D2(Self-Speculative Decoding for Diffusion LLMs)は拡散LLMの推論を高速化する手法を提案し、HeiSD(arXiv:2603.17573)はVLAモデルの推論を運動学的推測デコードで2.8倍高速化した。

Bonsaiのアプローチは、これらとは異なるレイヤーで効率化を実現する。モデルの重みそのものを1-bitに圧縮することで、推論時のメモリ帯域と計算量を劇的に削減する。アルゴリズムの改善とモデル圧縮は相互補完的であり、両方を組み合わせることでさらなる効率化が期待できる。

商用展開への展望

PrismMLはモデルをHugging Faceで公開しており、ロボティクス、モバイル/エッジAI、リアルタイムエージェント、リソース制約環境をターゲットとしている。NVIDIA NemoCLAW等の企業向けAIエージェント基盤と組み合わせれば、「小さくて速いモデル」がエージェントの推論バックエンドとして現実的な選択肢になる。

「大きなモデルはスマートフォンに収まらない。データセンターもそれを維持できない」——PrismMLのキャッチフレーズは、2026年のAI業界が直面する根本的な矛盾を正面から突いている。

#quantization#1-bit#edge-ai#efficiency#on-device#bonsai

関連記事

具身AI競争が転換期——VLAモデルとオープンソースハードウェアが変える2026年のロボット産業
トレンド解説3月30日arXiv / TechCrunch

具身AI競争が転換期——VLAモデルとオープンソースハードウェアが変える2026年のロボット産業

Physical Intelligenceの10億ドル調達、オープンソースのRuka-v2ロボットハンド公開、VLAモデル研究の爆発的増加。2026年、具身AIは産業投資とオープンエコシステムが同時進行で成熟する稀有な転換期を迎えた。汎用ロボット実現の方程式が書き換えられつつある。

#具身AI#VLA#ロボット
HeiSD(arXiv:2603.17573)——ロボット制御VLAモデルを運動学的推測デコードで2.8倍高速化
論文解説3月30日arXiv

HeiSD(arXiv:2603.17573)——ロボット制御VLAモデルを運動学的推測デコードで2.8倍高速化

VLAモデルのリアルタイムロボット制御における推論遅延をハイブリッド推測デコードと運動学的知識の組み合わせで解決。350ms→138msのレイテンシ改善と2.8倍の推論高速化を達成しながら制御精度を維持した。ロボット制御AIの商用展開を加速させる可能性がある。

#VLA#推測デコード#ロボット
フィジカルAIのPhysical Intelligence、再び10億ドル調達へ——4ヶ月で企業価値2倍超の衝撃
速報ニュース3月28日TechCrunch

フィジカルAIのPhysical Intelligence、再び10億ドル調達へ——4ヶ月で企業価値2倍超の衝撃

ロボット向けAI基盤モデル「π」を開発するPhysical Intelligenceが、10億ドルの新規調達を交渉中と報じられた。2026年1月の前回ラウンドからわずか4ヶ月での大規模調達は、フィジカルAI市場の過熱ぶりを象徴している。

#フィジカルAI#ロボティクス#Physical Intelligence