Deep Signal
ガイド

1-bit LLMが商用段階に——PrismML Bonsaiシリーズが示す「ビット当たりの知能密度」革命

Caltechの研究を基盤にKhosla Ventures・Google出資のPrismMLが、1-bitで実用性能を達成したBonsaiシリーズを公開。8Bモデルがわずか1.15GBで動作。

ソース: PrismML原文を読む →
1-bit LLMが商用段階に——PrismML Bonsaiシリーズが示す「ビット当たりの知能密度」革命

1-bit量子化が「使える」段階に到達した

LLMの量子化研究は長らく「精度を犠牲にしてサイズを削る」トレードオフの世界だった。PrismMLのBonsaiシリーズは、その常識を覆す。Caltechの研究を基盤に、Khosla Ventures、Google、Cerberus Capital Managementの支援を受けたPrismMLは、「ビット当たりの知能密度(intelligence per bit)」を最大化する新しいアプローチで、1-bitモデルの商用化に挑んでいる。

Bonsaiシリーズは3つのモデルサイズで展開される。フラグシップのBonsai 8Bは、通常の8Bモデルの14分の1のメモリ(わずか1.15GB)で動作し、RTX 4090で368 tokens/secという推論速度を達成する。ベンチマーク平均は70.5と、full-precisionモデルに迫る。

モデルラインナップと性能

Bonsaiシリーズの3モデルは、それぞれ異なるデプロイシナリオを想定している。

Bonsai 8B(1.15GB): デスクトップ/エッジサーバー向け。RTX 4090で368 tokens/sec、full-precisionの8倍高速。IFEval、GSM8K、HumanEval+、BFCL、MuSR、MMLU-Reduxの6ベンチマーク平均70.5。知能密度はfull-precision 8Bモデルの10倍と主張。

Bonsai 4B(0.57GB): ノートPC/タブレット向け。M4 Proで132 tokens/sec。速度とエネルギー効率を重視。

Bonsai 1.7B(0.24GB): スマートフォン/IoT向け。iPhone 17 Pro Maxで130 tokens/sec。完全なオンデバイス推論を実現。

なぜ1-bitが重要なのか

GPT-5.4やClaude Opus 4.6のような大型モデルが「能力の天井」を押し上げる一方で、推論コストとエネルギー消費は深刻な課題になっている。米上院がAIデータセンターの電力消費調査に乗り出すほど、この問題は政治的にも注目されている。

1-bitモデルは、この「大きければ大きいほど良い」パラダイムへのカウンターだ。0.074 mWh/tokenというBonsai 8Bのエネルギー効率は、データセンター運用者にとっても、エッジデバイスメーカーにとっても、コスト構造を根本から変える可能性がある。

S2D2からBonsaiへ——推論効率化の系譜

推論の効率化はDeep Signalで繰り返し取り上げてきたテーマだ。S2D2(Self-Speculative Decoding for Diffusion LLMs)は拡散LLMの推論を高速化する手法を提案し、HeiSD(arXiv:2603.17573)はVLAモデルの推論を運動学的推測デコードで2.8倍高速化した。

Bonsaiのアプローチは、これらとは異なるレイヤーで効率化を実現する。モデルの重みそのものを1-bitに圧縮することで、推論時のメモリ帯域と計算量を劇的に削減する。アルゴリズムの改善とモデル圧縮は相互補完的であり、両方を組み合わせることでさらなる効率化が期待できる。

商用展開への展望

PrismMLはモデルをHugging Faceで公開しており、ロボティクス、モバイル/エッジAI、リアルタイムエージェント、リソース制約環境をターゲットとしている。NVIDIA NemoCLAW等の企業向けAIエージェント基盤と組み合わせれば、「小さくて速いモデル」がエージェントの推論バックエンドとして現実的な選択肢になる。

「大きなモデルはスマートフォンに収まらない。データセンターもそれを維持できない」——PrismMLのキャッチフレーズは、2026年のAI業界が直面する根本的な矛盾を正面から突いている。

Deep Signal文脈——効率化のフロンティアが重なる

推論効率化は Deep Signal で繰り返し取り上げてきた最重要テーマの一つだ。S2D2はアルゴリズム層(推測デコード)で、HeiSDはドメイン固有層(ロボット制御VLA)で、そして Bonsai はモデル層(1-bit量子化)で、それぞれ異なるレイヤーから同じ目標——「より少ない計算資源でより多くの知能を引き出す」——に取り組んでいる。

これら3つのアプローチが相互排他的ではない点が重要だ。1-bitモデルに推測デコードを適用すれば、さらなる高速化が見込める。Physical Intelligenceのような具身AIスタートアップがエッジデバイスでリアルタイム推論を必要とする場面では、モデル圧縮とデコード最適化の組み合わせが不可欠になる。Bonsai の「ビット当たりの知能密度」という指標は、AIモデルの評価軸がパラメータ数や精度スコアから効率性へとシフトしていることの象徴だ。

#quantization#1-bit#edge-ai#efficiency#on-device#bonsai

◇ 関連記事

ScaleOps、1300億円超の大型調達——GPU不足とAIクラウドコスト高騰を自動最適化するKubernetes管理
トレンド解説3月30日TechCrunch

ScaleOps、1300億円超の大型調達——GPU不足とAIクラウドコスト高騰を自動最適化するKubernetes管理

AIインフラのGPUコスト最適化を手がけるScaleOpsがシリーズCで1億3000万ドルを調達。KubernetesのPod割り当てをリアルタイムで自動最適化し、GPUの無駄遣いを30〜60%削減できると主張する。OpenAIの8520億ドル調達、米上院のデータセンター電力消費調査、バッテリー企業のAIピボットといった複数のトレンドが合流するAIインフラコスト問題の解決策として注目を集めている。特にAI推論ワークロードの需要変動に対するダイナミックスケーリング、ダウンタイムなしのIn-Place Resource Update、GPUシェアリング機能が技術的差別化点。クラウドプロバイダーのネイティブ機能強化というプラットフォームリスクへの対応が長期的課題。

#GPU#Kubernetes#ScaleOps
HeiSD(arXiv:2603.17573)——ロボット制御VLAモデルを運動学的推測デコードで2.8倍高速化
論文解説3月30日arXiv

HeiSD(arXiv:2603.17573)——ロボット制御VLAモデルを運動学的推測デコードで2.8倍高速化

VLAモデルのリアルタイムロボット制御における推論遅延をハイブリッド推測デコードと運動学的知識の組み合わせで解決。350ms→138msのレイテンシ改善と2.8倍の推論高速化を達成しながら制御精度を維持した。推測デコードへの物理制約組み込みというアーキテクチャは、S2D2(純テキストLLMへの自己推測デコード)と補完的な研究として位置づけられる。R-C2が正確さを、HeiSDが速さを向上させ、具身AI商用化の両輪が同時進行することで実用化タイムラインが圧縮される。Physical IntelligenceのπOのような大型VLAへのプラグイン的適用が可能であり、具身AI産業全体の展開コスト効率を改善する可能性がある。「ドメイン固有の制約を推測プロセスに取り込む」設計思想は医療AI・材料設計AIなど他領域にも波及しうる。

#VLA#推測デコード#ロボット
S2D2:拡散LLMを高速化する「自己推測デコード」——論文が切り拓く新世代推論
論文解説3月27日arXiv

S2D2:拡散LLMを高速化する「自己推測デコード」——論文が切り拓く新世代推論

S2D2は拡散LLMの推論速度を大幅に改善するTraining-Free手法。同一モデル内で少ないデノイジングステップの粗い推測を多いステップの精密な検証が補正する「自己推測デコード」を実現。HeiSD(VLAモデルの推論2.8倍高速化、Deep Signal既報)と同じ推測デコードの思想をLLM領域に適用しており、R-C2(Deep Signal既報)と並び、2026年の「追加学習なしにAIの能力を引き出す」研究トレンドを代表する論文。

#拡散LLM#推論最適化#高速デコード