1-bit LLMが商用段階に——PrismML Bonsaiシリーズが示す「ビット当たりの知能密度」革命

1-bit量子化が「使える」段階に到達した

LLMの量子化研究は長らく「精度を犠牲にしてサイズを削る」トレードオフの世界だった。PrismMLのBonsaiシリーズは、その常識を覆す。Caltechの研究を基盤に、Khosla Ventures、Google、Cerberus Capital Managementの支援を受けたPrismMLは、「ビット当たりの知能密度（intelligence per bit）」を最大化する新しいアプローチで、1-bitモデルの商用化に挑んでいる。

Bonsaiシリーズは3つのモデルサイズで展開される。フラグシップのBonsai 8Bは、通常の8Bモデルの14分の1のメモリ（わずか1.15GB）で動作し、RTX 4090で368 tokens/secという推論速度を達成する。ベンチマーク平均は70.5と、full-precisionモデルに迫る。

モデルラインナップと性能

Bonsaiシリーズの3モデルは、それぞれ異なるデプロイシナリオを想定している。

Bonsai 8B（1.15GB）: デスクトップ/エッジサーバー向け。RTX 4090で368 tokens/sec、full-precisionの8倍高速。IFEval、GSM8K、HumanEval+、BFCL、MuSR、MMLU-Reduxの6ベンチマーク平均70.5。知能密度はfull-precision 8Bモデルの10倍と主張。

Bonsai 4B（0.57GB）: ノートPC/タブレット向け。M4 Proで132 tokens/sec。速度とエネルギー効率を重視。

Bonsai 1.7B（0.24GB）: スマートフォン/IoT向け。iPhone 17 Pro Maxで130 tokens/sec。完全なオンデバイス推論を実現。

なぜ1-bitが重要なのか

GPT-5.4やClaude Opus 4.6のような大型モデルが「能力の天井」を押し上げる一方で、推論コストとエネルギー消費は深刻な課題になっている。米上院がAIデータセンターの電力消費調査に乗り出すほど、この問題は政治的にも注目されている。

1-bitモデルは、この「大きければ大きいほど良い」パラダイムへのカウンターだ。0.074 mWh/tokenというBonsai 8Bのエネルギー効率は、データセンター運用者にとっても、エッジデバイスメーカーにとっても、コスト構造を根本から変える可能性がある。

S2D2からBonsaiへ——推論効率化の系譜

推論の効率化はDeep Signalで繰り返し取り上げてきたテーマだ。S2D2（Self-Speculative Decoding for Diffusion LLMs）は拡散LLMの推論を高速化する手法を提案し、HeiSD（arXiv:2603.17573）はVLAモデルの推論を運動学的推測デコードで2.8倍高速化した。

Bonsaiのアプローチは、これらとは異なるレイヤーで効率化を実現する。モデルの重みそのものを1-bitに圧縮することで、推論時のメモリ帯域と計算量を劇的に削減する。アルゴリズムの改善とモデル圧縮は相互補完的であり、両方を組み合わせることでさらなる効率化が期待できる。

商用展開への展望

PrismMLはモデルをHugging Faceで公開しており、ロボティクス、モバイル/エッジAI、リアルタイムエージェント、リソース制約環境をターゲットとしている。NVIDIA NemoCLAW等の企業向けAIエージェント基盤と組み合わせれば、「小さくて速いモデル」がエージェントの推論バックエンドとして現実的な選択肢になる。

「大きなモデルはスマートフォンに収まらない。データセンターもそれを維持できない」——PrismMLのキャッチフレーズは、2026年のAI業界が直面する根本的な矛盾を正面から突いている。

Deep Signal文脈——効率化のフロンティアが重なる

推論効率化は Deep Signal で繰り返し取り上げてきた最重要テーマの一つだ。S2D2はアルゴリズム層（推測デコード）で、HeiSDはドメイン固有層（ロボット制御VLA）で、そして Bonsai はモデル層（1-bit量子化）で、それぞれ異なるレイヤーから同じ目標——「より少ない計算資源でより多くの知能を引き出す」——に取り組んでいる。

これら3つのアプローチが相互排他的ではない点が重要だ。1-bitモデルに推測デコードを適用すれば、さらなる高速化が見込める。Physical Intelligenceのような具身AIスタートアップがエッジデバイスでリアルタイム推論を必要とする場面では、モデル圧縮とデコード最適化の組み合わせが不可欠になる。Bonsai の「ビット当たりの知能密度」という指標は、AIモデルの評価軸がパラメータ数や精度スコアから効率性へとシフトしていることの象徴だ。

1-bit LLMが商用段階に——PrismML Bonsaiシリーズが示す「ビット当たりの知能密度」革命

1-bit量子化が「使える」段階に到達した

モデルラインナップと性能

なぜ1-bitが重要なのか

S2D2からBonsaiへ——推論効率化の系譜

商用展開への展望

Deep Signal文脈——効率化のフロンティアが重なる

◇ ◇ 関連記事

ScaleOps、1300億円超の大型調達——GPU不足とAIクラウドコスト高騰を自動最適化するKubernetes管理

HeiSD（arXiv:2603.17573）——ロボット制御VLAモデルを運動学的推測デコードで2.8倍高速化

S2D2：拡散LLMを高速化する「自己推測デコード」——論文が切り拓く新世代推論