「推論できる」と「手続きを実行できる」は別物だった——14モデル55データセットが見せた失敗パターン

大規模言語モデル（LLM）が、5ステップの手続きでは平均61%の正解率を出しているのに、ステップ数を95に増やしただけで20%まで崩れる——2026年5月1日に arXiv で公開された論文が、14モデル・55データセットの実証データでこの数値を示した。注目すべきは数字そのものではない。「推論能力ベンチマークの高得点」と「指示通りに手続きを実行する能力」が、別の能力として分離する瞬間を、設計された診断テストで切り出したことだ。エージェント設計の現場が無自覚に踏んでいる前提が、ここで一つ崩れている。

+ +

何を測ったか——手続き的実行ベンチマークの設計

+ +

論文の問いは単純である。LLM が「最終的な答えを出す精度」と「途中の手続きを忠実に実行する精度」は同じものか。著者らは、ステップ単位の算術アルゴリズムと2つの数値入力を与え、計算結果を返させるという制御された診断ベンチマークを組んだ。アルゴリズム長と「中間変数への参照（look-back dependencies）」を増やすことで複雑度を段階的に上げる構造で、推論の深さではなく「手続きの忠実度」だけを切り出して測る設計になっている。

+ +

結果として、全モデル平均で5ステップ手続きの初回正解率は61%、95ステップでは20%。算術演算という単純な操作だけを使っているにもかかわらず、ステップ数の増加に対して急激に劣化する。著者の言葉を借りれば、「外見上の推論能力の高さが、忠実な命令実行の弱点を覆い隠している可能性がある」。

+ +

ここで重要なのは——「推論能力」と「忠実実行」の分離

+ +

編集委員の読みとしては、この論文の貢献は数値そのものより、ベンチマーク設計が立てた「分離の軸」のほうにある。推論能力を測る既存ベンチマーク（MATH、GSM8K、AIME）は、最終解の正解率で評価する。途中の手続きが正しいかは問われない。だからこそ DeepSeek-R1 は AIME 2024 で 79.8%、MATH-500 で 97.3%といった高い数字を出せる。だがその数字は「最終解にたどり着く能力」であって、「途中で指示された手続きを書き換えずに維持する能力」ではない。

+ +

裏を返せば、現在のエージェント設計は後者の能力を暗黙の前提にしている。タスクを細かく分解してステップ列に流す設計は、各ステップが指示通り実行されるという仮定の上に立つ。この仮定が、診断ベンチマークでは破綻する。

+ +

失敗パターンが示す構造——5つの逸脱

+ +

LLMの手続き的実行で観察される5つの失敗パターン——欠落・打ち切り・自己訂正後の誤答・省略・幻覚的追加 — 論文が抽出した5つの失敗パターン。手続きの忠実な実行が崩れる構造を示す

+ +

論文は失敗の生成を分析し、5つの典型的な逸脱を抽出している。①回答が抜け落ちる（missing answers）、②途中で打ち切る（premature answers）、③初期誤りの後で自己訂正したつもりが誤答へ流れる、④途中ステップが省略される（under-executed traces）、⑤指定されていないステップを幻覚的に追加する（hallucinated extra steps）。

+ +

このリストは、LLM が「ステップを実行している」のではなく「ステップを実行しているように見える出力を生成している」という構造仮説と一貫する。Instruction Gap 論文も類似の現象を指摘していて、LLM は多段命令連鎖の中で徐々に元の指示から逸脱し、最終ステップで元の目標とは異なる動作に到達することがあるとした。Amazon Science の NeurIPS 2025 論文「When Thinking Fails」はさらに踏み込んで、「Chain-of-Thought 推論がむしろ命令追従を妨げることがある」と結論づけた。思考プロセスが、与えられた制約の一部を「解釈して上書きする」のだ。

+ +

先行研究の系譜——これは突発的な発見ではない

+ +

2025年11月の FSM Execution 論文では、最大モデル Qwen3-235B でも全体タスク正解率が約50%で頭打ちになることが示されていた。同論文は、ローカルな精度（1ステップの正答率）は高いが、長期依存が入った瞬間に失敗率が急増する現象を、Finite State Machine という最も骨格的な手続き表現で再現している。2025年12月の ReasonBENCH はさらに別の角度から、推論戦略の「不安定性」を定量化した。最高性能を出す推論手法は、信頼区間が4倍広く、コストも高い。シングルラン精度で評価する従来の慣行は、確率的な不安定性を見逃している、と。

+ +

つまり「LLM は長期手続きで崩れる」という観察自体は、deepsignal で扱ってきた HIVE のような多段推論 RAGやコーディングエージェントの PR 却下分析でも、別の表現で繰り返し示されている。今回の論文は、その観察を「最も単純な手続き＝算術アルゴリズム」という形で切り出し、誰が見ても再現可能な数値に落とし込んだ点で意味を持つ。

+ +

計画フェーズで補えるのか——反論と再反論

+ +

「事前に計画を立てさせる多段アーキテクチャなら、忠実実行の問題は緩和できる」という反論がある。実際、ICLR 2025 の段階的行動計画フレームワークや事前計画フェーズを組み込むエージェント設計は、行動精度を改善できると報告している。計画と実行を分離するアーキテクチャの有効性は、複数の論文で確認されている。

+ +

ここで重要なのは、しかし、計画自体もまた LLM の出力であるという点だ。今回の手続き的実行論文は、LLM が「計画されたステップを忠実に実行する能力」を測っている。計画の質が高くても、実行段階で5番目のステップを抜かしたり、勝手に追加したりするなら、計画フェーズが救うのは初期の方向決定だけだ。長期エージェントの脆弱性は、設計層を増やすことでは構造的には解けない。

+ +

エージェント設計への含意——上限ステップ数という未定義の前提

+ +

業界がいま設計しているエージェントワークフローは、何ステップで動いているか。コーディングエージェント、ロボット制御の VLA モデル、自動研究エージェント——いずれも数十ステップから数百ステップに及ぶ。論文の数値を額面通り受け取れば、95ステップの段階で平均20%の正解率しか期待できないモデルを、本番で動かしていることになる。

+ +

公式発表では触れられていないが、この問題はエージェントのセキュリティ設計とも地続きだ。プロンプトインジェクションは「攻撃ステップを LLM に実行させる」攻撃で、そもそも LLM が「何を実行すべきステップとして認識するか」が曖昧であることに依存している。手続きの忠実度が低いということは、攻撃側の指示も忠実に実行されないかもしれないし、逆に元の指示を上書きされやすいことも意味する。脆弱性の方向は両側に開いている。

+ +

残された問い——半年後に何が分かれば判断できるか

+ +

編集委員の読みとしては、3つの観測軸を持っておきたい。第一に、ベンチマークが手続き忠実度の専用評価を組み込むかどうか。LXT の現状分析が指摘するように、既存ベンチマークは企業の実運用と乖離している。今回の診断手法が標準化されれば、モデルカードの「推論性能」項目が、おそらく分解される。

+ +

第二に、商用エージェント製品が「想定ステップ数」を公開するか。現状、複数ステップを跨ぐエージェントの上限ステップ数は事実上未定義のまま売られている。Sebastian Raschka の年次総括も、長期依存タスクとエージェント的動作が依然として最大の課題領域であることを認めている。第三に、強化学習による推論強化（DeepSeek-R1 系）が、ベンチマーク数値だけでなく手続き忠実度も改善しているかどうか。今回の論文の評価軸を後から RL 訓練済みモデルに当てれば、これは数ヶ月で確認できる。

+ +

「推論できる」と「実行できる」は同じ能力ではない。この発表だけでは判断できないが、エージェントを本番運用する側は、自分のシステムが何ステップで動いていて、どの段階で実行精度が崩れているかを、独自に測る必要がある。ベンチマーク順位だけを見て発注している間は、自社プロダクトに何が積まれているかが見えない。