LLMの外部記憶は「記憶」ではなく「補装具」である——Meminiが提示する自律再編成と、生物インスパイアド30年の轍

「LLMは訓練後に何も学ばない」——この弱点に対する処方箋として、Engram、MemGPT、Oc-mnemoria のような外部メモリ製品の流通が加速している。だが先週公開された arXiv 論文 Memini（多タイムスケール記憶ダイナミクス）は、この方向性を真っ向から疑う立場をとった。「現在の外部メモリは記憶ではない。それは補装具である」——著者らの含意を踏み込んで言い直すと、こうなる。本稿は LLM エージェントを設計・運用するエンジニアと、メモリ層に Engram や RAG を組み込もうとしているプロダクトマネージャーに向けて、Memini が提示する Benna-Fusi 型の自律再編成記憶を、生物インスパイアド計算が辿ってきた失敗史と並べて読み、なぜこのアプローチが「過去と同じ轍を踏まない可能性」を持つのか、しかし「どこで踏むか」を編集委員の視点で分解する。先に結論を出しておく。Memini の意義は新規性ではなく、記憶の定義そのものを書き換えようとしている点にある。それが工学的に成立するかは、計算量・選択的忘却の規制適合性・再現可能性という 3 つの壁にかかっている。

「学習している」ように見えて、学んでいない LLM

LLM の根本的な癖がひとつある。重みは事前学習と微調整で決定された後、本番運用中には書き換わらない。推論能力と手続き的忠実実行の乖離を扱った直近の議論でも触れたとおり、LLM は「ステップ数が増えるほど精度を落とす」傾向を持つが、これと並行して別の問題が走っている。世界の方が変わっても、モデルは変わらない。新薬の承認が出ても、規制が変わっても、技術スタックが置き換わっても、訓練データの cutoff 以降の事象についてモデルは何も知らない。これが「凍結された世界観」と呼ばれる現象だ。

業界はこれに対して 2 つの応答を試みてきた。1 つは継続的な微調整——LoRA・継続学習・catastrophic forgetting の研究系譜。もう 1 つは外部メモリ——RAG、ベクトル DB、エージェント向けメモリ製品。先日 TechCrunch が報じた「AI 経済の設計者たち」のインタビューでは、登壇者の 1 人 Eve Bodnia が「LLM が継続的には学ばないこと自体が、AI を実運用に組み込もうとする企業にとって最も厄介な制約だ」と指摘していた。継続的に学ばないという制約が、ビジネスとしての設計上の前提になりつつある。

この前提は領域によって深刻さが違う。医療 AI のカスタマイズに関する MIT Tech Review の最近の特集は、新しい治療ガイドライン・新薬の承認・プロトコル変更にモデルが追随しないことが現場の意思決定に直接響くと指摘している。汎用ニュースの賞味期限切れと、医療や規制業界での賞味期限切れは、起きていることは同じでも帰結のスケールが違う。

Engram、MemGPT、Oc-mnemoria——記憶を提供しているのか

外部メモリ側の解は急速に商品化されつつある。Engram は AI コーディングエージェント向けメモリで、LOCOMO ベンチマーク 80% を達成し 2,500 以上のインストールを記録した。Oc-mnemoria は Show HN 経由で広がった OSS プロジェクトで、エージェントが過去のセッションを跨いでコンテキストを保持する機能を提供する。学術側では MemGPT が、OS の階層メモリに着想を得たページング型のコンテキスト管理を提案して以降、派生実装が無数に生まれている。

これらに共通する設計上の前提が 1 つある。メモリ階層の管理は、外部から明示的に行われる。何を保存するか、何を呼び出すか、何を捨てるかは、エンジニアが書いたルール、あるいは別の LLM 呼び出しによって決定される。Memini の著者らはここを批判する。これは「記憶」ではない、と。記憶している主体（モデル）と、記憶を整理する主体（外部のロジック）が分離している。生物の記憶系では、この分離は存在しない。海馬と新皮質は明示的なオペレータなしに、刺激のパターンと頻度から自律的に再編成される。

裏を返せば、これまでの「外部メモリ」は記憶ではなく、記憶の補装具である——LLM 本体が記憶できないという欠損を、別の系（外部ストレージ + 検索ロジック）で代替的に補っている。補装具と記憶は機能的には類似していても、構造的には違う。記憶は内側で動く、補装具は外側に取り付ける。Memini の問題提起は、この区別を明示的に立てた点にある。

補装具としての外部メモリ（モデルの外側に取り付けられた装置）と、内側で自律的に再編成される記憶系の対比 — 補装具と記憶の構造的差異——外側に取り付けるか、内側で再編成されるか

Memini が提案する 2 タイムスケールのダイナミクス

Memini の中核は、連想記憶を有向グラフとして実装し、各エッジに 2 つの内部変数（高速・低速）を持たせる設計だ。これは神経科学者 Stefano Fusi らが 2010 年代に提案した Benna-Fusi モデル——シナプス可塑性の固定化過程をマルチスケールで記述する数理モデル——を、人工的な連想記憶に転用したものとされる。高速変数は短期的な経験を即座に取り込み、低速変数はその経験のうち繰り返し起動されたものだけを長期化する。両者は連結された動態として進化し、独立した「短期記憶バッファ」と「長期メモリ」を分けて運用する従来のアーキテクチャとは違う。

この設計から 3 つの性質が「単一メカニズムから創発する」と論文は主張する。エピソード感受性（その場限りの出来事を即座に記録できる）、漸進的固定化（重要なものだけが時間とともに耐性を獲得する）、選択的忘却（使われない記憶は系から消える）。明示的なオペレータが 3 つの操作を区別するのではなく、2 タイムスケールの自然な動態として全てが派生する——これが論文の核心だ。記憶を「保存される情報」ではなく時間とともに変容する構造として捉える視点については、知識ベース側で「記憶と時間」という概念で別途整理している。

Benna-Fusi の前にあったもの——生物インスパイアド記憶の系譜

ここで重要なのは、生物の記憶機構を AI に移植する試みは Memini が初めてではないことだ。1980 年代の Hopfield ネットワーク、Izhikevich の SNN モデル (2003)、2010 年代の Differentiable Neural Computer——ニューラルネットワークに生物模倣の機構や微分可能な外部メモリを統合する試み。これらに共通するのは、論文発表時の華やかさと、5 年後にスケールしないと判明する展開だった。

過去の失敗パターンは大きく 3 つに分類できる。第 1 に、計算量の壁——生物の記憶機構を素直に実装すると、シナプス数とエッジ数の積で計算コストが発散する。第 2 に、転移可能性の貧しさ——おもちゃ問題では動くが、現実のマルチドメインタスクで挙動が崩れる。第 3 に、解釈不能性——内部状態の意味が研究者にも分からなくなり、デバッグ手段がなくなる。

Memini が「同じ轍を踏まない可能性」を持つとすれば、それは設計の野心を最小化したからだ。新しいアーキテクチャを発明したのではなく、既存の連想記憶グラフ——業界が外部メモリで既に使っている構造——に「2 つの内部変数を持たせるだけ」という増分的な変更にとどまっている。この控えめさは戦略的かもしれない。

編集委員の読み——3 つの実装可能性の壁

とはいえ保留より一歩踏み込みたい。Memini が現実に動くとして、3 つの壁が見える。

1 つ目は計算量だ。論文は連想記憶のエッジ数増加にともなう計算コストについて明示的な議論を欠いている。エンタープライズ規模の知識ベース——数百万エンティティ、数千万関連性——でグラフを運用するとき、エッジごとに 2 つの内部変数を時間発展させる計算は、現状の RAG が前提とする秒単位の応答時間を満たせるか。これは「ベンチマークでは動いた」と「本番で動く」の間に横たわる典型的な未解決問題で、論文だけからは判断できない。

2 つ目は選択的忘却が引き起こす規制不適合のリスクだ。公式発表では触れられていないが、Benna-Fusi モデルの「使われない記憶は系から消える」という性質は、エンタープライズ用途と根本的に相容れない。監査ログ、医療記録、金融取引履歴。これらは「忘れてはいけない」記憶であり、規制要件として保持義務がかかっている。Memini が掲げる自律的忘却は、SaaS や規制業界での導入を構造的に阻害する。医療 AI のカスタマイズでは特に致命的になる。Memini を実用化するなら、選択的忘却を「設定可能なポリシー」として外部化する追加レイヤーが必要だが、それを入れると論文の核心であった「自律性」は半分失われる。

3 つ目は再現可能性だ。論文の現時点の公開資料からは、実装コードと評価ベンチマークの公開状況が確認できない。これが「コード未公開、ベンチマーク自社測定」のパターンに陥ると、過去のニューロモーフィック系論文と同じ消え方をする。Memini が記憶の定義を更新する論文として残るか、5 年後に「あれは何だったか」のリストに加わるかは、3 か月以内のオープンソース化と、独立研究者による再現実験の結果で決まる。

半年後に何が見えれば判断できるか

編集委員として今すぐ「Memini は本物だ」とも「過去の失敗の繰り返しだ」とも言わない。判断は時間が決める。だが「何が見えれば判断できるか」は今日明示できる。第 1 に、Memini の実装コードが arXiv 公開後 90 日以内に GitHub に出るか。第 2 に、Engram や MemGPT のような既存メモリ製品が「自律的再編成」機能を吸収する動きを見せるか——これは Memini のアイデアが工学に届いた最初のシグナルになる。第 3 に、医療や金融のような規制業界が Memini 系のアプローチを採用するのか、それとも明示的管理型の RAG に留まるのか。

記憶という概念を補装具と区別する語彙を業界に浸透させた瞬間、Memini はすでに 1 つの仕事を終えている。これからの 6 か月で、外部メモリ製品の評価軸は「何を保存できるか」から「何を自律的に整理できるか」へ移行する。比較ベンチマークは LOCOMO のような「記憶のテスト」から、刺激パターンに対する自律的再編成を評価する設計へと書き換わるはずだ。Memini が出した本当の貢献は、新しいモデルではなく、新しい問いかけの方かもしれない。

LLMの外部記憶は「記憶」ではなく「補装具」である——Meminiが提示する自律再編成と、生物インスパイアド30年の轍

「学習している」ように見えて、学んでいない LLM

Engram、MemGPT、Oc-mnemoria——記憶を提供しているのか

Memini が提案する 2 タイムスケールのダイナミクス

Benna-Fusi の前にあったもの——生物インスパイアド記憶の系譜

編集委員の読み——3 つの実装可能性の壁

半年後に何が見えれば判断できるか

◇ ◇ 関連記事

SFTで植えた行動は消せる——LCDDとSFT-Eraserが示す「可逆ファインチューニング」と整合性アプローチへの含意

「テストと知りながら黙っていた」LLMをNLAは可視化した——Anthropic Natural Language Autoencodersが揺るがすベンチマーク中心主義

「推論できる」と「手続きを実行できる」は別物だった——14モデル55データセットが見せた失敗パターン