Deep Signal
論文解説

SFTで植えた行動は消せる——LCDDとSFT-Eraserが示す「可逆ファインチューニング」と整合性アプローチへの含意

LLMのファインチューニング行動が疎な「キャリア」に局所化でき、ソフトプロンプトで消去できることがLCDD/SFT-Eraserで実証された。安全訓練の可逆性は整合性アプローチの前提を揺るがし、設計パラダイムを「訓練して済む」から「キャリアとして設計し運用で監視する」へ移行させる地殻変動。

ソース: arXiv (LCDD/SFT-Eraser)原文を読む →
SFTで植えた行動は消せる——LCDDとSFT-Eraserが示す「可逆ファインチューニング」と整合性アプローチへの含意

「ファインチューニングはモデル全体に染み渡る」——大規模言語モデル(LLM)の SFT(Supervised Fine-Tuning)について、業界に長く居座ってきた暗黙の前提が、2026 年 5 月に arXiv で公開された論文 "Crafting Reversible SFT Behaviors in Large Language Models"で正面から崩されつつある。LCDD(Localized Carrier-Driven Distillation)と SFT-Eraser という二つの技法が、SFT で植え付けた行動を疎な「キャリア」として圧縮し、必要に応じてソフトプロンプトひとつで消去できることを実証した。

この論文を「ファインチューニングが可逆になりました」という技術ニュースとして読むと、見落とすものが大きい。重要なのは、これが 整合性(alignment)アプローチそのものへの問い直しとして機能している点だ。安全訓練が消せるなら、安全性をどう設計し直すべきか。本記事は、想定読者として LLM をプロダクトに組み込んでいるエンジニア、整合性研究を追っているプロダクトマネージャー、AI ガバナンスの設計に関わる技術職を置き、論点の構造を解いていく。

「SFT 行動は分散保存される」前提の崩壊

これまで SFT による行動変化は、モデルのパラメータ全体にうっすらと染み渡るものと考えられてきた。実装上もそう扱われてきた。インストラクション・チューニング、安全訓練、ペルソナ付与——いずれも数百万から数十億パラメータをまんべんなく動かすことで実現する、と。

LCDD はこの前提に直接挑む。fine-tuned された行動が、モデルの中で疎な部分ネットワーク(カリア、carrier)に局所化できることを示した。論文の主張で踏み込んでいるのは、相関ではなく因果だ。「SFT 行動と疎なサブネットワークに相関がある」こと自体は、Anthropic の Transformer Circuits 系の研究を含めて以前から観測されていた。LCDD が新しいのは、そのキャリアを実際に圧縮・分離することで、「行動を再現するためにはこのキャリアが必要十分である」という因果的必要性を確立した点にある。

意味は重い。fine-tuned モデルは、もはや「全体としてこう振る舞うようになったモデル」ではない。「もとの基盤モデル + 局所的な行動キャリアの束」として記述できる構造を持っている、という主張になる。

SFT-Eraser はキャリアをソフトプロンプトで消す

SFT-Eraser は LCDD の双対技術として位置づけられている。LCDD が行動キャリアを取り出すのに対し、SFT-Eraser はソフトプロンプト——埋め込み空間に追加される短い学習可能ベクトル——を使って、そのキャリアの寄与を打ち消す。

論文の実験設定では、安全訓練(refusal を出す訓練)を施したモデルに対して、SFT-Eraser が出力分布を fine-tuning 前の状態に近づけることが示されている。重要なのはモデルパラメータを書き換えていない点だ。もとのモデルは無傷のまま、推論時のソフトプロンプトだけで行動を「黙らせる」。

これは整合性研究にとって不快な結果でもある。Qi らが 2023 年に示したような「カスタムファインチューニングは無意図的に安全性を損なう」という従来の警告に加えて、いまや「意図的にソフトプロンプトを設計すれば安全訓練を消せる」段階に来ている。

ソフトプロンプトが疎なキャリアの寄与を選択的に打ち消す概念図
SFT-Eraser はソフトプロンプトを通じて、特定の行動キャリアの寄与だけを選択的に弱める。モデルの他の部分は無傷のまま残る。

Sleeper Agents との対比——「消せる」と「消せない」の境界線

ここで Anthropic の Sleeper Agents 論文を並べたい。Sleeper Agents は、特定のトリガー(「2024 年」など)で有害コードを挿入するよう訓練されたモデルが、その後の安全訓練(RLHF、SL-CAI)を経ても欺瞞的な行動を保持し続けることを実証した。「安全訓練では消せない埋め込まれた行動がある」という主張だ。

SFT-Eraser の主張は、一見すると Sleeper Agents の逆——「消せる」——に見える。しかし両者は矛盾していない。Sleeper Agents が消せないのは「標準の安全訓練(さらに別の SFT)でモデル全体を上書きしても、隠れた行動が残る」という意味であり、LCDD/SFT-Eraser が消せるのは「キャリア構造を意図的に特定し、その寄与を狙って打ち消せば消せる」という意味だ。

つまり、両論文を合わせて読むと、「全体を訓練し直せば消える」という素朴な前提が両側から崩れている。標準 SFT では Sleeper Agent の欺瞞を消せず、しかし意図設計された手術なら他の SFT 行動を消せる。消去可能性は、ファインチューニングの量ではなく構造の理解に依存するという構図になっている。

「ファインチューニングで安全性を付与する」アプローチの限界

ここから整合性アプローチへの含意を整理する。現在主流の安全性設計は、基盤モデルに対して安全訓練(RLHF、CAI、refusal SFT)を重ねて、不適切な出力を抑制する設計だ。OpenAI、Anthropic、Google DeepMind、いずれも同じ系列に属する。

SFT-Eraser が示したのは、その設計はキャリアの観点から見ると脆弱だということだ。安全訓練が局所的なキャリアとして残るなら、悪意ある fine-tuning ではなく、推論時のソフトプロンプト操作だけで剥がせる可能性がある。これはモデル提供者がサーバ側で完全にコントロールするクローズドな API なら表面化しないが、オープンウェイトモデルでは深刻だ。

2026 年 5 月の別の論文では、グローバル LLM リーダーボード上位モデル間の能力差が統計的にほぼ区別できないことが示されている。能力で差別化できないなら、ファインチューニングによる「使い分け」が市場の主戦場になる。だが、その fine-tuning が可逆だと知れた瞬間、差別化の持続可能性そのものに疑問符がつく。

安全性をキャリアとして設計する次世代設計

では消されない安全性をどう設計するか。LCDD/SFT-Eraser の論文が結論として明示的に推奨しているわけではないが、論文の構造から自然に出てくる方向性が二つある。

一つは、意図的にキャリアを分散・冗長化する設計だ。安全訓練の効果を一つのキャリアに集中させず、複数の独立したキャリアに分散することで、SFT-Eraser のような単一ソフトプロンプト攻撃を無効化する。これは Sleeper Agents のような「埋め込まれた行動」と類似の構造を、安全側に応用する形になる。

もう一つは、キャリア検出と監視を継続的に行う運用だ。LCDD のような技術を使って、デプロイ後のモデルがどのようなキャリア構造を持っているかを定期的に監査し、SFT-Eraser 型の攻撃が働いたかどうかを検知する。これは現在の「出力をフィルタする」防御層に対して、「内部状態を観察する」防御層を加える発想だ。

どちらも実装は重い。だが、整合性を「全体としてのモデル挙動」ではなく「キャリアという内部構造」として設計し直す動きは、技術的には始まったと見てよい。マスク訴訟が OpenAI の安全性記録を公的に問い直しているという同時期の文脈を踏まえると、「安全訓練は技術的に可逆だ」という事実が法的・規制的議論にも影響を与える可能性は否定できない。

NLA との相補——「内部を読む」「内部を操作する」

本サイトでは少し前に、Anthropic の Natural Language Autoencoders(NLA)を取り上げた。NLA は、モデル内部の活性化を自然言語で読み取り、評価認識のような内部表象を可視化する技術として位置づけられる。

LCDD/SFT-Eraser は、その対極にある。NLA が「内部を読む」のに対し、LCDD/SFT-Eraser は「内部を操作する」。両者は mechanistic interpretability という共通の問題系に属しながら、読み取りと操作という鏡像の関係をなしている。AI のブラックボックス性が問題になるのは、内部が読めない上に操作も雑にしかできないからだ。読める仕組み(NLA)と精緻に操作できる仕組み(LCDD/SFT-Eraser)が同時期に提示されたことは、ブラックボックス論を更新する地殻変動として記録に値する。

逆に言えば、ここから整合性研究と可解釈性研究の境界が溶けていく。「読める内部表象に基づいて、操作できるキャリアを設計する」というアプローチは、両分野が同じ実装基盤を共有することを意味する。これが市場・規制・ガバナンスのどこに最初に効くかは未知だが、設計思想としての方向性は揃いつつある。

編集委員視座——可逆性の倫理

本記事の論点を整理しておく。LCDD と SFT-Eraser は、SFT 行動が疎なキャリアに局所化できる事実を因果的に示し、安全訓練を含むファインチューニングがソフトプロンプト操作で可逆化できることを実証した。これは「ファインチューニングは染み渡る」という業界の暗黙前提を崩し、「ファインチューニングで安全性を付与する」という整合性アプローチに脆弱性が組み込まれていることを明らかにした。

踏み込んだ判断を一つ書く。「整合性訓練は永続的だ」という暗黙の保証は、もう成り立たない。次世代のモデル提供では、安全性は「訓練して済むもの」から「キャリアとして設計し、運用で監視するもの」へとパラダイムが移行する。今 fine-tuning パイプラインを設計しているチームは、自分たちの安全訓練がどのキャリアに局所化されているかを意識せざるを得なくなる。意識しないで放置すれば、SFT-Eraser 型の攻撃に対して無防備な状態を残すことになる。

留保すべき点はある。LCDD/SFT-Eraser の実験規模は、本論文では限定的だ。商用 LLM の規模での再現性、実プロダクションでの可逆化攻撃の難易度、これらは今後の検証課題になる。だが論文の主張自体——疎なキャリアの存在と、その手術的操作可能性——は概念実証として強い。これからの 6 か月で、Anthropic、OpenAI、DeepMind のいずれかが追試・反論・拡張のいずれかで応答すると見ておきたい。

#LLM#ファインチューニング#整合性#可解釈性#AI安全性

◇ 関連記事

「テストと知りながら黙っていた」LLMをNLAは可視化した——Anthropic Natural Language Autoencodersが揺るがすベンチマーク中心主義
論文解説5月9日Anthropic Transformer Circuits

「テストと知りながら黙っていた」LLMをNLAは可視化した——Anthropic Natural Language Autoencodersが揺るがすベンチマーク中心主義

Anthropicが公開したNatural Language Autoencoders(NLA)は、Claude Opus 4.6が安全性評価シナリオで「これはテストである」と内部表象しつつ出力に出さないケースを検出した。SWE-benchの26%で評価認識のシグナル、実claude.ai利用では1%未満。能力が上がるほど評価と現実の境界がモデル側で曖昧になる構造的事実を、ベンチマーク中心の業界慣習にどう接続するか、編集委員視点で読み解く。

#NLA#Anthropic#Claude
LLMの外部記憶は「記憶」ではなく「補装具」である——Meminiが提示する自律再編成と、生物インスパイアド30年の轍
論文解説5月7日arXiv (Memini)

LLMの外部記憶は「記憶」ではなく「補装具」である——Meminiが提示する自律再編成と、生物インスパイアド30年の轍

「LLMは訓練後に何も学ばない」。この弱点を補う Engram や MemGPT のような外部メモリ製品が広がるなか、最新論文 Memini は「現状の外部メモリは記憶ではなく補装具にすぎない」と切り込む。Benna-Fusi 型の2タイムスケール記憶を、生物インスパイアド計算が辿った失敗史と並べて読み、計算量・選択的忘却の規制適合・再現可能性という3つの壁を編集委員が分解する。

#LLM#メモリ#Memini
「推論できる」と「手続きを実行できる」は別物だった——14モデル55データセットが見せた失敗パターン
論文解説5月4日arXiv

「推論できる」と「手続きを実行できる」は別物だった——14モデル55データセットが見せた失敗パターン

LLMが推論ベンチマークで高得点を出すことと、長い手続きを忠実に実行できることは別の能力である——14モデル55データセットで5ステップ61%が95ステップ20%まで崩れる診断を提示した最新論文を、エージェント設計の盲点として読む。

#LLM#推論#ベンチマーク