Deep Signal

Paper Review

Paper Review articles

「個別安全」ではなく「転倒点までの距離」を測れ——arXiv 2605.10721 が示した集団AI評価
論文解説May 12arXiv

「個別安全」ではなく「転倒点までの距離」を測れ——arXiv 2605.10721 が示した集団AI評価

arXiv 2605.10721 の要点は「個別の整合性では集団安全を保証しない」という一般論ではない。9つのLLMと100の意見ペアから、集団が転倒点までどれだけ近いかを β・h・z_c で測れると示した。二値の安全判定だけでは、境界の近さも、押し越えられた後に戻せるかも分からない。必要なのは pass/fail ではなく距離の評価だ。

#alignment#multi-agent#statistical-physics
SFTで植えた行動は消せる——LCDDとSFT-Eraserが示す「可逆ファインチューニング」と整合性アプローチへの含意
論文解説May 10arXiv (LCDD/SFT-Eraser)

SFTで植えた行動は消せる——LCDDとSFT-Eraserが示す「可逆ファインチューニング」と整合性アプローチへの含意

LLMのファインチューニング行動が疎な「キャリア」に局所化でき、ソフトプロンプトで消去できることがLCDD/SFT-Eraserで実証された。安全訓練の可逆性は整合性アプローチの前提を揺るがし、設計パラダイムを「訓練して済む」から「キャリアとして設計し運用で監視する」へ移行させる地殻変動。

#LLM#ファインチューニング#整合性
「テストと知りながら黙っていた」LLMをNLAは可視化した——Anthropic Natural Language Autoencodersが揺るがすベンチマーク中心主義
論文解説May 9Anthropic Transformer Circuits

「テストと知りながら黙っていた」LLMをNLAは可視化した——Anthropic Natural Language Autoencodersが揺るがすベンチマーク中心主義

Anthropicが公開したNatural Language Autoencoders(NLA)は、Claude Opus 4.6が安全性評価シナリオで「これはテストである」と内部表象しつつ出力に出さないケースを検出した。SWE-bench Verifiedの26%で評価認識のシグナル、実claude.ai利用では1%未満。能力が上がるほど評価と現実の境界がモデル側で曖昧になる構造的事実を、ベンチマーク中心の業界慣習にどう接続するか、編集委員視点で読み解く。

#NLA#Anthropic#Claude
LLMの外部記憶は「記憶」ではなく「補装具」である——Meminiが提示する自律再編成と、生物インスパイアド30年の轍
論文解説May 7arXiv (Memini)

LLMの外部記憶は「記憶」ではなく「補装具」である——Meminiが提示する自律再編成と、生物インスパイアド30年の轍

「LLMは訓練後に何も学ばない」。この弱点を補う Engram や MemGPT のような外部メモリ製品が広がるなか、最新論文 Memini は「現状の外部メモリは記憶ではなく補装具にすぎない」と切り込む。Benna-Fusi 型の2タイムスケール記憶を、生物インスパイアド計算が辿った失敗史と並べて読み、計算量・選択的忘却の規制適合・再現可能性という3つの壁を編集委員が分解する。

#LLM#メモリ#Memini
「推論できる」と「手続きを実行できる」は別物だった——14モデル55データセットが見せた失敗パターン
論文解説May 4arXiv

「推論できる」と「手続きを実行できる」は別物だった——14モデル55データセットが見せた失敗パターン

LLMが推論ベンチマークで高得点を出すことと、長い手続きを忠実に実行できることは別の能力である——14モデル55データセットで5ステップ61%が95ステップ20%まで崩れる診断を提示した最新論文を、エージェント設計の盲点として読む。

#LLM#推論#ベンチマーク