Learning to Commit：AIコーディングエージェントのPRが却下される本当の理由——arXiv新論文

論文の要点

LLMベースのコーディングエージェントが制御されたベンチマークでは高い性能を示しながら、実際のプロジェクトメンテナーからは頻繁に却下されるプルリクエスト（PR）を生成してしまう問題に、正面から取り組んだ論文が2026年3月27日にarXivに公開された。タイトルは「Learning to Commit: Generating Organic Pull Requests via Online Repository Memory」（arXiv:2603.26664）。著者はMo Li、L. H. Xu、Qitai Tanら。

論文が指摘する根本原因は、機能的な誤りではない。エージェントが生成するコードは多くの場合、指定された機能は正しく実装する。しかし、各プロジェクトが持つ固有の慣習——コーディングスタイル、命名規則、エラーハンドリングのパターン、コメントの書き方、コミットメッセージの書式——を無視したPRは、メンテナーにとって「ノイズ」として機能する。「機能するが、我々のコードじゃない」という感覚だ。

著者らはこの問題を「有機性の欠如（lack of organicity）」と定義する。有機的なPRとは、プロジェクトの文脈の中で自然に育ったように見える変更であり、外部から貼り付けられたように見えない変更だ。この「有機性」の獲得こそが、AIエージェントがオープンソース・コミュニティに本当に貢献できるかどうかの鍵となる。

提案手法の概要

論文が提案する解決策は「オンラインリポジトリ記憶（Online Repository Memory）」と呼ばれるフレームワークだ。エージェントが新しいPRを生成する前に、そのリポジトリの過去のコミット履歴、既存のPR、コードレビューのやり取りを動的に参照する仕組みを構築する。

具体的には三つのコンポーネントから成る。第一は「スタイルプロファイラー」で、リポジトリの過去コミットから命名規則、インデントスタイル、ドキュメントの書き方を抽出してベクトル化する。第二は「コンテキストリトリーバー」で、現在タスクに関連する過去のPRやコードレビューを意味的類似度で検索し、判断の参考にする。第三は「有機性バリデーター」で、生成されたPRドラフトが抽出したプロジェクトスタイルに適合しているか検証し、適合しない場合は修正を指示する。

このフレームワークの重要な特性は「オンライン」であることだ。エージェントが実際にリポジトリと対話しながら記憶を更新し、過去のPR承認・却下のフィードバックから学習し続ける。一度設定すれば終わりではなく、リポジトリの進化に伴ってエージェントの記憶も更新される動的なシステムだ。

実験結果

論文では複数のオープンソースリポジトリ（PyTorch、Django、NumPy等の有名プロジェクトを含む）を使った評価実験が実施された。主要な評価指標として「PR有機性スコア」（プロジェクトの慣習への適合度）と「仮想メンテナー承認率」（モデルを使ったPRの受け入れやすさの自動評価）が用いられた。

ベースライン手法（リポジトリ記憶なしのLLMコーディングエージェント）と比較して、提案手法はPR有機性スコアで平均27.3%の改善、仮想メンテナー承認率で19.8%の向上を達成した。特に、プロジェクト固有の命名規則の遵守率は43.1%改善しており、「名前の付け方が違う」という一見些細だが実際には頻繁な却下理由に対して効果を示した。

エラーハンドリングのパターン学習においても顕著な改善が見られた。あるプロジェクトが「例外を握り潰さずに再スローする」という慣習を持つ場合、リポジトリ記憶なしのエージェントは汎用的なtry-catchを生成しがちだが、提案手法はプロジェクトの既存コードから同様のパターンを学習して適切なハンドリングを生成した。

なぜ注目すべきか

この研究が重要なのは、AIコーディングの「実用化のラストワンマイル」問題に取り組んでいるからだ。ベンチマークで高得点を取るエージェントは既に多く存在するが、実際のオープンソースプロジェクトに受け入れられるPRを継続的に生成できるエージェントは稀だ。この乖離を埋める研究は、AIエージェントがソフトウェア開発の生産的な参加者になるために不可欠だ。

実用化の観点から見ると、本手法はGitHub Copilot、Claude Code、Devinのような商用AIコーディングツールへの統合が比較的容易だと考えられる。APIとして設計されており、既存のコーディングエージェントの「前処理ステップ」として追加できる構造になっているためだ。既存のAIコーディング製品が「PR生成の有機性」を競争軸として取り込む可能性がある。

また、本手法の「記憶と検索」というアーキテクチャは、AIが特定のドメイン固有知識を継続的に学習するという広い課題への示唆を持つ。医療記録、法律文書、財務報告など、「組織固有の文脈」を理解する必要があるあらゆる領域でのAI応用において、オンラインリポジトリ記憶と類似した手法が有効かもしれない。

AIコーディングの品質保証——生成と検証の両面から

「Learning to Commit」が示した「有機性の獲得」という問題は、AIコーディング品質の多層的な課題の一つだ。Deep Signalでは、AIコード生成ツールの爆発的普及を受けてコード検証スタートアップのQodoが7,000万ドルを調達したことを報じた。Qodoはエッジケース網羅性評価とバグリスク可視化を提供するが、その本質的な価値は「AIが生成するコードが本当に正しいかを人間が確認する」プロセスを効率化することにある。Learning to Commitの「プロジェクト慣習への適合」とQodoの「機能的正確性の検証」は、AIコーディングの品質保証における補完的な二軸だ。生成されたコードが機能的に正しく、かつプロジェクトに有機的に馴染む——この両方が揃って初めて、AIエージェントは本当の意味でソフトウェア開発の生産的な参加者になる。

セキュリティという第三の軸も加わる。Deep Signalが報じた「AIエージェントのセキュリティ設計」論文（arXiv:2603.30016）は、間接プロンプトインジェクション攻撃に対してシステムアーキテクチャレベルで防御する3原則を提示した。AIコーディングエージェントがリポジトリの過去コミットや外部リソースを参照してコードを生成するフローは、まさに間接プロンプトインジェクションの攻撃面を広げる。悪意を持って設計されたコードコメントやコミットメッセージがエージェントの記憶に取り込まれ、有害なPRを生成させる攻撃が理論的に可能だ。Learning to Commitが提案するオンラインリポジトリ記憶と、Secure AI Agentsが示すアーキテクチャレベルの防御を組み合わせることが、実用的なAIコーディングパイプラインの安全性要件となる。

Learning to Commit：AIコーディングエージェントのPRが却下される本当の理由——arXiv新論文

論文の要点

提案手法の概要

実験結果

なぜ注目すべきか

関連研究との位置づけ

AIコーディングの品質保証——生成と検証の両面から

◇ ◇ 関連記事

「AIエージェントのセキュリティ設計」——間接プロンプトインジェクションに対するシステムレベル防御の3原則

MetaのAIエージェントが暴走——社内データを無権限エンジニアに公開、AIガバナンスの死角が露わに

WriteBack-RAG：知識ベースを「訓練可能なコンポーネント」として扱う新手法——全設定で平均+2.14%の精度改善