Innovative Tech(AI+)
AIの“長期的なコードの保守能力”はどれほどか? 新たな評価テスト「SWE-CI」 中国チームが提案
Innovative Tech(AI+):
2019年の開始以来、多様な最新論文を取り上げている連載「Innovative Tech」。ここではその“AI編”として、人工知能に特化し、世界中の興味深い論文を独自視点で厳選、解説する。執筆は研究論文メディア「Seamless」(シームレス)を主宰し、日課として数多くの論文に目を通す山下氏が担当。イラストや漫画は、同メディア所属のアーティスト・おね氏が手掛けている。X: @shiropen2
中国の中山大学とアリババグループに所属する研究者らが発表した論文「SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration」は、AIが長期的にコードの品質を維持できるかを評価するベンチマークを提案した研究報告だ。
AIにコードを書かせる技術はここ数年で急速に進歩した。GitHubに投稿されたバグ報告を読み取って自動で修正パッチを生成するといったタスクでは、人間のエンジニアに迫る性能を示すモデルも登場している。
しかし現実のソフトウェア開発を考えると、この評価だけでは不十分といえる。実際の開発現場では、ソフトウェアは一度完成したら終わりではなく、何カ月も何年もかけて機能追加やバグ修正を繰り返しながら育てていくものだからだ。
ソフトウェアの全コストのうち60~80%は完成後の保守に費やされるとされている。つまり、正しいコードを1回書く力とコードを長期間にわたって正しく保ち続ける力は全く別の能力なのだ。
こうした長期的なコードの保守能力を測るため、研究チームは「SWE-CI」という新しい評価テストを開発した。このテストでは、現実のソフトウェア開発で起きた平均233日間、71回の連続したコード更新をAIに試させる。
具体的には、実在するリポジトリから、ある時点のコードと約8カ月後のコードのペアを100組用意し、AIに何十回もコードを改善させながら良い状態を目指させる。設計役のAIが次に何を直すべきかを判断し、実装役のAIがそれに従ってコードを書くという分業体制で、現実の開発サイクルを模している。
評価指標は後半の反復ほど重みが大きくなる設計で、序盤に急いでテストを通しても後半で行き詰まればスコアが下がる。目先のテストを通すためだけのツギハギだらけのコードを書くと、後々の変更が雪だるま式に難しくなり、最終的にAI自身がお手上げ状態になってしまう。つまり、その場しのぎをするAIが低く評価され、将来を見据えたコードを書くAIが高く評価される。
18モデルを試した結果、最も目立った発見はリグレッションの多さだ。リグレッションとは、ある箇所を直したせいで別の箇所が壊れる現象のこと。全工程を通じて一度も壊さなかった割合は大半のモデルで25%未満で、50%を超えたのはClaude Opusだけだった。一発の修正はうまくても、長く直し続けるとなるとAIはまだかなり危ういということを、このベンチマークは浮き彫りにしている。
Source and Image Credits: Chen, Jialong, et al. “SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration.” arXiv preprint arXiv:2603.03823(2026).
Copyright © ITmedia, Inc. All Rights Reserved.
Innovative Tech(AI+)
2019年の開始以来、多様な最新論文を取り上げている連載「Innovative Tech」。ここではその“AI編”として、人工知能に特化し、世界中の興味深い論文を独自視点で厳選、解説する。執筆は研究論文メディア「Seamless」(シームレス)を主宰し、日課として数多くの論文に目を通す山下氏が担当。イラストや漫画は、同メディア所属のアーティスト・おね氏が手掛けている。
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
日立、Anthropicと提携 グループ29万人に「Claude」などAI導入 社会インフラ分野にも展開へ
-
2
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
3
伊藤忠商事や三菱ケミカルなど16社が参画 大手企業の「暗黙知」を活用する新プロジェクト
-
4
「家庭教師のトライ」が学力診断にAI活用 20問解くだけで弱点を推定 生徒と講師の負担減らす
-
5
「最新のAI創薬ラボ」なのに会議室みたい!? 製薬大手がラブコール送る“異色のAI企業”による新拠点とは
-
6
「AIデータセンターの電力需要が急増」はホント? 発電大手Jパワー社長が明かした“報道との温度差”
-
7
みずほFGが実現 2週間かかるAIエージェント開発を最短数日にする仕組みとは?
-
8
「さすがに似すぎ」?──“LOVOTそっくり”と話題のSwitchbot新作ペットロボ、日本でも発売へ GROOVE Xの反応は
-
9
OpenAI、「ChatGPT」に個人向け資産管理機能 金融口座と連携
-
10
“人型ロボ完全国産化”目指すベンチャーから身長約130cmの小型モデル 中国機ベースも、近く国産化ロードマップ発表
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR