LegacySWE

LegacySWE is the long-horizon coding benchmark for legacy software maintenance and modernization in enterprise systems.

#	Model	Harness	Score
1	DeepSeek V4 Pro	Terminus-2	11.0%[5.0,17.0]
2	GPT-5.5	Codex CLI	9.0%[4.0,15.0]
2	Claude Opus 4.7	Claude Code	9.0%[4.0,15.0]
2	Gemini 3.1 Pro	Terminus-2	9.0%[4.0,15.0]
2	GPT-5.5	Terminus-2	9.0%[4.0,14.0]
6	GPT-5.4 Mini	Codex CLI	6.0%[2.0,11.0]
6	Kimi K2.6	Terminus-2	6.0%[2.0,11.0]
8	Claude Opus 4.7	Terminus-2	5.0%[1.0,10.0]
8	Kimi K2.6	Kimi CLI	5.0%[1.0,9.0]