Gate News Meldung, 25. März: Der SWE-rebench Benchmark-Wartungsteamleiter Ibragim veröffentlichte am 23. März die Aktualisierung der Rangliste. SWE-rebench ist ein monatlicher Echtzeit-Benchmark, der neue Software-Engineering-Aufgaben von GitHub extrahiert. Das Modell kann die Aufgaben nicht im Voraus optimieren. Mit diesem Update wurden die vorherigen Demonstrationsbeispiele und die 80-Schritte-Beschränkung entfernt, außerdem wurden unterstützende Bewertungsaufgaben hinzugefügt.
Die Top 10 der neuesten Rangliste: 1. Claude Opus 4.6 (65,3%); 2. GPT-5.2 medium (64,4%); 3. GLM-5 (62,8%); 4. GPT-5.4 medium (62,8%); 5. Gemini 3.1 Pro Preview (62,3%); 6. DeepSeek-V3.2 (60,9%); 7. Claude Sonnet 4.6 (60,7%); 8. Claude Sonnet 4.5 (60,0%); 9. Qwen3.5-397B-A17B (59,9%); 10. Step-3.5-Flash (59,6%).
Das Open-Source-Modell GLM-5 von Zhipu AI (MIT-Lizenz) belegt mit 62,8% den dritten Platz und ist das höchstplatzierte Open-Source-Modell in der Rangliste. Vier chinesische Modelle sind unter den Top Ten vertreten: Neben GLM-5 auch DeepSeek-V3.2 (Platz 6), Qwen3.5-397B-A17B von Alibaba Tongyi Qianwen (Platz 9) und Step-3.5-Flash (Platz 10). Li Zixuan, Leiter von Zhipu Z.ai Global, sagte, dass bei der letzten SWE-rebench-Aktualisierung alle chinesischen Modelle außerhalb der Top Ten lagen.