Новый бенчмарк DeepSWE: GPT-5.5 — 70%, Opus 4.7 — 54%
Подробнее«Opus 4.7 подсматривает ответы!»: Datacurve раскритиковала бенчмарк SWE-Bench Pro — и выпустила свой
«Opus 4.7 подсматривает ответы!»: Datacurve раскритиковала бенчмарк SWE-Bench Pro — и выпустила свой