Новости Москвы и регионов

iMag.one
ИИ пишет код, но не может его поддерживать: представлен первый CI-бенчмарк для ИИ-агентов

ИИ пишет код, но не может его поддерживать: представлен первый CI-бенчмарк для ИИ-агентов

Исследователи из Alibaba Group и Университета Сунь Ятсена представили SWE-CI — первый бенчмарк, оценивающий способность ИИ-агентов не просто писать код, а поддерживать его в долгосрочной перспективе. 18 моделей от 8 провайдеров прошли через 100 задач на реальных Python-репозиториях — и большинство не справились с контролем регрессий: у 15 из 18 моделей показатель безрегрессионной работы оказался ниже 0,37.
Читать в источнике
habr.comhabr.com

Последние новости

Moskva24.live - ведущий информационный портал, посвященный самым актуальным новостям и событиям, происходящим в Москве. Наша задача - предоставить вам всестороннюю и достоверную информацию о главном городе России.

Moskva24.live является надежным источником новостей, который оперативно освещает важные события и тенденции в Москве. Наша команда профессиональных журналистов и редакторов тщательно следит за происходящими событиями в различных областях, включая политику, экономику, культуру, спорт, технологии и другие.

У нас вы найдете новости о городской политике, принимаемых решениях и инициативах муниципальных властей. Мы освещаем ключевые события, которые влияют на жизнь жителей столицы, такие как строительство инфраструктуры, развитие транспортной системы, экологические и социальные проекты.

Мы также предоставляем информацию о культурной жизни Москвы, включая выставки, концерты, театральные постановки и другие культурные события. Вы сможете быть в курсе последних трендов моды, а также узнать о новых ресторанах, кафе и местах отдыха, которые стоит посетить.

DMCA