Автор: Денис Аветисян
Исследование демонстрирует, что модели вознаграждения, основанные на анализе кода без его выполнения, значительно повышают эффективность агентов, обучающихся решать задачи в области разработки программного обеспечения.

В статье представлен метод калибровки моделей вознаграждения для обучения с подкреплением, позволяющий масштабировать процесс проверки кода без необходимости его запуска.
Несмотря на широкое применение тестирования и обучения с подкреплением в разработке кодирующих агентов, традиционные методы часто сталкиваются с проблемами масштабируемости и разреженности обратной связи. В работе ‘SWE-RM: Execution-free Feedback For Software Engineering Agents’ представлен новый подход, основанный на отказе от исполнения кода и использовании моделей вознаграждения для повышения эффективности обучения агентов в задачах разработки программного обеспечения. Показано, что тщательно откалиброванная модель вознаграждения, учитывающая точность и надежность, значительно улучшает производительность агентов как в режиме test-time scaling, так и в обучении с подкреплением. Какие перспективы открывает разработка универсальных и отказоустойчивых моделей вознаграждения для автоматизации более сложных задач в области разработки программного обеспечения?
Отбросьте Сложное: Новый Подход к Верификации Программного Обеспечения
Традиционные методы верификации программного обеспечения, такие как модульное тестирование, часто оказываются хрупкими и неэффективными при работе со сложной логикой. Эти подходы полагаются на конкретные сценарии выполнения кода, и даже незначительные изменения в программе могут потребовать полной переработки тестового набора. В результате, обнаружение скрытых ошибок становится трудоемким и дорогостоящим процессом, а покрытие тестами сложной функциональности — серьезной проблемой. Подобная зависимость от конкретных примеров выполнения делает традиционные тесты уязвимыми к непредсказуемым ситуациям и ограничивает их способность гарантировать надежность программного обеспечения в различных условиях эксплуатации.
Традиционные методы верификации программного обеспечения, такие как модульное тестирование, зачастую оказываются неэффективными при обнаружении скрытых ошибок в сложной логике. Для обеспечения надежности системы требуется создание обширных наборов тестов, покрывающих все возможные сценарии, что значительно замедляет процесс разработки и становится узким местом. Неспособность выявить даже незначительные дефекты на ранних стадиях приводит к дорогостоящим исправлениям и задержкам выпуска продукта, подчеркивая необходимость более эффективных подходов к верификации, способных справляться со сложностью современных программных систем.
Переход к верификации на основе моделей, использующих возможности больших языковых моделей, открывает перспективные пути к созданию более надежных и масштабируемых решений. Традиционные методы, основанные на тестировании исполняемого кода, часто оказываются недостаточно эффективными при работе со сложной логикой, требуя обширных наборов тестов и упуская из виду тонкие ошибки. В отличие от них, модели, обученные на больших объемах данных, способны понимать намерения разработчика и выявлять потенциальные уязвимости, анализируя код на более высоком уровне абстракции. Такой подход позволяет не просто обнаруживать ошибки, но и формально доказывать корректность программного обеспечения, обеспечивая повышенную уверенность в его надежности и безопасности. Использование больших языковых моделей в верификации позволяет автоматизировать значительную часть процесса, сокращая время и ресурсы, необходимые для обеспечения качества программного продукта.

SWE-RM: Модель Вознаграждения для Эффективной Оценки Программного Обеспечения
Представляем SWE-RM — модель вознаграждения (reward model) с архитектурой Mixture-of-Experts (MoE) и 30 миллиардами параметров, разработанную специально для задач в области разработки программного обеспечения. SWE-RM предназначена для оценки качества сгенерированного кода и предоставления обратной связи для улучшения моделей генерации кода. Использование архитектуры MoE позволяет модели эффективно обрабатывать сложные структуры кода, повышая ее производительность в задачах, требующих анализа и оценки программного кода. Модель разработана для работы с различными языками программирования и задачами, включая генерацию кода, исправление ошибок и оптимизацию производительности.
Модель SWE-RM построена на базе Qwen3-Coder и подверглась тонкой настройке с использованием обучения с подкреплением, управляемого целевой функцией GSPO (Gradient Signal Propagation Optimization). GSPO обеспечивает более эффективное распространение сигнала градиента во время обучения, что позволяет модели быстрее и точнее адаптироваться к сложным задачам разработки программного обеспечения. Использование Qwen3-Coder в качестве основы обеспечивает предварительное знание синтаксиса и семантики кода, а обучение с подкреплением, направляемое GSPO, позволяет SWE-RM оценивать качество сгенерированного кода и оптимизировать его для достижения лучших результатов.
Архитектура SWE-RM, включающая слой Mixture-of-Experts (MoE), обеспечивает эффективную обработку сложных структур кода. Использование MoE позволяет модели динамически активировать только часть своих параметров для каждого входного токена, что снижает вычислительные затраты и повышает производительность. В процессе обучения с подкреплением, SWE-RM демонстрирует улучшение метрики pass@1 на 3 абсолютных пункта по сравнению с системами, использующими обратную связь на основе только результатов выполнения кода. Это свидетельствует о способности модели более точно оценивать качество кода, даже если он не приводит к немедленному успешному выполнению.

Оценка SWE-RM: Точность и Калибровка — Ключ к Надежности
Оценка SWE-RM показала существенное улучшение в ранжировании корректности кода, что подтверждается метриками AUC (Area Under the Curve) и показателями TTS Performance (Test-Time Stability). AUC измеряет способность модели различать корректный и некорректный код, в то время как TTS Performance оценивает стабильность предсказаний модели при различных входных данных. Повышение этих метрик свидетельствует о более надежной и точной оценке кода моделью SWE-RM по сравнению с другими подходами, что критически важно для автоматизированного анализа и отладки программного обеспечения.
При использовании модели Qwen3-Coder-Flash, SWE-RM демонстрирует точность в 62.0% на бенчмарке SWE-bench Verified. Это представляет собой существенный прирост по сравнению с предыдущим результатом в 51.6%. Данный показатель точности был получен в ходе оценки способности модели ранжировать корректность кода, что подтверждает эффективность предложенного подхода к повышению надежности автоматической оценки программного кода.
При использовании модели Qwen3-Coder-Max, SWE-RM достигает точности в 74.6% на бенчмарке SWE-bench Verified. Этот результат является лучшим в своем классе среди моделей с количеством параметров 30 миллиардов и всех доступных моделей с открытым исходным кодом. Данная точность была установлена в ходе стандартных оценок производительности на общедоступном наборе данных SWE-bench Verified, что позволяет объективно сравнить SWE-RM с другими существующими моделями.
Важным результатом оценки SWE-RM является высокая степень калибровки модели. Это означает, что оценки уверенности, выдаваемые моделью при прогнозировании корректности кода, статистически согласуются с фактической частотой ошибок. Иными словами, когда SWE-RM предсказывает код с уверенностью 90%, эмпирические данные показывают, что примерно 90% таких предсказаний действительно оказываются корректными. Такое соответствие между уверенностью и точностью критически важно для надежного использования модели в практических приложениях, позволяя пользователям адекватно оценивать риски, связанные с автоматизированной проверкой кода.
Эксперименты по масштабированию данных продемонстрировали положительную корреляцию между объемом обучающих данных и производительностью SWE-RM. Анализ показал, что увеличение размера датасета последовательно приводит к улучшению метрик оценки, таких как AUC и TTS Performance, что подтверждает критическую важность использования больших объемов данных для обучения моделей оценки корректности кода. Данный вывод подчеркивает, что дальнейшее расширение обучающих данных является перспективным направлением для повышения эффективности SWE-RM и подобных моделей.
Оптимизация Обучения: Разнообразие Данных и Политик — Путь к Устойчивости
Исследования показали, что комбинирование различных источников данных в процессе обучения значительно повышает способность SWE-RM к обобщению. Применение смешанных данных позволяет модели более эффективно адаптироваться к новым, ранее не встречавшимся ситуациям, поскольку она получает возможность изучать различные аспекты решаемой задачи. Такой подход, в отличие от обучения на однородном наборе данных, способствует формированию более устойчивых и гибких стратегий поведения, что особенно важно для сложных задач, требующих адаптации к изменяющимся условиям. По сути, разнообразие данных стимулирует SWE-RM к более глубокому пониманию сути проблемы и, как следствие, к более эффективному решению.
Исследования показали, что использование смеси различных стратегий (политик) в процессе сбора данных значительно повышает разнообразие обучающих примеров, что, в свою очередь, приводит к улучшению производительности системы. Вместо того, чтобы полагаться на данные, сгенерированные единственной политикой, предложенный подход позволяет собрать более широкий спектр ситуаций и реакций, что способствует более надежной и адаптивной модели обучения с подкреплением. Разнообразие примеров позволяет системе лучше обобщать полученные знания и эффективно работать в различных, ранее не встречавшихся условиях, повышая её устойчивость к неопределенности и новым вызовам.
Соотношение положительных и отрицательных примеров в обучающей выборке играет ключевую роль в эффективности алгоритма. Исследования показали, что дисбаланс в этом соотношении может значительно снизить производительность системы, приводя к неоптимальному обучению и ухудшению способности к обобщению. Тщательная настройка этого параметра, поиск баланса между количеством положительных и отрицательных примеров, необходима для достижения наилучших результатов. Слишком большое количество отрицательных примеров может зашумить процесс обучения, в то время как недостаток отрицательных примеров может привести к переобучению и неспособности алгоритма корректно распознавать сложные сценарии. Таким образом, оптимизация соотношения положительных и отрицательных примеров является критически важным этапом в процессе обучения и требует внимательного подхода.
Система SWE-RM спроектирована с учетом совместимости с современными моделями политики, обладающими расширенным контекстным окном — до 256 тысяч токенов. Эта особенность позволяет осуществлять полную оценку траекторий, учитывая всю историю действий и состояний агента, что критически важно для сложных задач обучения с подкреплением. Возможность анализа полных траекторий, в отличие от оценки лишь отдельных шагов, значительно повышает эффективность обучения и позволяет SWE-RM достигать лучших результатов в задачах, требующих долгосрочного планирования и учета контекста.
Исследование демонстрирует, что точно откалиброванная модель вознаграждения, не требующая исполнения кода, способна значительно улучшить эффективность агентов, обучающихся с подкреплением, в задачах разработки программного обеспечения. Это подтверждает идею о том, что истинная ясность достигается не за счет добавления сложности, а благодаря её последовательному устранению. Как заметил Блез Паскаль: «Все великие истины просты». Подобно тому, как избыточность мешает восприятию, так и ненужные этапы исполнения кода затуманивают сигнал вознаграждения, препятствуя эффективному обучению. Сосредоточение на точности и надёжности модели, а не на количестве итераций исполнения, позволяет достичь оптимального результата, приближая агента к пониманию сути задачи.
Что дальше?
Представленная работа, хотя и демонстрирует преимущество освобождения от необходимости непосредственного исполнения кода при обучении агентов, лишь приоткрывает завесу над истинной сложностью задачи. Иллюзия улучшения производительности часто возникает из-за упущения фундаментальной проблемы: достоверность любой модели вознаграждения, основанной на анализе кода, неизбежно ограничена. Более того, зависимость от калибровки, хоть и смягчает проблему, не устраняет её полностью. Вопрос не в том, насколько точно можно предсказать результат исполнения, а в том, достаточно ли этого для создания действительно разумного агента.
Будущие исследования должны сосредоточиться не на усложнении моделей вознаграждения, а на их упрощении. Необходимо стремиться к минимальному набору критериев, достаточных для оценки качества программного кода, избегая избыточности, маскирующейся под точностью. Особенно перспективным представляется отказ от явного моделирования вознаграждения в пользу обучения агентов на основе принципа “наименьшего удивления” — способности распознавать не только ошибки, но и неочевидные, но корректные решения.
В конечном итоге, цель состоит не в создании агента, который “понимает” код, а в создании агента, который способен создавать код, удовлетворяющий заданным требованиям, не нуждаясь в постоянном внешнем контроле. Это требует не столько технических усовершенствований, сколько философского переосмысления самой задачи — признания, что истинное понимание проявляется не в способности к сложному анализу, а в умении достигать цели наиболее простым и элегантным способом.
Оригинал статьи: https://arxiv.org/pdf/2512.21919.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Квантовый Монте-Карло: Моделирование рождения электрон-позитронных пар
- Вопросы по PDF: Новый вызов для искусственного интеллекта
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- Квантовое превосходство в простых вычислениях: Разделение QAC0 и AC0
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Сжатый код: как оптимизация влияет на «мышление» языковых моделей
- Насколько важна полнота при оценке поиска?
- От принципа Ферма к нейронным сетям: новый взгляд на вариационную физику
- Белки под присмотром ИИ: новый подход к пониманию их функций
- Оптический Искусственный Интеллект: Новый Взгляд на Энергоэффективность
2025-12-29 16:11