Искусственный интеллект пишет код: новая платформа для обучения агентов-разработчиков

Автор: Денис Аветисян

Исследователи представили OpenSWE — масштабную, прозрачную среду для обучения моделей искусственного интеллекта, способных решать задачи в области разработки программного обеспечения.

Архитектура OpenSWE представляет собой основу для разработки и развертывания систем, ориентированных на сложные вычисления, позволяя эффективно управлять ресурсами и обеспечивать масштабируемость за счет модульного подхода к построению программного обеспечения.

OpenSWE позволяет создавать и масштабировать качественные наборы данных для обучения агентов-разработчиков, используя Docker и SWE-Bench.

Обучение способных агентов для разработки программного обеспечения требует масштабных, исполняемых и верифицируемых сред, однако существующие решения часто ограничены прозрачностью и масштабируемостью. В работе ‘daVinci-Env: Open SWE Environment Synthesis at Scale’ представлен OpenSWE — крупнейший на сегодняшний день открытый фреймворк для обучения таких агентов на Python, включающий более 12,8 тысяч репозиториев и 45,320 исполняемых Docker-окружений, созданных с использованием автоматизированного конвейера и тщательно отфильтрованных для обеспечения качества обучения. Результаты показывают, что OpenSWE-32B и OpenSWE-72B достигают новых рубежей производительности на SWE-bench Verified, а также демонстрируют существенное улучшение обобщающей способности на задачах математического и естественнонаучного рассуждения. Не станет ли OpenSWE ключевым инструментом для дальнейшего развития искусственного интеллекта в области разработки программного обеспечения?

За гранью автоматизации: проблема ручного труда в разработке

Современная разработка программного обеспечения в значительной степени зависит от ручного труда специалистов, что создает узкие места и повышает вероятность ошибок. Этот процесс, требующий постоянного вмешательства человека, замедляет выпуск новых версий и обновлений, а также увеличивает затраты на разработку. Анализ показывает, что значительная часть времени разработчиков уходит на рутинные задачи, такие как тестирование, отладка и интеграция кода, которые потенциально могут быть автоматизированы. Необходимость в постоянном контроле со стороны человека обусловлена сложностью современных программных систем и неспособностью существующих автоматизированных инструментов эффективно справляться с нюансами и непредсказуемыми ситуациями, возникающими в процессе разработки. Это приводит к задержкам в проектах, снижению качества программного обеспечения и увеличению рисков, связанных с безопасностью и надежностью.

Существующие автоматизированные решения в области разработки программного обеспечения часто демонстрируют ограниченные возможности при работе со сложными задачами, особенно когда требуется глубокое понимание кода и намерений разработчика. Автоматизация, основанная на простых правилах или шаблонном анализе, не способна эффективно обрабатывать неоднозначность и контекстуальную зависимость, характерные для реальных проектов. В результате, системы автоматической проверки и рефакторинга могут генерировать ложные срабатывания или предлагать неоптимальные исправления, требуя значительных усилий по ручной проверке и корректировке. Это ограничивает масштабируемость автоматизации и снижает её эффективность, особенно в проектах с высокой степенью сложности и нестандартной архитектурой.

Существенной проблемой в автоматизации разработки программного обеспечения является распространенное явление, которое можно обозначить как «несоответствие между изменениями в коде и заявленной проблемой» (PR-Issue Misalignment). Исследования показывают, что значительная часть предложенных изменений в коде (pull requests) не решает первоначальную задачу или устраняет лишь симптомы, а не корень проблемы. Это приводит к повторным правкам, увеличению времени разработки и, в конечном итоге, к снижению качества программного обеспечения. Причины этого явления разнообразны: от недостаточного понимания сути проблемы разработчиком, до нечеткой постановки задачи или отсутствия эффективных инструментов для анализа взаимосвязей между кодом и его назначением. Преодоление данного несоответствия требует более глубокого анализа задач, улучшения коммуникации между участниками разработки и внедрения автоматизированных средств, способных выявлять несоответствия между предложенными изменениями и исходной проблемой.

Анализ задач SWE выявил два распространенных риска: неполная проверка данных, приводящая к ложноположительным результатам (слева), и излишне упрощенные задачи, требующие лишь поиска и замены текста (справа).

OpenSWE: фундамент масштабируемой автоматизации разработки

OpenSWE предоставляет надежную платформу для обучения агентов, использующую массивный набор данных из 45 320 исполняемых Docker-окружений. Этот набор данных является крупнейшим в мире публично доступным и полностью прозрачным фреймворком для обучения агентов, предназначенных для решения задач Software Engineering (SWE). Прозрачность обеспечивается полным доступом к исходному коду и окружениям, что позволяет проводить детальный анализ и верификацию процессов обучения. Масштаб данных позволяет обучать агентов с высокой степенью обобщения и надежности, что критически важно для практического применения в реальных проектах разработки программного обеспечения.

Масштабируемость системы обеспечивается за счет ‘SWE-Factory’ — автоматизированного конвейера, который выполняет выбор репозиториев, синтез Dockerfile и создание тестовых сред. В основе ‘SWE-Factory’ лежит технология Docker, позволяющая эффективно упаковывать, распространять и запускать приложения в изолированных контейнерах. Автоматизация этих процессов значительно сокращает время и ресурсы, необходимые для подготовки разнообразных сред для обучения агентов, что является ключевым фактором для достижения необходимого масштаба и разнообразия обучающих данных.

Для расширения обучающей выборки и повышения устойчивости моделей применяются инструменты ‘SWE-rebench’ и ‘SWE-Universe’. ‘SWE-rebench’ осуществляет перегенерацию тестовых примеров на основе существующих репозиториев, создавая вариации входных данных. ‘SWE-Universe’ генерирует совершенно новые среды, используя автоматизированный процесс, что позволяет значительно увеличить разнообразие данных для обучения. Комбинация этих двух подходов обеспечивает более широкое покрытие возможных сценариев и повышает обобщающую способность обученных агентов, делая их менее чувствительными к незначительным изменениям в среде.

Для эффективного сбора данных система использует как REST API, так и GraphQL API GitHub. Это позволяет оптимизировать процесс получения информации из 12 800 репозиториев. Использование обоих API обеспечивает гибкость и масштабируемость сбора данных, позволяя адаптироваться к различным требованиям и ограничениям GitHub, а также повышая общую производительность процесса по сравнению с использованием только одного из них.

OpenSWE обеспечивает создание изображений и демонстрирует высокую производительность благодаря своей архитектуре.

Курирование данных: отфильтровываем шум и повышаем надежность обучения

Для предотвращения введения агентов в заблуждение, процесс “Курирования с учетом сложности” (Difficulty-Aware Curation) отфильтровывает как нерешаемые, так и тривиально простые экземпляры задач. Исключение нерешаемых задач устраняет шум и препятствует обучению на некорректных данных. Отбраковка тривиальных задач предотвращает эксплуатацию агентами поверхностных признаков и упрощенных решений, которые не требуют реального понимания проблемы, тем самым исключая возможность получения ложно-положительных результатов и обеспечивая более надежную оценку производительности.

Процесс курирования обучающих данных направлен на устранение проблемы «тривиальности», заключающейся в том, что решение задачи становится очевидным непосредственно из её формулировки. Такие тривиальные примеры не требуют от агента реального рассуждения или применения знаний, что приводит к искусственно завышенным показателям производительности и неспособности решать более сложные, нетривиальные задачи. Отфильтровывая такие примеры, система фокусируется на задачах, требующих фактического применения алгоритмов и логики, обеспечивая более надежную оценку способностей агента и улучшая его обобщающую способность.

Эффективность разработанного фреймворка была подтверждена на базе эталонного набора данных SWE-Bench Verified, где достигнута доля успешно решенных задач в 62.4% для моделей с 32 миллиардами параметров и 66.0% для моделей с 72 миллиардами параметров. Данный показатель демонстрирует улучшение на 12.2% по сравнению с результатами, полученными при использовании SWE-Rebench, что свидетельствует о более высокой производительности и надежности предложенного подхода к формированию обучающих данных.

Стратегии масштабирования данных (Data Scaling) являются ключевым компонентом для непрерывного повышения производительности агентов. Данный подход предполагает систематическое добавление новых данных в обучающую выборку по мере их поступления, что позволяет агенту обобщать полученные знания и улучшать результаты на разнообразных задачах. Эффективность масштабирования данных проявляется в устойчивом росте показателей производительности с увеличением объема обучающей информации, обеспечивая адаптацию к новым сценариям и повышение надежности работы агента в динамически меняющихся условиях. Использование стратегий масштабирования данных позволяет избежать насыщения модели и поддерживать ее эффективность на протяжении длительного времени.

Результаты масштабирования данных для OpenSWE показывают, что модели размером 72B (синий) и 32B (красный) с использованием SWE-Agent (залитые маркеры) демонстрируют более стабильные кривые обучения по сравнению с OpenHands (пустые маркеры).

Интеллект внутри: большие языковые модели и путь к обобщению

Автономные агенты для разработки программного обеспечения основываются на больших языковых моделях (LLM) как на ключевом элементе логического мышления. Эти модели служат своеобразным “мозгом” агента, позволяя ему интерпретировать поставленные задачи, понимать намерения разработчика и генерировать соответствующий код. В отличие от традиционных систем, где каждая операция жестко запрограммирована, LLM обеспечивают гибкость и способность к обобщению, позволяя агентам решать задачи, не встречавшиеся им в процессе обучения. Использование LLM позволяет агентам не просто следовать инструкциям, но и рассуждать, планировать и адаптироваться к изменяющимся требованиям, что является важным шагом на пути к созданию действительно автономных систем разработки.

В основе создания автономных агентов для разработки программного обеспечения, таких как SWE-Agent и OpenHands, лежат современные большие языковые модели, в частности Qwen2.5. Данная модель служит ключевым компонентом, обеспечивающим способность агентов понимать и интерпретировать требования к программному обеспечению, сформулированные на естественном языке. Qwen2.5 предоставляет необходимую основу для генерации корректного и функционального кода, позволяя агентам автоматически преобразовывать текстовое описание задачи в работающий программный продукт. Благодаря этому, агенты способны решать задачи, требующие не только лингвистического анализа, но и логического мышления, необходимого для написания эффективного кода, что является важным шагом на пути к созданию универсальных агентов для разработки программного обеспечения.

Агенты, основанные на больших языковых моделях, демонстрируют значительный прогресс в понимании естественного языка и, что особенно важно, в математическом рассуждении. Исследования показывают, что подобные системы способны не просто обрабатывать текстовые запросы, но и логически выводить решения, требующие математических операций и анализа. В частности, наблюдается улучшение более чем на 29% в результатах на бенчмарке HumanEval, который оценивает способность генерировать корректный код на основе текстовых описаний. Этот прогресс свидетельствует о том, что агенты становятся все более компетентными в решении сложных задач, требующих не только лингвистического понимания, но и способности к абстрактному мышлению и логическим выводам, что является важным шагом на пути к созданию систем с общим искусственным интеллектом.

Основная цель разработки подобных агентов — преодоление ограничений, свойственных традиционным системам искусственного интеллекта, и достижение способности решать широкий спектр задач в области разработки программного обеспечения, не ограничиваясь лишь теми, на которых они были обучены. Это подразумевает создание систем, способных к обобщению знаний и адаптации к новым, ранее не встречавшимся ситуациям, что критически важно для автоматизации сложных инженерных процессов. Успех в этой области позволит значительно расширить возможности автоматизации в программировании, позволяя агентам самостоятельно справляться с более сложными и разнообразными задачами, требующими творческого подхода и глубокого понимания предметной области, а не просто слепого следования заученным шаблонам.

Наблюдая за увлечением разработчиков большими языковыми моделями и попытками автоматизировать разработку, вспоминается старая мудрость Брайана Кернигана: «Простота — это главное. Если что-то сложное, значит, вы упустили что-то важное». Работа, представленная в статье о daVinci-Env и OpenSWE, демонстрирует, что даже самые передовые инструменты, вроде агентов для разработки программного обеспечения, требуют тщательной подготовки и качественных данных. Создание масштабируемой и прозрачной среды для обучения, как это делается в OpenSWE, — это не революция, а скорее возвращение к основам: качественные данные и контролируемая среда всегда были важнее модных фреймворков. В конечном счете, вся эта погоня за автоматизацией сводится к тому, чтобы просто заново изобрести старые баги, только теперь с использованием более сложных инструментов.

Что дальше?

Представленная работа, безусловно, демонстрирует возможности масштабирования синтеза сред разработки. Однако, стоит признать: каждая «оптимизация» обучения — это лишь отсрочка неизбежного. Рано или поздно, даже тщательно отобранные данные начнут давать сбои, а агенты — искать лазейки, не предусмотренные архитектурой. И тогда возникнет необходимость в новой итерации, в новом наборе «идеальных» сред, в новой иллюзии контроля.

Очевидно, что ключевым вызовом остаётся не столько создание обучающих данных, сколько их верификация. Создание среды — задача алгоритмическая. Поддержание её адекватности — искусство. Более того, стоит задуматься о природе «прогресса». Улучшение метрик на SWE-Bench — это, несомненно, хорошо. Но действительно ли это приближает нас к созданию агентов, способных решать нетривиальные задачи в реальном мире, где требования меняются быстрее, чем успевают скомпилироваться тесты?

В конечном счёте, OpenSWE — это ещё один шаг на пути к автоматизации разработки. Но архитектура — это не схема, а компромисс, переживший деплой. И в этой гонке за эффективностью легко забыть о простом: код, как и жизнь, редко бывает идеальным. Иногда нам приходится не рефакторить код, а реанимировать надежду.

Оригинал статьи: https://arxiv.org/pdf/2603.13023.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-16 21:42

🚀 Квантовые новости