REVERE: Самообучающийся помощник для воспроизведения научных исследований

Автор: Денис Аветисян

Новая система REVERE позволяет автоматизировать и повысить надежность воспроизведения результатов научных вычислений, используя возможности больших языковых моделей.

В рамках разработанной платформы REVERE осуществляется итеративная оптимизация посредством динамической адаптации трёх редактируемых полей запроса - системного, задающего и справочного - с использованием кодовой модификации, глобального контекста обучения и обратной связи по результатам оценки. — В рамках разработанной платформы REVERE осуществляется итеративная оптимизация посредством динамической адаптации трёх редактируемых полей запроса — системного, задающего и справочного — с использованием кодовой модификации, глобального контекста обучения и обратной связи по результатам оценки.

REVERE — это самоадаптирующийся агент, который улучшает воспроизводимость исследовательского кода, используя траектории выполнения и глобальный контекст обучения для стабильного накопления знаний.

Существующие подходы к оптимизации запросов для больших языковых моделей часто не учитывают глобальный контекст и повторяющиеся закономерности, что приводит к низкой обобщающей способности. В данной работе представлена система ‘REVERE: Reflective Evolving Research Engineer for Scientific Workflows’ — фреймворк, непрерывно обучающийся на основе траекторий выполнения задач и аккумулирующий знания в глобальном контексте для стабильного улучшения результатов воспроизведения исследовательского кода. Эксперименты показали, что REVERE превосходит современные системы на бенчмарках SUPER, ResearchCodeBench и ScienceAgentBench, демонстрируя прирост производительности до 4.89% по соответствующим метрикам. Способны ли самоадаптирующиеся агенты, обладающие механизмами непрерывного обучения и консолидации знаний, кардинально изменить подход к автоматизации научных исследований?

Неизбежные издержки воспроизводимости: Почему код требует больше, чем просто синтаксис

Большие языковые модели (БЯМ) демонстрируют значительный потенциал в автоматизации рутинных задач, однако воспроизведение исследовательского кода представляет собой серьезную проблему из-за требуемой точности. В отличие от генерации текста или суммирования информации, где допустимы определенные отклонения, корректное функционирование научного кода критически зависит от каждого символа и логической связи. БЯМ, обученные на огромных объемах данных, часто испытывают трудности с пониманием контекста, специфичного для конкретного исследовательского проекта, и могут генерировать код, который синтаксически верен, но функционально неверен или не соответствует исходным требованиям. Эта проблема усугубляется сложностью современных научных вычислений, где код часто включает в себя специализированные библиотеки, алгоритмы и методы анализа данных, требующие глубокого понимания предметной области.

Традиционные методы промптинга, как правило, оказываются недостаточными при работе с кодом, используемым в научных исследованиях, из-за его внутренней сложности и необходимости глубокого понимания контекста. Научный код часто характеризуется многослойностью, специфическими зависимостями и неявными предположениями, которые трудно точно передать в простом текстовом запросе. Необходимость учитывать нюансы реализации, особенности используемых библиотек и специфику предметной области требует от системы не просто поиска совпадений, но и способности к логическому выводу и адаптации к различным ситуациям. Простое перефразирование задачи или предоставление фрагментов кода, как правило, не позволяет модели воспроизвести функциональность с требуемой точностью, подчеркивая важность разработки более сложных и контекстно-зависимых подходов к промптингу.

Воспроизведение исследовательского кода требует не просто следования инструкциям, но и развитых навыков логического мышления и умения адаптироваться к неожиданным ситуациям. Статичные запросы, даже тщательно сформулированные, часто оказываются недостаточными, поскольку реальный код редко бывает полностью задокументирован или соответствует предсказуемым шаблонам. Успешное повторение экспериментов предполагает способность к дедуктивному анализу, пониманию взаимосвязей между различными частями кода и умению находить решения в условиях неполной или противоречивой информации. По сути, требуется своего рода «цифровой археолог», способный восстановить логику работы кода, даже если исходные условия или документация фрагментарны, что значительно превосходит возможности стандартных, заранее заданных команд.

В процессе онлайн-адаптации промпт <span class="katex-eq" data-katex-display="false">\mathcal{F}_{x}</span> последовательно уточняется путем структурированного накопления инструкций: добавления (зеленым), модификации (оранжевым) и удаления (красным), что свидетельствует о постепенной оптимизации, а не о полной перестройке промпта. — В процессе онлайн-адаптации промпт $\mathcal{F}_{x}$ последовательно уточняется путем структурированного накопления инструкций: добавления (зеленым), модификации (оранжевым) и удаления (красным), что свидетельствует о постепенной оптимизации, а не о полной перестройке промпта.

REVERE: Самообучающийся агент для тех, кто устал от рутины

В отличие от статических промптов, которые часто оказываются неэффективными при решении сложных задач программирования, REVERE использует итеративную адаптацию промптов. Этот подход предполагает динамическое изменение промптов на основе результатов предыдущих итераций и анализа ошибок. Вместо фиксированного набора инструкций, REVERE непрерывно совершенствует промпты, позволяя агенту более эффективно справляться с усложняющимися требованиями задачи и повышать точность генерируемого кода. Итеративная адаптация позволяет системе самостоятельно корректировать стратегию решения, обходя ограничения, присущие статическим промптам и улучшая общую производительность в процессе выполнения задачи.

В основе REVERE лежит агент “Рефлектор”, предназначенный для диагностики неудач и стратегического редактирования запросов (prompts). Этот агент анализирует результаты выполнения задач, выявляет причины ошибок и, на основе этого анализа, автоматически вносит изменения в исходные запросы. Редактирование запросов происходит не случайным образом, а целенаправленно, с целью повышения эффективности и надежности последующих итераций. В результате, система непрерывно совершенствуется, адаптируясь к сложным задачам кодирования и снижая необходимость ручной корректировки запросов.

В основе адаптивности REVERE лежит ‘Глобальный контекст обучения’ (Global Training Context) — механизм постоянной памяти, аккумулирующий историю опыта и рефлексии. Этот контекст представляет собой структурированное хранилище, содержащее информацию о предыдущих попытках решения задач, включая входные данные, сгенерированные ответы и результаты их оценки. Он также включает в себя данные о процессе самоанализа агента — диагностике неудач и стратегиях модификации промптов. Использование ‘Глобального контекста обучения’ позволяет REVERE не просто запоминать конкретные решения, но и извлекать уроки из ошибок, обобщать полученный опыт и применять его для улучшения производительности в новых, аналогичных задачах. Фактически, это позволяет системе постепенно совершенствоваться, адаптируясь к особенностям решаемых задач без необходимости явного перепрограммирования.

Анализ эффективности фреймворка REVERE показывает, что итеративное увеличение длины запроса позволяет достичь лучших результатов на бенчмарке SUPER, при этом общая стоимость вычислений (в долларах США) сопоставима с подходами ACE и GEPA, а распределение результатов по вызовам инструментов редактирования кода стабильно на всех бенчмарках (SUPER, RCB, SAB).

Мелкие штрихи, большая картина: Тонкая настройка и адаптация промптов

Структура промптов в REVERE состоит из трех ключевых компонентов. ‘Системный промпт’ (System Prompt) определяет общее поведение модели, задавая глобальные правила и ограничения. ‘Промпт задачи’ (Task Prompt) предоставляет конкретные инструкции и детали для выполнения текущей задачи. Наконец, ‘Чиатшит’ (Cheatsheet) содержит оптимизированные стратегии, шаблоны и примеры, которые используются для повышения эффективности и точности ответов модели. Такое разделение позволяет точно контролировать поведение модели и адаптировать её к различным типам задач.

Агент “Reflector” использует механизм редактирования на основе кода для точной модификации промптов. Этот механизм позволяет агенту анализировать случаи неудачного выполнения задачи и вносить целенаправленные корректировки в промпт, избегая общих правок и фокусируясь на конкретных причинах ошибки. Вместо перегенерации всего промпта, агент изменяет отдельные его части, используя программный код для внесения изменений, что обеспечивает более эффективную и контролируемую адаптацию к возникающим проблемам и повышает надежность системы.

В системе REVERE для расширения возможностей адаптации промптов используются передовые методы ACE (Automatic Chain-of-Thought Editing) и GEPA (Gradient-based Prompt Adaptation). ACE автоматически корректирует цепочку рассуждений модели, выявляя и исправляя логические ошибки в процессе генерации ответа. GEPA, в свою очередь, использует градиентный спуск для оптимизации промпта непосредственно на основе обратной связи от модели, позволяя добиться более точного соответствия между запросом и результатом. Оба метода направлены на повышение производительности REVERE при решении сложных задач, требующих многоступенчатого анализа и рассуждений.

Анализ результатов на бенчмарке SUPER показывает, что GEPA, отбирая наиболее перспективные запросы, превосходит базовый уровень и современные аналоги по общей производительности и эффективности использования инструментов, особенно в задачах, требующих комбинированного использования чтения, редактирования, записи и запуска кода.

Доказательство концепции: REVERE в действии на передовых бенчмарках

Система REVERE демонстрирует впечатляющую способность к восстановлению исследовательского кода, последовательно превосходя существующие подходы на бенчмарке ‘ResearchCodeBench’. В ходе тестирования зафиксировано увеличение производительности на 3.51% по сравнению с результатами, показанными ведущими экспертами в данной области. Этот показатель подтверждает эффективность разработанного фреймворка в задачах, требующих понимания и реконструкции сложного программного кода, используемого в научных исследованиях, и открывает новые возможности для автоматизации и ускорения процесса разработки.

В рамках строгой оценки долгосрочной работы агентов, занимающихся кодированием для научных исследований — эталонного теста ‘SUPER Benchmark’ — разработанная платформа демонстрирует значительные результаты, превосходя показатели, достигнутые людьми, на 4.50%. Этот прирост производительности подтверждает способность системы эффективно решать сложные задачи, требующие последовательного выполнения действий на протяжении длительного периода времени. Данный показатель указывает на перспективность использования платформы для автоматизации этапов научных исследований, связанных с программированием и анализом данных, и открывает возможности для ускорения темпов научных открытий.

Исследования на платформе ‘ScienceAgentBench’ демонстрируют высокую эффективность REVERE в решении задач, связанных с анализом данных и проведением научных исследований. Система превзошла результаты, достигнутые людьми, на 4.89%, подтверждая свою применимость в области эмпирических наук. Особенно важно, что адаптация REVERE к новым задачам оказывается в десять раз экономичнее, чем использование альтернативных подходов, что делает ее привлекательным инструментом для исследователей, стремящихся оптимизировать затраты и повысить производительность в своей работе.

Для ResearchCodeBench и ScienceAgentBench использовались запросы, слегка адаптированные для совместимости с используемой системой.

Наблюдая за развитием REVERE, становится ясно, что попытки создать самоадаптирующиеся системы — это всегда игра с неизбежным техдолгом. Этакий вечный поиск стабильности в хаосе воспроизведения исследовательского кода. Система, стремящаяся к накоплению глобального контекста обучения, кажется элегантной в теории, но практика, как всегда, внесёт свои коррективы. Как метко заметил Дональд Кнут: «Прежде чем оптимизировать код, убедитесь, что он не работает». REVERE, безусловно, пытается решить проблему воспроизводимости, но стоит помнить: если баг воспроизводится — значит, у нас стабильная система, а значит, есть над чем работать. И документация, вероятно, уже устарела.

Что дальше?

Представленная работа, конечно, демонстрирует потенциал самоадаптирующихся агентов в области воспроизводимости научных вычислений. Однако, архитектура, даже столь элегантная, — это всегда компромисс, переживший деплой. Проблема не в оптимизации промптов, а в фундаментальной непостоянстве самой «научной истины». Сегодня найденный «оптимум» завтра будет переоптимизирован, а затем, вероятно, и вовсе отвергнут. REVERE, безусловно, шаг вперёд, но лишь в сторону более сложного управления техническим долгом.

Более того, сохранение «глобального контекста обучения» — задача, обречённая на частичное проваливание. Всякий «глобальный» контекст — это иллюзия, удобная для разработчика, но неизбежно искажающая реальность. Данные устаревают, методы меняются, и даже самые тщательно выверенные модели рано или поздно нуждаются в переосмыслении. Мы не рефакторим код — мы реанимируем надежду.

Будущие исследования, вероятно, сосредоточатся на механизмах «забывания» и адаптации к меняющимся условиям. Необходимо искать способы, позволяющие агентам не только накапливать знания, но и отбрасывать устаревшие, избегая когнитивного диссонанса и чрезмерной сложности. В конечном счёте, всё, что оптимизировано, рано или поздно оптимизируют обратно.

Оригинал статьи: https://arxiv.org/pdf/2603.20667.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-24 16:45

🚀 Квантовые новости