Автор: Денис Аветисян
Новая система искусственного интеллекта, обученная на небольшом объеме общедоступных данных, демонстрирует впечатляющие результаты в проведении научных исследований.

DR-Venus — 4-параметровый агент глубокого обучения, использующий методы обучения с подкреплением и передискретизации траекторий для достижения производительности, сравнимой с более крупными моделями.
Несмотря на растущий интерес к агентам глубоких исследований на основе больших языковых моделей, их развертывание на периферийных устройствах ограничено потребностью в огромных объемах данных и вычислительных ресурсах. В работе ‘DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data’ представлен DR-Venus — передовой агент с 4B параметрами, обученный исключительно на открытых данных, демонстрирующий высокую производительность и сокращающий отставание от более крупных моделей благодаря улучшению качества данных и эффективным методам обучения с подкреплением. Агент использует траекторное повторное семплирование и вознаграждения на основе прироста информации для повышения эффективности обучения. Каковы перспективы дальнейшего масштабирования и оптимизации подобных компактных агентов для решения сложных исследовательских задач в реальном времени?
Сложность как Препятствие: Поиск Истинной Глубины Рассуждений
Современные большие языковые модели, демонстрирующие впечатляющие результаты в различных областях, сталкиваются с существенными трудностями при решении задач, требующих сложного, многоступенчатого рассуждения и обширного сбора информации. В отличие от человека, способного формировать гипотезы, проверять их и итеративно углублять понимание, эти модели зачастую ограничены в способности к последовательному анализу и синтезу знаний из различных источников. Несмотря на способность генерировать связные тексты и отвечать на вопросы, они испытывают затруднения при решении проблем, требующих не просто извлечения фактов, а их критической оценки, сопоставления и применения в новом контексте. Эта неспособность к глубокому анализу и поиску информации ограничивает их возможности в решении сложных научных, технических и творческих задач, требующих настоящего интеллектуального исследования.
В настоящее время многие подходы к развитию искусственного интеллекта для глубоких исследований основываются на простом увеличении масштаба вычислительных ресурсов и объемов данных — так называемом “грубом” масштабировании. Однако, подобная стратегия оказывается неэффективной и чрезвычайно дорогостоящей, поскольку не позволяет ИИ действительно понимать и анализировать информацию, а лишь позволяет ему находить статистические закономерности. Увеличение мощности не решает проблему необходимости логических выводов, синтеза информации из различных источников и адаптации к новым, ранее не встречавшимся ситуациям. В результате, даже самые мощные модели часто сталкиваются с трудностями при решении сложных задач, требующих глубокого понимания и многоступенчатого рассуждения, что подчеркивает потребность в принципиально новых подходах к созданию ИИ.
В настоящее время, для преодоления ограничений существующих больших языковых моделей в области сложного, многоступенчатого рассуждения, необходим принципиально новый подход. Вместо простого увеличения масштаба, исследования направлены на имитацию итеративного, исследовательского процесса, характерного для человеческого мышления. Данный подход предполагает не линейное следование к решению, а активный поиск информации, выдвижение и проверку гипотез, а также пересмотр стратегии в зависимости от полученных результатов. Такой метод позволит искусственному интеллекту не просто обрабатывать данные, но и самостоятельно формировать знания, подобно тому, как это делает ученый, проводящий исследование, что открывает перспективы для решения задач, ранее считавшихся невыполнимыми.
Преодоление трудностей в области глубокого рассуждения открывает путь к принципиально новому поколению искусственного интеллекта, способного решать задачи, ранее считавшиеся неразрешимыми. Такие системы смогут не просто обрабатывать информацию, но и самостоятельно проводить сложные исследования, объединяя разрозненные данные и выдвигая обоснованные гипотезы. Это позволит автоматизировать научные открытия в различных областях — от разработки новых лекарств и материалов до решения глобальных экологических проблем. В перспективе, подобные ИИ смогут не только находить ответы на существующие вопросы, но и формулировать новые, продвигая границы человеческого знания и открывая возможности для инноваций, которые сегодня сложно даже представить.
DR-Venus: Агент для Глубокого Исследования в Ограниченном Пространстве
DR-Venus представляет собой агент для глубоких исследований, имеющий 4 миллиарда параметров и предназначенный для автономного выполнения сложных исследовательских задач. Его архитектура оптимизирована для работы на устройствах с ограниченными ресурсами («edge-scale»), что позволяет развертывать его локально, а не полагаться на облачные вычисления. Агент способен самостоятельно формулировать исследовательские вопросы, искать релевантную информацию, анализировать данные и синтезировать результаты, минимизируя необходимость ручного вмешательства. Это отличает DR-Venus от традиционных систем, требующих постоянного контроля и управления со стороны человека.
Обучение агента DR-Venus осуществляется в два этапа. Первоначально, этап Agentic SFT (Supervised Fine-Tuning) формирует базовые навыки проведения исследований, обучая модель на размеченных данных и определяя общую стратегию решения исследовательских задач. Последующий этап, Agentic RL (Reinforcement Learning), направлен на повышение надежности выполнения этих задач, используя обучение с подкреплением для оптимизации последовательности действий и повышения устойчивости к ошибкам и неточностям в процессе исследования. Комбинация этих двух подходов позволяет достичь высокой производительности при относительно небольшом размере модели.
Ключевым элементом фреймворка DR-Venus является интеграция инструментов поиска и веб-серфинга, позволяющих агенту активно собирать и синтезировать информацию. Инструмент поиска обеспечивает доступ к широкому спектру источников данных, в то время как инструмент веб-серфинга позволяет извлекать информацию непосредственно с веб-страниц. Эти инструменты функционируют не как пассивные источники данных, а как активные компоненты исследовательского процесса, позволяя агенту формулировать запросы, анализировать полученные результаты и извлекать релевантную информацию для решения поставленной задачи. Комбинация этих инструментов позволяет DR-Venus проводить самостоятельный сбор данных, обходя ограничения, связанные с фиксированными наборами данных, и обеспечивая актуальность и полноту информации, используемой в процессе исследования.
DR-Venus демонстрирует передовые результаты среди небольших моделей благодаря сочетанию мощной архитектуры и целенаправленного обучения. В ходе тестирования на ряде бенчмарков, оценивающих глубину исследований, DR-Venus показала результаты, сопоставимые с моделями значительно большего размера — порядка 30 миллиардов параметров. Это достигнуто за счет двухэтапного процесса обучения: Agentic SFT закладывает базовые навыки исследования, а Agentic RL повышает надежность и точность выполнения задач. Такая комбинация позволяет DR-Venus эффективно решать сложные исследовательские задачи, несмотря на относительно небольшой размер — 4 миллиарда параметров.

Оптимизация для Долгосрочного Успеха: Итеративный Подход к Обучению
Агентное обучение с подкреплением (Agentic SFT) использует методы очистки траекторий (Trajectory Cleaning) и повторной выборки длинных горизонтов (Long-Horizon Resampling) для повышения качества обучающих данных и эффективности обучения. Очистка траекторий направлена на удаление из обучающей выборки нежелательных или неэффективных действий агента, таких как повторения или тупиковые ветви. Повторная выборка длинных горизонтов увеличивает представленность в обучающей выборке более длинных и успешных последовательностей действий, что позволяет агенту лучше усваивать стратегии, требующие планирования на несколько шагов вперед. Эти техники совместно обеспечивают более стабильное и быстрое обучение, особенно в задачах, требующих последовательного принятия решений.
В основе фреймворка лежит обучение с подкреплением (RL) с использованием Agentic RL и оптимизации на основе информационного прироста (IGPO). IGPO позволяет формировать плотные награды на каждом шаге (turn-level rewards), что критически важно для управления действиями агента в сложных многошаговых задачах. В отличие от разреженных наград, получаемых только в конце эпизода, плотные награды предоставляют сигнал обратной связи после каждого действия, направляя агента к желаемому поведению на протяжении всего исследовательского процесса и ускоряя обучение.
В сложных многошаговых задачах критически важным фактором достижения высокой производительности является использование пошаговых (turn-level) вознаграждений. В отличие от традиционных подходов, где вознаграждение предоставляется только по завершении всей задачи, пошаговые вознаграждения предоставляют немедленную обратную связь агенту за каждое выполненное действие. Это позволяет агенту более эффективно исследовать пространство действий, быстро обучаться корректной последовательности шагов и избегать застревания в неоптимальных стратегиях. Предоставление вознаграждения на каждом этапе обучения позволяет агенту лучше понимать, какие действия способствуют достижению конечной цели, и, как следствие, оптимизировать свою политику для максимизации общей производительности.
Комбинация обучения с подкреплением (RL) и предварительного обучения с помощью контролируемого обучения (SFT) позволила модели DR-Venus продемонстрировать превосходство над SFT-базовой линией. В частности, на бенчмарке BrowseComp DR-Venus показала прирост в +2.3 пункта, а на BrowseComp-ZH — +2.0 пункта. Данные результаты свидетельствуют о том, что использование RL в сочетании с SFT эффективно повышает производительность модели в задачах, требующих многошагового планирования и принятия решений.

Оценка и Понимание Возможностей DR-Venus: Перспективы Автоматизированного Исследования
Для оценки возможностей DR-Venus использовались метрики, такие как Pass@K, демонстрирующие способность агента успешно завершать задачи. В ходе тестирования на наборах данных BrowseComp и BrowseComp-ZH, DR-Venus показал результат в 29.1 баллов по каждой из этих метрик. Данный показатель отражает эффективность системы в навигации по информации и поиске релевантных ответов на заданные вопросы, подтверждая её потенциал для глубокого анализа и исследований в различных областях знаний. Одинаковые результаты на обоих наборах данных, включая англоязычный и китайский, указывают на способность системы эффективно работать с разными языками и источниками информации.
Анализ коэффициента просмотра (Browse Ratio) демонстрирует возрастающую зависимость агента DR-Venus от внешних источников информации в процессе исследования. Изначально составляя 23.71% при использовании базовой модели SFT, данный показатель увеличился до 28.96% после применения обучения с подкреплением (RL). Это указывает на то, что DR-Venus активно использует возможности поиска и анализа данных в интернете для более глубокого и всестороннего изучения заданных вопросов, что является важным шагом к созданию действительно интеллектуальных систем для научных исследований и синтеза знаний. Увеличение коэффициента просмотра свидетельствует о способности агента к самостоятельному обогащению информацией и адаптации к сложным запросам.
В ходе оценки возможностей DR-Venus на специализированных наборах данных xBench-DS-2505 и xBench-DS-2510, система продемонстрировала результат в 74.7 баллов. Этот показатель приближается к производительности значительно более крупной системы Tongyi-DR-30B, набравшей 75.0 баллов. Полученные данные свидетельствуют о высокой эффективности DR-Venus в решении сложных исследовательских задач, несмотря на относительно меньший размер модели, и указывают на перспективность дальнейшей оптимизации и масштабирования подобных агентов для глубокого анализа и синтеза знаний.
Полученные результаты указывают на многообещающее будущее для автоматизированных глубоких исследований, способных кардинально изменить подходы в таких областях, как научные открытия и синтез знаний. Возможность агентов, подобных DR-Venus, самостоятельно осуществлять поиск, анализ и обобщение информации открывает перспективы для ускорения научных исследований и преодоления ограничений, связанных с ручным сбором и обработкой данных. Автоматизация процесса исследования позволит ученым сосредоточиться на более сложных задачах — формулировании гипотез и интерпретации результатов, — а также откроет доступ к знаниям для более широкого круга специалистов, не обладающих глубокой экспертизой в области информационного поиска. В перспективе, подобные системы могут значительно ускорить темпы научных открытий и способствовать развитию новых технологий.
Исследование, представленное в данной работе, стремится к упрощению сложного процесса научных изысканий, что находит отклик в философии ясности и лаконичности. Авторы демонстрируют, как даже относительно небольшая модель, DR-Venus, способна достичь впечатляющих результатов благодаря тщательному отбору данных и эффективным алгоритмам обучения с подкреплением. Как однажды заметил Давид Гильберт: «Главное — не количество знаний, а умение их применять». Эта фраза прекрасно иллюстрирует подход, реализованный в DR-Venus — акцент делается не на размере модели, а на качестве данных и эффективности обучения, что позволяет приблизиться к результатам, достигаемым более крупными системами, используя лишь 10 тысяч открытых данных.
Что дальше?
Представленная работа, несомненно, демонстрирует, что умение — в качестве, а не в количестве. Четыре миллиарда параметров, обученные на открытых данных, — это не столько технологический прорыв, сколько напоминание о важности фундаментальных принципов. Однако, говорить о завершенности было бы наивно. Остаётся нерешенным вопрос о масштабируемости: насколько эффективно предложенные методы будут работать с действительно большими объемами данных, когда шум и противоречия неизбежно возрастут?
Попытки обойти необходимость в огромных датасетах, используя методы, основанные на усилении обучения и пересемплировании траекторий, заслуживают внимания, но не отменяют необходимости в более глубоком понимании принципов, лежащих в основе эффективного исследования. Ясность — это минимальная форма любви, и в данном контексте она заключается в четком определении целей и критериев оценки. Что есть «хорошее» исследование? Ответ на этот вопрос пока ускользает.
Будущие исследования, вероятно, будут сосредоточены на разработке более устойчивых и адаптивных алгоритмов, способных самостоятельно определять релевантную информацию и игнорировать шум. Простое увеличение размера модели — это путь наименьшего сопротивления, но истинный прогресс требует более глубокого понимания принципов, лежащих в основе интеллекта. Сложность — это тщеславие.
Оригинал статьи: https://arxiv.org/pdf/2604.19859.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Согласие роя: когда разум распределён, а ошибки прощены.
- Эволюция под контролем: эксперименты с обучением с подкреплением в генетическом программировании
- Язык тела под присмотром ИИ: архитектура и гарантии
- Искусственный интеллект в разговоре: что обсуждают друг с другом AI?
- Безопасность генерации изображений: новый вектор управления
- Искусственный интеллект в университете: кто за кого работу делает?
- Умная экономия: Как сжать ИИ без потери качества
- Разбираемся с разреженными автокодировщиками: Действительно ли они учатся?
- Глубина восприятия: Масштабирование 3D-моделирования с помощью данных
- Видеовопросы и память: Искусственный интеллект на грани
2026-04-23 06:56