Разумные агенты: Новая эра глубоких исследований

Автор: Денис Аветисян

Представлен MindDR — экономичный фреймворк для глубоких исследований, использующий многоагентные системы и достигающий передовых результатов с моделями порядка 30 миллиардов параметров.

Система MindDR-v1.5 демонстрирует превосходство над существующими DR-системами, добиваясь наивысших результатов по всем пяти метрикам, оцениваемым на общедоступном рейтинге DeepResearch-Benchmark.

Многоагентный фреймворк MindDR для синтеза данных и многоэтапного обучения обеспечивает высокую эффективность поиска и соответствие предпочтениям.

Поиск и анализ информации в больших объемах данных часто требует значительных вычислительных ресурсов и крупных языковых моделей. В данной работе, представленной в ‘Mind DeepResearch Technical Report’, предлагается фреймворк MindDR — эффективная многоагентная система для глубоких исследований, достигающая передовых результатов с моделями порядка $30$ миллиардов параметров благодаря тщательно спроектированному конвейеру синтеза данных и многоэтапному обучению. MindDR демонстрирует конкурентоспособные показатели на различных бенчмарках, включая MindDR Bench, превосходя сопоставимые по масштабу открытые системы и приближаясь к результатам более крупных моделей. Какие перспективы открываются для дальнейшей оптимизации и масштабирования подобных многоагентных систем в задачах интеллектуального поиска и анализа информации?

Глубокое Познание: Вызовы и Перспективы

Традиционные методы информационного поиска, разработанные для более простых задач, зачастую оказываются неэффективными при работе с современными объемами и сложностью данных. Поверхностный анализ, основанный на ключевых словах и простых алгоритмах ранжирования, не позволяет выявить скрытые взаимосвязи и нюансы, необходимые для глубокого исследования. В результате, исследователь может столкнуться с неполными или вводящими в заблуждение результатами, что требует значительных усилий для верификации и синтеза информации. Это особенно актуально в областях, где знания фрагментированы и представлены в различных форматах, требуя от исследователя не только доступа к данным, но и способности критически оценивать их достоверность и релевантность.

Несмотря на впечатляющий прогресс в области больших языковых моделей (LLM), простое увеличение их масштаба не способно обеспечить глубокое исследование. Хотя LLM демонстрируют способность генерировать текст и извлекать информацию, им часто не хватает критического мышления, способности к планированию сложных многоэтапных задач и умения разрешать противоречия в данных. Глубокое исследование требует не только обширных знаний, но и способности к логическому анализу, построению гипотез, проверке достоверности источников и синтезу информации из различных областей, что выходит за рамки возможностей современных LLM, работающих преимущественно на основе статистического анализа закономерностей в данных. Необходимо разрабатывать принципиально новые подходы, сочетающие возможности LLM с методами символьного искусственного интеллекта и техниками активного обучения, чтобы добиться истинно глубокого понимания и генерации новых знаний.

Эффективное глубокое исследование требует не просто обширных знаний, но и развитых навыков логического мышления, стратегического планирования и разрешения противоречий. Современные информационные потоки характеризуются сложностью и неоднозначностью, поэтому для извлечения ценных выводов необходимо уметь не только находить релевантные данные, но и критически оценивать их достоверность, выявлять внутренние противоречия и строить последовательные аргументы. Успешное исследование предполагает способность разбивать сложные вопросы на более мелкие, формулировать гипотезы, выбирать оптимальные методы проверки и адаптироваться к новым данным, возникающим в процессе анализа. В конечном итоге, глубина исследования определяется не объемом накопленных знаний, а умением эффективно использовать эти знания для решения сложных задач и достижения обоснованных выводов.

В рамках Report-RL, политик генерирует отчет на основе длинного входного текста, а мощная языковая модель, такая как Gemini 3.1 Pro, создает эталонный отчет и оценивает сгенерированный отчет по критериям RACE, при этом MindDR демонстрирует превосходство над дистиллированной мощной языковой моделью на DeepResearch Bench и MindDR Bench.

MindDR: Архитектура для Глубокого Исследования

Архитектура MindDR основана на специализированной многоагентной системе, включающей в себя три основных компонента: Агент Планирования, Агент Глубокого Поиска и Агент Отчетов. Агент Планирования отвечает за декомпозицию сложных запросов на более мелкие, управляемые подзадачи. Агент Глубокого Поиска осуществляет эффективный поиск информации в многошаговых сценариях, используя различные источники данных. Агент Отчетов выполняет синтез полученной информации, разрешает возможные конфликты между источниками и генерирует итоговые, структурированные отчеты, ориентированные на восприятие человеком.

Агент планирования в MindDR выполняет декомпозицию сложных запросов на серию управляемых подзадач. Этот процесс позволяет структурировать исследовательский процесс, разбивая первоначальный запрос на более мелкие, последовательные этапы. Каждая подзадача четко определена и направлена на получение конкретной информации, необходимой для ответа на исходный запрос. Декомпозиция обеспечивает более эффективное использование ресурсов и упрощает процесс поиска и анализа информации, что особенно важно при работе со сложными и многогранными запросами.

Агент DeepSearch эффективно осуществляет многоступенчатый поиск информации, собирая релевантные данные из различных источников. Он использует стратегии последовательного уточнения запросов и комбинирования результатов из гетерогенных баз данных, включая научные статьи, веб-сайты и специализированные репозитории. В процессе поиска агент способен обрабатывать сложные логические условия, фильтровать данные по заданным критериям и оценивать достоверность источников. Для оптимизации процесса используются алгоритмы ранжирования и отсечения нерелевантной информации, что позволяет значительно сократить время поиска и повысить точность результатов.

Агент отчетов в MindDR осуществляет синтез полученной информации, поступающей от других агентов, с целью создания итогового отчета. Процесс включает в себя разрешение конфликтов между различными источниками данных и обеспечение согласованности представленных фактов. Итоговый отчет формируется с учетом требований к удобочитаемости и соответствия человеческому восприятию, что подразумевает структурированное изложение, логическую последовательность и использование понятного языка. Данный агент отвечает за генерацию всесторонних отчетов, представляющих собой консолидированное и структурированное представление результатов глубокого исследования.

Многоагентная система MindDR обрабатывает пользовательские запросы, используя планировщика для анализа намерений и декомпозиции задач, после чего независимые агенты глубокого поиска выполняют их, фиксируя ход рассуждений, а затем агрегируют результаты в связный, подтвержденный ссылками отчет.

Оптимизация MindDR: Четырехэтапный Процесс Обучения

Начальный этап обучения MindDR — SFT (Supervised Fine-Tuning) с “холодного старта” — направлен на формирование базовых навыков следования инструкциям и использования инструментов. Этот этап предполагает обучение модели на размеченном наборе данных, включающем примеры инструкций и соответствующих действий с использованием инструментов. SFT позволяет модели освоить основные принципы взаимодействия с внешними ресурсами и выполнения задач на основе заданных параметров, обеспечивая необходимую основу для последующих этапов обучения, ориентированных на оптимизацию долгосрочного планирования и генерации развернутых отчетов.

Фаза Search-RL направлена на оптимизацию долгосрочного рассуждения и эффективности поиска агента DeepSearch. В процессе обучения используется алгоритм GRPO (Generalized Reward-augmented Policy Optimization), который позволяет улучшить стратегию поиска агента, максимизируя вознаграждение за успешное извлечение релевантной информации и минимизируя затраты времени и ресурсов. GRPO позволяет агенту эффективно исследовать пространство поиска, избегая локальных оптимумов и находя оптимальные решения для сложных запросов, требующих многошагового анализа и синтеза информации.

На этапе Report-RL агент, ответственный за генерацию отчетов, специализируется на создании качественного длинноформатного контента. Для формирования сигналов вознаграждения используется методика DAPO (Direct Preference Optimization), позволяющая напрямую оптимизировать модель на основе предпочтений, а также LLM-as-Judge — подход, при котором другая большая языковая модель оценивает качество генерируемого текста, предоставляя обратную связь для улучшения. Эта комбинация позволяет обучать модель генерировать отчеты, соответствующие определенным критериям качества и содержательности, без необходимости ручной оценки каждого отчета.

Этап предпочтительной настройки (Preference Alignment) использует обратную связь от людей для калибровки системы и приведения ее поведения в соответствие с человеческими ожиданиями. В процессе обучения модель оценивает различные варианты отчетов, а люди предоставляют оценки, указывающие на предпочтительные результаты с точки зрения точности и информативности. Эти данные используются для обучения модели ранжированию отчетов и генерации контента, наиболее соответствующего человеческим предпочтениям, что повышает качество и полезность итоговых отчетов.

В процессе обучения Search-RL наблюдается динамическое изменение коэффициентов вознаграждения <span class="katex-eq" data-katex-display="false">\lambda_{tool}</span>, <span class="katex-eq" data-katex-display="false">\lambda_{format}</span>, <span class="katex-eq" data-katex-display="false">\lambda_{PRM}</span>, и <span class="katex-eq" data-katex-display="false">\lambda_{ORM}</span>, что позволяет последовательно оптимизировать точность ответов, покрытие сущностей, успешность использования инструментов и соответствие формату, о чем свидетельствует кривая общего вознаграждения с отмеченными ключевыми точками переключения. — В процессе обучения Search-RL наблюдается динамическое изменение коэффициентов вознаграждения $\lambda_{tool}$ , $\lambda_{format}$ , $\lambda_{PRM}$ , и $\lambda_{ORM}$ , что позволяет последовательно оптимизировать точность ответов, покрытие сущностей, успешность использования инструментов и соответствие формату, о чем свидетельствует кривая общего вознаграждения с отмеченными ключевыми точками переключения.

Эмпирическая Валидация и Производительность

Исследования показали, что разработанный фреймворк MindDR демонстрирует передовые результаты на MindDR Bench — тщательно отобранной коллекции из 500 реальных поисковых запросов на китайском языке. Данный бенчмарк позволяет оценить способность системы эффективно решать сложные задачи, требующие глубокого понимания и анализа информации. Превосходство MindDR на MindDR Bench подтверждает его высокую эффективность в обработке и интерпретации запросов на китайском языке, что делает его ценным инструментом для широкого спектра приложений, связанных с поиском и анализом информации на этом языке.

Данная разработка продемонстрировала высокие результаты не только на специализированном MindDR Bench, но и на общепризнанных платформах DeepResearch Bench и BrowseComp-ZH. Это свидетельствует о способности системы эффективно решать широкий спектр исследовательских задач и подтверждает её обобщающую способность, выходящую за рамки узкоспециализированных сценариев. Успешное применение MindDR на различных бенчмарках подчеркивает универсальность предложенного подхода и открывает перспективы для его адаптации к другим областям, требующим сложных поисковых и аналитических операций.

Разработанная система MindDR представляет собой экономически эффективную многоагентную платформу для глубоких исследований, демонстрирующую передовые результаты при использовании моделей с приблизительно 30 миллиардами параметров. В ходе сравнительных испытаний MindDR превзошла существующие открытые системы, что свидетельствует о высокой производительности и эффективности предложенного подхода. Особенностью системы является способность достигать выдающихся результатов, не требуя при этом использования чрезмерно крупных и ресурсоемких моделей, что делает ее привлекательным решением для широкого круга исследовательских задач и практических приложений.

В ходе проведения комплексных тестов, разработанная система MindDR продемонстрировала выдающиеся результаты, установив новый стандарт производительности среди открытых систем, функционирующих по принципу агентов. В частности, на бенчмарке BrowseComp-ZH, MindDR достигла показателя в 45.7%, что является наивысшим результатом на данный момент. Кроме того, в рамках MindDR Bench, система показала впечатляющий результат в 51.8 баллов по метрике RACE, подтверждая её способность к эффективному решению сложных исследовательских задач и обработке информации, представленной в различных форматах. Эти показатели свидетельствуют о высокой степени точности и надежности системы в контексте глубоких поисковых исследований.

В рамках исследования была применена инновационная методика синтеза обучающих данных на основе графа знаний. Этот подход позволил существенно повысить эффективность обучения модели MindDR, используя ограниченный объем данных для достижения высокой обобщающей способности. Граф знаний выступает в роли структурированного хранилища информации, позволяя модели извлекать и комбинировать различные факты и связи для создания разнообразных обучающих примеров. Благодаря этому, модель способна лучше понимать сложные запросы и предоставлять более точные ответы, даже в случаях, когда исходные данные ограничены или неполны. Использование графа знаний позволило добиться значительного улучшения в производительности модели по сравнению с традиционными методами обучения, требующими больших объемов размеченных данных.

Механизм расширенного логического вывода (Extended Chain-of-Thought) играет ключевую роль в эффективной координации агентов, позволяя им решать сложные задачи, требующие многоступенчатого рассуждения. В основе данного подхода лежит возможность последовательного разложения проблемы на более мелкие, взаимосвязанные подзадачи, каждая из которых решается отдельным агентом. Результаты, полученные каждым агентом, затем интегрируются и анализируются, что позволяет системе формировать целостное и обоснованное решение. Такой подход не только повышает точность и надежность ответов, но и обеспечивает прозрачность процесса рассуждения, поскольку каждый шаг логической цепочки четко определен и доступен для анализа. В результате, система способна демонстрировать сложные когнитивные способности, превосходящие возможности традиционных методов, и эффективно справляться с задачами, требующими глубокого понимания и критического мышления.

Модель MindDR 1.5, представленная в данной работе, демонстрирует превосходство над существующими аналогами сопоставимого масштаба на бенчмарке DeepResearch, что подтверждено её позицией в официальном рейтинге: [https://huggingface.co/spaces/muset-ai/DeepResearch-Bench-Leaderboard](https://huggingface.co/spaces/muset-ai/DeepResearch-Bench-Leaderboard), превосходя предыдущую версию MindDR 1.0, обученную на RFT.

Будущее Развитие: К Автономным Исследованиям

В дальнейшем планируется расширение возможностей MindDR путем масштабирования системы для работы с еще более объемными массивами данных и решения более сложных исследовательских задач. Увеличение масштаба позволит агенту извлекать более глубокие знания и устанавливать неочевидные связи в данных, что потенциально приведет к новым научным открытиям. Исследователи намерены оптимизировать архитектуру системы и алгоритмы обучения для эффективной обработки больших объемов информации, сохраняя при этом высокую скорость и точность ответов. Особое внимание будет уделено разработке методов, позволяющих MindDR адаптироваться к разнородным источникам данных и эффективно использовать их для решения сложных исследовательских вопросов.

Дальнейшее повышение эффективности агентов, подобных MindDR, напрямую связано с разработкой инновационных алгоритмов обучения с подкреплением и тщательно продуманных функций вознаграждения. Исследования в этой области направлены на создание систем, способных не просто выполнять поставленные задачи, но и самостоятельно оптимизировать стратегии поиска и анализа информации. Особое внимание уделяется алгоритмам, позволяющим агенту эффективно исследовать пространство возможных решений, избегая локальных оптимумов и находя наиболее перспективные направления исследований. Усовершенствованные функции вознаграждения, учитывающие не только непосредственный успех, но и креативность, новизну и потенциальную значимость полученных результатов, способны стимулировать агента к более глубокому и продуктивному исследованию научной информации, что в конечном итоге приведет к прорывам в различных областях знаний.

Дальнейшие исследования сосредоточены на интеграции внешних источников знаний и адаптации к постоянно меняющимся информационным ландшафтам, что является ключевым шагом к созданию по-настоящему автономных исследовательских агентов. В настоящее время системы искусственного интеллекта часто ограничены данными, на которых они обучались, и не способны эффективно использовать новую или противоречивую информацию. Разработка методов, позволяющих агентам динамически получать знания из баз данных, научных публикаций и других источников, а также оценивать их достоверность и релевантность, позволит им решать более сложные задачи и генерировать более точные и инновационные результаты. Успешная реализация этих подходов откроет возможности для непрерывного обучения и адаптации, позволяя агентам оставаться в курсе последних научных достижений и эффективно функционировать в быстро меняющемся мире информации.

Процесс обучения представленной системы демонстрирует значительное снижение требований к вычислительным ресурсам. Для достижения сопоставимых результатов потребовалось всего 1.03 миллиарда токенов для обучения и 6000 GPU-часов, что существенно меньше, чем у предшествующих поколений систем, которым требовалось 3.6 миллиарда токенов и 15000 GPU-часов. Данное достижение открывает возможности для более широкого применения подобных технологий, снижая финансовые и энергетические затраты на обучение и делая передовые исследования более доступными для различных исследовательских групп и организаций. Это свидетельствует о повышении эффективности алгоритмов и оптимизации процесса обучения, что является важным шагом на пути к созданию более устойчивых и экономичных систем искусственного интеллекта.

В перспективе, создаваемые агенты искусственного интеллекта призваны стать самостоятельными участниками научного поиска, способными самостоятельно формулировать гипотезы, проводить эксперименты и анализировать полученные данные. Такой подход предполагает не просто автоматизацию рутинных задач, но и принципиально новый способ организации научного процесса, где ИИ выступает в роли активного исследователя, ускоряющего темпы открытий и инноваций. Предполагается, что подобные системы смогут выявлять неочевидные закономерности в больших объемах информации, предлагать новые направления исследований и даже самостоятельно разрабатывать научные теории, значительно расширяя границы человеческого знания и открывая возможности для решения сложнейших задач в различных областях науки и техники.

Обучение MindDR включает в себя четырехэтапный процесс, последовательно выполняющий предварительное обучение, обучение с подкреплением, дистилляцию знаний и тонкую настройку для достижения оптимальной производительности.

Исследование, представленное в данной работе, демонстрирует стремление к упрощению сложного процесса глубокого анализа данных. MindDR, как многоагентная система, нацелена на повышение эффективности поиска и согласование предпочтений, избегая избыточности и сосредотачиваясь на существенном. Это созвучно идеям Марвина Мински: “Самое важное — начать с простого.” Данный подход к созданию системы, основанный на многоступенчатом обучении и синтезе данных, подчеркивает важность ясности и лаконичности в проектировании интеллектуальных систем. Подобно тому, как скульптор удаляет лишнее, чтобы раскрыть форму, MindDR отсекает ненужные детали, чтобы выявить наиболее значимые результаты анализа.

Что дальше?

Представленная работа, хоть и демонстрирует эффективность подхода к глубоким исследованиям с использованием относительно небольших моделей, лишь приоткрывает завесу над истинной сложностью проблемы. Оптимизация архитектуры и пайплайна обучения — это, безусловно, прогресс, но он не устраняет фундаментального вопроса: как научить систему не просто генерировать текст, а действительно понимать и синтезировать знания. Истина, как всегда, кроется в редукции. Следующим шагом видится не увеличение числа параметров, а поиск более элегантных и лаконичных способов представления информации.

Особое внимание следует уделить проблеме выравнивания предпочтений. Даже наиболее тщательно обученная система может генерировать ответы, лишенные здравого смысла или противоречащие базовым принципам логики. Добиться истинного соответствия между намерениями исследователя и результатами работы машины — задача, требующая не только усовершенствования алгоритмов, но и глубокого философского осмысления самой природы интеллекта. Эффективность — это лишь половина дела; не менее важна целесообразность.

В конечном счете, истинный прогресс заключается не в создании все более сложных систем, а в поиске простоты и ясности. В мире, перенасыщенном информацией, умение отсеять лишнее и выделить суть — это ценнейший навык. Именно к этому, возможно, и должна стремиться вся область искусственного интеллекта — к достижению интеллектуальной экономии.

Оригинал статьи: https://arxiv.org/pdf/2604.14518.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-19 17:11

🚀 Квантовые новости