Самообучающиеся агенты для автоматической настройки моделей

Автор: Денис Аветисян

Новая система позволяет искусственному интеллекту самостоятельно находить оптимальные рецепты обучения, экспериментируя и улучшая их без участия человека.

Исследование демонстрирует замкнутый цикл автоматизированной траектории поиска, где предлагаемые гипотезы, исполняемые изменения, внешние измерения и обратная связь последовательно формируют следующий шаг научного поиска.

Исследование демонстрирует систему замкнутого цикла, использующую агентов для автоматизации экспериментов и оптимизации процедур обучения моделей машинного обучения.

Поиск оптимальных рецептов обучения моделей машинного обучения традиционно требует значительных усилий и экспертных знаний. В работе ‘Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes’ представлен автоматизированный замкнутый цикл исследований, управляемый специализированными агентами, способный самостоятельно оптимизировать эти рецепты. Показано, что использование информации о «родословной» экспериментов позволяет агентам эффективно преобразовывать результаты, включая ошибки и ограничения ресурсов, в последующие изменения кода, значительно улучшая производительность моделей, например, снижая потери валидации Parameter Golf на $0.81\%$ , повышая точность NanoChat-D12 CORE на $38.7\%$ и сокращая время обучения CIFAR-10 Airbench96 на $4.59\%$ . Может ли подобный подход к автоматизированному исследованию стать основой для создания самообучающихся систем искусственного интеллекта, способных к непрерывному совершенствованию?

Автоматизированные исследования: от рутины к самообучению

Традиционные исследования в области машинного обучения часто сталкиваются с существенными временными затратами и требуют значительных ручных усилий для оптимизации так называемых «рецептов обучения». Эти рецепты, определяющие все параметры тренировки модели — от архитектуры до скорости обучения и функций потерь — требуют кропотливой настройки. Ученым приходится вручную экспериментировать с различными комбинациями параметров, оценивать полученные результаты и вносить коррективы, что является итеративным и трудоемким процессом. Этот подход не только замедляет прогресс, но и ограничивает возможность исследования более широкого спектра потенциальных конфигураций, поскольку ручная оптимизация требует огромных ресурсов и времени, препятствуя быстрому поиску оптимальных решений и масштабированию исследований.

Автоматизированный цикл исследований представляет собой принципиально новый подход к разработке моделей машинного обучения. Вместо традиционного, трудоемкого процесса ручной настройки и оптимизации, данный цикл предлагает автоматизированную методологию, способную самостоятельно генерировать гипотезы, вносить изменения в программный код и оценивать полученные результаты. Этот подход позволяет значительно ускорить процесс исследований, освобождая ученых от рутинных задач и позволяя им сосредоточиться на более сложных аспектах разработки. Самостоятельно модифицируя параметры обучения и архитектуру моделей, система способна находить оптимальные решения, которые ранее требовали значительных усилий и времени для обнаружения, открывая новые возможности для инноваций в области искусственного интеллекта.

В основе автоматизированного цикла исследований лежит концепция “рецепта обучения” — исчерпывающего набора параметров и настроек, определяющих процесс подготовки модели машинного обучения. Этот рецепт включает в себя все, начиная от архитектуры сети и выбора оптимизатора, и заканчивая размером пакета данных и стратегией аугментации. Ключевым аспектом является итеративное совершенствование этого рецепта на основе обратной связи, получаемой в результате оценки производительности модели. Цикл автоматически модифицирует параметры обучения, экспериментирует с различными конфигурациями и анализирует полученные результаты, чтобы найти наиболее эффективный рецепт, позволяющий добиться максимальной точности и скорости обучения. Таким образом, процесс оптимизации становится саморегулирующимся, освобождая исследователей от рутинной работы и позволяя им сосредоточиться на более сложных задачах.

Схема финальной рецептуры Parameter Golf демонстрирует наследование и переработку компонентов, адаптацию на этапе оценки с приоритетом оценки, обратную связь, возвращающуюся в генеалогию, и конечный артефакт, при этом данная схема была создана Claude после завершения процесса поиска и не являлась его частью.

Специализация и наследование: оптимизация пространства поиска

Для эффективного исследования обширного пространства параметров обучения моделей, концепция “Специализированных Ролей” (Specialist Roles) предполагает разделение этой области на подпространства, каждое из которых исследуется отдельным агентом или процессом. Такое разделение позволяет каждому “специалисту” концентрироваться на определенной части пространства параметров, что повышает скорость и эффективность поиска оптимальных конфигураций. Вместо единого агента, исследующего все возможные варианты, система распределяет задачу между несколькими агентами, каждый из которых обладает своей областью ответственности и экспертизы. Это обеспечивает параллельное исследование пространства параметров и снижает вероятность застревания в локальных оптимумах.

Механизм “Общей родословной” (Shared Lineage) предполагает сохранение информации о предыдущих итерациях обучения, включая параметры, результаты и метрики производительности. Это позволяет системе накапливать знания о наиболее перспективных направлениях поиска и избегать повторного исследования уже изученных конфигураций. Сохранение данных о “родословной” каждого эксперимента обеспечивает возможность отслеживания причинно-следственных связей между изменениями в коде и полученными результатами, что способствует более эффективной оптимизации и ускорению процесса обучения. Фактически, система использует накопленный опыт для построения модели, предсказывающей наиболее вероятные улучшения, минимизируя количество необходимых экспериментов.

Автоматический цикл исследований использует собранные данные и информацию о «общем происхождении» предыдущих экспериментов для генерации обоснованных “Предложений” по внесению “Изменений в код”. Эти “Предложения” представляют собой конкретные модификации параметров или структуры кода, направленные на улучшение целевых показателей. Цикл итеративно оценивает результаты каждого “Изменения в код”, используя полученные данные для формирования новых, более эффективных “Предложений”, что позволяет оптимизировать процесс исследований и достигать прогресса в автоматическом режиме.

Разделение ролей между специалистами и паттерны поиска в различных средах демонстрируют, как заранее заданное распределение обязанностей определяет стратегию поиска в условиях различных ограничений.

Параметровый гольф и NanoChat-D12: практическое применение

“Параметровый гольф” представляет собой специфическую задачу оптимизации, заключающуюся в минимизации потерь на валидационной выборке при строгих ограничениях на размер модели (“Artifact Cap”) и вычислительные ресурсы (“Budget Constraint”). Данные ограничения требуют применения продвинутых стратегий оптимизации, направленных на достижение максимальной производительности при минимальном использовании ресурсов. Необходимость соблюдения этих ограничений делает задачу более сложной, чем стандартная оптимизация, и требует от разработчиков поиска инновационных подходов к обучению и настройке моделей.

В рамках соревнования ‘Parameter Golf’ реализована адаптация оценки предложений в процессе их формирования (‘Evaluation-Time Adaptation’). Этот подход позволяет производить предварительную оценку каждого предлагаемого решения непосредственно в процессе поиска, а не только после его полной генерации. Благодаря этому, неэффективные или неперспективные варианты отбрасываются на ранних этапах, что существенно сокращает время, необходимое для поиска оптимального решения в условиях строгих ограничений по вычислительным ресурсам и размеру модели (‘Artifact Cap’ и ‘Budget Constraint’). Такая ранняя оценка значительно повышает эффективность алгоритмов оптимизации, позволяя сосредоточиться на более перспективных областях пространства поиска.

В процессе предварительного обучения система NanoChat-D12 была оптимизирована для максимизации метрики CORE Score при заданных ограничениях вычислительных ресурсов. В результате применения алгоритма Flash SDPA для повышения скорости работы, значение CORE Score было улучшено до 0.2244, что представляет собой прирост в 38.7% по сравнению с исходным значением 0.1618. Данное улучшение демонстрирует эффективность применения Flash SDPA для оптимизации производительности при сохранении заданных ограничений.

Схема NanoChat-D12 демонстрирует финальную рецептуру, включающую переписывание путей внимания, расширение соотношения данных, инициализацию смещения логитов и траекторию CORE, разработанную Claude после проведения поиска.

Ограничения и метрики: управляя автоматическим поиском

Среды, подобные ‘CIFAR-10 Airbench96’, ставят перед системой задачу достижения высокой точности при минимальном времени выполнения — так называемом ‘Wall-Clock Time’. Этот подход требует оптимизации не только алгоритмов, но и эффективного использования вычислительных ресурсов. Для повышения эффективности вводится механизм ‘Accuracy Gate’ — своеобразный фильтр, отсеивающий заведомо неперспективные варианты конфигураций на ранних этапах. Такой подход позволяет значительно сократить время, затрачиваемое на исследование пространства параметров, и сосредоточиться на наиболее перспективных решениях, что особенно важно при автоматизированном поиске оптимальных настроек и обучении моделей машинного обучения.

Ключевым элементом автоматизированного исследовательского цикла является сигнал обратной связи, генерируемый оценщиком. Этот сигнал, по сути, выступает в роли направляющей силы, определяющей, какие конфигурации параметров представляются наиболее перспективными для дальнейшего изучения. Оценщик, анализируя результаты каждого испытания, формирует показатель, который позволяет системе отсеивать неэффективные варианты и концентрироваться на тех, которые демонстрируют потенциал для улучшения производительности. Именно благодаря этому механизму автоматизированный процесс способен эффективно исследовать огромное пространство параметров, оптимизируя их для достижения поставленных целей, таких как повышение точности и сокращение времени вычислений. Без этого целенаправленного сигнала обратной связи, поиск оптимальных конфигураций был бы равносилен случайному блужданию, значительно замедляя процесс автоматизированного открытия.

В результате автоматизированного процесса оптимизации, система достигла показателя Parameter Golf в 1.072210, что свидетельствует о значительном улучшении по сравнению с исходным значением в 1.0810. Данный прогресс сопровождался ощутимым сокращением времени выполнения на бенчмарке CIFAR-10 Airbench96 — с 26.3560 секунд до 25.1464 секунд. Уменьшение времени, наряду с улучшением Parameter Golf, демонстрирует эффективность предложенного подхода к автоматическому исследованию и оптимизации параметров, позволяя достигать более высоких результатов за меньшее время вычислений.

Схема Airbench96 для CIFAR-10 демонстрирует финальную рецептуру, включающую переписывание расписания, четыре изменения в коде, строгое соблюдение ограничений и траекторию восстановления с обратной связью, при этом данная схема была создана Claude после завершения процесса поиска и не являлась его частью.

Система, описанная в статье, напоминает попытку приручить хаос. Автоматизированный поиск оптимальных рецептов обучения, где агенты вносят изменения в код и учатся на результатах, — это, конечно, интересно. Но всегда найдется «продакшен», который внесет свои коррективы. Как метко заметила Ада Лавлейс: «Я убеждена, что этот вычислительный механизм может делать всё, что мы можем заставить его делать». И это не столько о возможностях системы, сколько о границах нашего понимания. В конечном итоге, даже самые изящные алгоритмы неизбежно столкнутся с непредсказуемостью реальных данных и инфраструктуры. Оптимизация рецептов — лишь временная передышка перед очередным всплеском техдолга.

Что дальше?

Представленная работа, несомненно, демонстрирует способность автоматизировать поиск рецептов обучения. Однако, эйфория от возможности делегировать эту задачу агентам должна быть умеренной. Каждый «оптимальный» рецепт, найденный автоматизированным путём, — это лишь временное облегчение. Продакшен неизбежно найдёт способ превратить его в новый источник головной боли, а отладка станет лишь пролонгацией страданий системы. Вопрос не в том, чтобы найти идеальный рецепт, а в том, как быстро адаптироваться к его неминуемому устареванию.

Следующим этапом представляется не столько совершенствование алгоритмов поиска, сколько разработка механизмов для оценки «стоимости» автоматизированных изменений. Оптимизация метрики на обучающей выборке — это лишь полдела. Гораздо сложнее предсказать, как эти изменения отразятся на времени развёртывания, потреблении ресурсов и, самое главное, на устойчивости системы к непредсказуемым данным. Пока же, автоматизированный поиск рецептов остаётся изящной игрушкой, которая рано или поздно потребует ручной переработки.

В конечном счёте, истинный прогресс заключается не в автоматизации поиска, а в создании систем, способных к самовосстановлению и адаптации. Систем, которые способны не просто находить новые рецепты, но и учиться на своих ошибках, и, возможно, даже предвидеть будущие проблемы. Но это, как показывает опыт, уже область чистой фантазии. А пока, предстоит ещё немало сгоревших кластеров.

Оригинал статьи: https://arxiv.org/pdf/2605.05724.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-09 19:32

🚀 Квантовые новости