Обучение «зрячих» моделей: как исторические контрольные точки становятся бесплатным учителем

Автор: Денис Аветисян

Новый подход GTR-Turbo позволяет эффективно обучать мультимодальные модели, используя прошлые версии как источник знаний, без необходимости в дорогостоящих внешних учителях.

В рамках разработанной структуры GTR-Turbo, обучение агентов VLM выходит за рамки традиционного GTR подхода, за счет сохранения исторических контрольных точек и их интеграции в модель-учитель, а затем применения PPO обновления с использованием направляющих мыслей, достигаемых путём минимизации либо SFT потерь, либо расхождения Кулбака-Лейблера <span class="katex-eq" data-katex-display="false">KL</span>, что обеспечивает гибкое, масштабируемое и самонаправляемое обучение с подкреплением. — В рамках разработанной структуры GTR-Turbo, обучение агентов VLM выходит за рамки традиционного GTR подхода, за счет сохранения исторических контрольных точек и их интеграции в модель-учитель, а затем применения PPO обновления с использованием направляющих мыслей, достигаемых путём минимизации либо SFT потерь, либо расхождения Кулбака-Лейблера $KL$ , что обеспечивает гибкое, масштабируемое и самонаправляемое обучение с подкреплением.

Предложен фреймворк самообучения с подкреплением для моделей «зрение-язык», использующий исторические контрольные точки в качестве бесплатного учителя для повышения эффективности и масштабируемости.

Обучение мультимодальных агентов с подкреплением сталкивается с проблемой разреженных вознаграждений и сложной атрибуции заслуг. В статье ‘GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training’ представлен новый подход, позволяющий значительно повысить эффективность обучения моделей, использующих зрение и язык. Авторы предлагают использовать исторические контрольные точки модели в качестве «бесплатного учителя», устраняя необходимость в дорогостоящих внешних моделях и снижая вычислительные затраты. Может ли этот метод самообучения с подкреплением открыть новые горизонты в разработке более эффективных и масштабируемых агентов, способных к сложным визуальным задачам?

Разреженные Вознаграждения: Суть Проблемы Обучения с Подкреплением

Обучение агентов выполнению сложных задач в визуальных средах часто затрудняется из-за преобладания разреженных сигналов вознаграждения. В отличие от ситуаций, когда агент получает постоянную обратную связь за каждое действие, в большинстве реалистичных сценариев положительное вознаграждение приходит лишь после выполнения всей последовательности действий, необходимых для достижения цели. Это создает проблему «разреженного вознаграждения», когда агент сталкивается с обширным пространством состояний и действий, не получая практически никакой информации о том, какие действия приближают его к успеху. В результате, агент может долгое время исследовать пространство без каких-либо признаков прогресса, что существенно замедляет процесс обучения и может привести к формированию неоптимальной стратегии поведения. Эффективное преодоление этой проблемы требует разработки методов, позволяющих агенту эффективно исследовать пространство и извлекать полезную информацию даже из ограниченной обратной связи.

Традиционные алгоритмы обучения с подкреплением испытывают значительные трудности при исследовании визуальных сред с редким вознаграждением. Суть проблемы заключается в том, что агент, не получая частых сигналов об успехе или неудаче, сталкивается с экспоненциальным ростом пространства поиска возможных действий. Это приводит к тому, что агент либо застревает в локальных оптимумах, не находя эффективные стратегии, либо процесс обучения становится чрезвычайно медленным и требует огромного количества проб и ошибок для достижения приемлемой производительности. В результате, даже простые задачи могут оказаться непосильными для стандартных методов обучения с подкреплением, что подчеркивает необходимость разработки новых подходов, способных эффективно исследовать пространство состояний и извлекать полезную информацию из ограниченных сигналов вознаграждения.

Для успешной работы в сложных визуальных средах, агенты нуждаются в методах эффективного извлечения полезной информации из ограниченных сигналов вознаграждения. Исследования показывают, что традиционные алгоритмы обучения с подкреплением часто сталкиваются с трудностями при исследовании пространства состояний, когда обратная связь поступает редко и не содержит достаточной информации для оптимального обучения. Разрабатываются новые подходы, такие как внутренние мотивационные сигналы и методы обучения на основе любопытства, которые позволяют агентам самостоятельно генерировать цели и исследовать окружающую среду, даже при отсутствии внешнего вознаграждения. Эти методы позволяют агентам учиться на собственном опыте, находить скрытые закономерности и разрабатывать стратегии, необходимые для достижения поставленных задач в условиях ограниченной информации, что открывает новые возможности для создания интеллектуальных систем, способных к адаптации и обучению в реальном мире.

Исходная структура GTR использует многомодальные API-модели, такие как GPT или Gemini, для оценки и корректировки процесса рассуждений агента на каждом шаге обучения с подкреплением, что является ресурсоемким, длительным и ограничивает масштабируемость системы.

GTR-Turbo: Основа Руководимого Обучения с Подкреплением

В основе GTR-Turbo лежит использование исторических контрольных точек обучения в качестве «обучающей» модели. Вместо случайной инициализации, агент начинает обучение с политики, уже продемонстрировавшей определенный уровень производительности на схожих задачах. Эти контрольные точки, представляющие собой сохраненные веса нейронной сети, служат отправной точкой для дальнейшей оптимизации. Такой подход позволяет существенно ускорить процесс обучения, особенно в сложных средах, где случайный поиск эффективной стратегии требует значительных вычислительных ресурсов и времени. Эффективность этой стратегии заключается в передаче накопленного опыта от предыдущих итераций обучения текущему агенту, обеспечивая более стабильный и быстрый прогресс.

В отличие от многих современных методов обучения с подкреплением, GTR-Turbo не требует использования внешних, предварительно обученных моделей. Это обеспечивает повышенную адаптивность системы к новым задачам и средам, поскольку агент обучается исключительно на основе собственной истории, избегая зависимости от данных, собранных в иных условиях. Использование исторических контрольных точек в качестве “учителя” позволяет избежать затрат, связанных с подготовкой и интеграцией внешних моделей, а также снижает риск переноса нерелевантных знаний, что повышает эффективность обучения и общую производительность агента.

Процесс обучения с подкреплением в GTR-Turbo ускоряется за счет применения контролируемой тонкой настройки (Supervised Fine-Tuning), использующей исторические контрольные точки в качестве “учителя”. Вместо случайного исследования пространства состояний, агент изначально обучается на действиях, демонстрируемых моделью-учителем, что значительно сокращает время, необходимое для достижения приемлемой производительности в сложных средах. Этот подход позволяет агенту быстрее осваивать навыки и эффективно справляться с задачами, требующими точного управления и принятия решений, особенно в условиях разреженных вознаграждений, где случайное исследование неэффективно.

В условиях разреженных вознаграждений, когда положительная обратная связь встречается редко, GTR-Turbo использует дистилляцию знаний из исторических контрольных точек для смягчения проблемы исследования. Вместо случайного поиска оптимальной стратегии, агент обучается, подражая действиям, продемонстрированным ранее успешными моделями. Этот подход позволяет эффективно направлять процесс обучения, избегая длительных и неэффективных фаз случайного исследования, и значительно ускоряет сходимость к оптимальному решению, даже в сложных средах с ограниченным сигналом вознаграждения.

Объединение контрольных точек модели <span class="katex-eq" data-katex-display="false">\pi_{merged}(k)</span> обеспечивает более стабильного и эффективного агента, который служит учителем для обучения агента <span class="katex-eq" data-katex-display="false">\pi_{\theta}(k)</span> на наборе данных Points24, используя Qwen2.5-VL-7B в качестве базовой модели. — Объединение контрольных точек модели $\pi_{merged}(k)$ обеспечивает более стабильного и эффективного агента, который служит учителем для обучения агента $\pi_{\theta}(k)$ на наборе данных Points24, используя Qwen2.5-VL-7B в качестве базовой модели.

Слияние Моделей и Дистилляция Знаний для Надежной Политики

GTR-Turbo использует метод TIES (Task-Incremental Evaluation of Samples) для объединения весов моделей, который направлен на минимизацию интерференции между различными обученными политиками и сохранение накопленных знаний. В отличие от простого усреднения, TIES оценивает вклад каждой модели на основе ее производительности на репрезентативном наборе данных, взвешивая модели пропорционально их способности обобщать. Это позволяет избежать “забывания” ранее приобретенных навыков при интеграции новых моделей, а также способствует более стабильному и эффективному обучению, особенно в динамичных средах, где требуется адаптация к изменяющимся условиям. Фактически, TIES позволяет создать единую политику, которая сочетает в себе лучшие качества нескольких специализированных моделей.

Метод дистилляции логитов, основанный на KL-регуляризации (дивергенции Кульбака-Лейблера), позволяет передать ценные знания от модели-учителя к модели-агенту. В процессе дистилляции агент обучается имитировать вероятностное распределение, выдаваемое учителем, что позволяет сохранить важную информацию о политике и улучшить качество принимаемых решений. KL-регуляризация выступает в качестве штрафа за расхождения между распределениями вероятностей, тем самым направляя обучение агента к более эффективной политике, близкой к политике учителя. Это особенно полезно для передачи неявных знаний и улучшения обобщающей способности агента.

В процессе объединения моделей GTR-Turbo используется экспоненциальное скользящее среднее (Exponential Moving Average, EMA) для приоритизации последних контрольных точек (checkpoints). Данный метод позволяет назначать больший вес более новым моделям, что обеспечивает повышенную адаптивность к изменяющимся условиям среды и способствует непрерывному улучшению политики агента. Вес каждой контрольной точки определяется экспоненциально убывающей функцией, где более поздние контрольные точки оказывают большее влияние на итоговую объединенную модель. Параметр сглаживания $\beta$ определяет скорость затухания веса старых контрольных точек, влияя на баланс между сохранением накопленного опыта и адаптацией к текущим данным.

Комбинация методов TIES-слияния, дистилляции логитов с использованием KL-регуляризации и экспоненциального скользящего среднего для выбора контрольных точек обеспечивает устойчивость и стабильность процесса обучения. Данный подход позволяет агенту сохранять и обогащать накопленные знания в процессе обучения, минимизируя влияние помех и обеспечивая адаптацию к изменяющимся условиям. В результате, алгоритм демонстрирует надежную производительность даже в сложных и непредсказуемых средах, сохраняя стабильность политики и избегая резких изменений в поведении.

Использование методов оценки расхождения Кулбака-Лейблера с неотрицательным результатом повышает эффективность обучения, при этом обрезка обеспечивает наилучшие результаты благодаря контролю величины значения KL, что способствует более точным обновлениям и стабильности, в то время как прямое KL демонстрирует преимущество в поиске моды по сравнению с обратным KL.

Улучшение Политики с Учетом Истории Действий и Продвинутых Моделей

В архитектуре GTR-Turbo ключевым нововведением является учёт истории действий агента, что позволяет ему формировать более полное представление о последствиях принятых решений. Вместо анализа текущей ситуации изолированно, система анализирует последовательность предыдущих шагов и их влияние на окружающую среду. Такой подход позволяет агенту не просто реагировать на текущие условия, но и предвидеть потенциальные результаты своих действий, адаптироваться к изменяющейся динамике и, в конечном итоге, принимать более обоснованные и эффективные решения. Интеграция истории действий значительно расширяет возможности агента в сложных задачах, требующих долгосрочного планирования и адаптации.

Использование истории действий позволяет агенту формировать более полное представление о последствиях своих решений в изменяющейся среде. Агент, обладая контекстом прошлых взаимодействий, способен не просто реагировать на текущую ситуацию, но и прогнозировать вероятные исходы различных стратегий, выбирая наиболее эффективный путь к цели. Такой подход позволяет ему адаптироваться к новым вызовам и динамично меняющимся условиям, избегая повторения ошибок и оптимизируя процесс обучения. В результате, агент демонстрирует повышенную устойчивость к неопределенности и способность успешно функционировать в сложных, непредсказуемых средах, значительно превосходя модели, лишенные подобной возможности анализа предыдущего опыта.

Для оценки возможностей GTR-Turbo в решении сложных задач, требующих визуального восприятия и понимания языка, использовались передовые модели Qwen2.5-VL-7B и Qwen3-VL-8B. Эти модели, способные к обработке как визуальной, так и текстовой информации, позволили продемонстрировать, что GTR-Turbo эффективно справляется с задачами, требующими анализа изображений и понимания инструкций на естественном языке. В частности, была показана способность агента к успешному выполнению визуальных задач, что подтверждает его продвинутые возможности в области искусственного интеллекта и открывает перспективы для применения в широком спектре приложений, требующих взаимодействия с визуальным миром.

В ходе тестирования на карточной игре Points24, разработанная система GTR-Turbo продемонстрировала передовые результаты, значительно превзойдя как предыдущую версию GTR, так и другие существующие модельные решения. Особым достижением стало существенное повышение эффективности обучения: время, необходимое для подготовки модели, сократилось на 50%, а вычислительные затраты — на 40% по сравнению с GTR. Это свидетельствует о значительном прогрессе в оптимизации алгоритмов и позволяет создавать более производительные и экономичные системы искусственного интеллекта для решения сложных задач.

В ходе тестирования на платформе ALFWorld, GTR-Turbo демонстрирует сопоставимую с GTR успешность выполнения поставленных задач, однако достигает этого результата более экономичным способом. В отличие от предыдущей версии, GTR-Turbo оптимизирует процесс обучения и принятия решений, позволяя агенту эффективно взаимодействовать со средой и достигать целей при меньших вычислительных затратах. Это свидетельствует о значительном прогрессе в разработке интеллектуальных агентов, способных к адаптации и обучению с повышенной эффективностью, что открывает перспективы для применения в различных областях, требующих автономного принятия решений и взаимодействия со сложными системами.

Модель Qwen3-VL-8B успешно выполняет задачи в среде ALFWorld, демонстрируя возможности визуально-языкового понимания и взаимодействия с окружением.

Исследование, представленное в статье, демонстрирует элегантность подхода к обучению моделей обработки изображений и языка. Авторы предлагают использовать исторические контрольные точки как бесплатного учителя, что позволяет достичь значительной эффективности и масштабируемости. Этот метод, по сути, воплощает идею о том, что истинное обучение должно быть основано на принципах самосовершенствования и извлечения уроков из прошлого опыта. Как однажды заметил Ян Лекун: «Машинное обучение — это просто алгоритмы, которые учатся на данных». В данном случае, алгоритм обучения использует собственные предыдущие состояния для улучшения своей производительности, что соответствует принципам детерминизма и воспроизводимости результатов, столь важным для создания надежных и предсказуемых систем.

Что Дальше?

Представленная работа, хоть и демонстрирует элегантность использования исторических контрольных точек в качестве неявного учителя, всё же оставляет открытым вопрос о фундаментальной природе “разумности” больших языковых моделей. Улучшение эффективности обучения — это, безусловно, прогресс, но лишь оптимизация процесса, а не решение лежащей в его основе проблемы. Эвристика, заключающаяся в использовании прошлых версий модели, является лишь компромиссом, позволяющим обойти необходимость в более глубоком понимании принципов обучения.

Очевидным направлением дальнейших исследований является поиск методов, позволяющих модели не просто “запоминать” ответы, а действительно “понимать” взаимосвязи между визуальной и текстовой информацией. Необходимо отделить истинное обучение от простого накопления статистических закономерностей. Иначе, мы рискуем построить сложные системы, способные лишь имитировать интеллект, но не обладающие им в действительности.

Перспективы, безусловно, связаны с разработкой алгоритмов, которые могут доказуемо гарантировать сходимость обучения и избежать локальных оптимумов. Пока же, GTR-Turbo — это ещё один шаг в направлении более эффективных, но не обязательно более разумных, систем. Истина, как всегда, где-то рядом, скрытая за сложными вычислениями и впечатляющими результатами на тестовых данных.

Оригинал статьи: https://arxiv.org/pdf/2512.13043.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-26 17:31

🚀 Квантовые новости