Зрение, язык и действие: модели учатся непрерывно без сложных ухищрений

Автор: Денис Аветисян


Новое исследование показывает, что простые модели, объединяющие зрение, язык и управление, способны к эффективному непрерывному обучению с подкреплением, используя стандартные методы тонкой настройки.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Сочетание предварительно обученных визуально-языковых моделей, обучения с подкреплением и адаптации LoRA позволяет преодолеть катастрофическое забывание и сохранить пластичность, демонстрируя, что простая последовательная настройка способна достичь неожиданно высоких результатов.
Сочетание предварительно обученных визуально-языковых моделей, обучения с подкреплением и адаптации LoRA позволяет преодолеть катастрофическое забывание и сохранить пластичность, демонстрируя, что простая последовательная настройка способна достичь неожиданно высоких результатов.

Обучение моделей, объединяющих зрение, язык и действие, может быть осуществлено последовательной тонкой настройкой с использованием адаптации низкого ранга, обеспечивая высокую производительность и преодолевая проблему катастрофического забывания.

Несмотря на распространенное мнение о неизбежности катастрофического забывания в процессе непрерывного обучения с подкреплением, представленная работа ‘Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning’ показывает, что простые методы последовательной тонкой настройки с использованием адаптации низкого ранга (LoRA) демонстрируют неожиданно высокую эффективность для моделей, объединяющих зрение, язык и действия. Полученные результаты свидетельствуют о том, что такая комбинация позволяет достигать высокой пластичности и сохранять способность к обобщению без необходимости применения сложных стратегий предотвращения забывания. Каким образом синергия между предварительно обученными большими моделями и эффективными параметрическими методами адаптации может изменить представления о стабильности и масштабируемости непрерывного обучения в области искусственного интеллекта?


Преодоление Забывания: Начало Непрерывного Обучения

Традиционные методы машинного обучения демонстрируют высокую эффективность в решении конкретных, статичных задач, однако сталкиваются с серьезными трудностями при переходе к непрерывному обучению. Суть проблемы заключается в неспособности системы последовательно усваивать новые знания, не теряя при этом уже накопленный опыт. В отличие от человека, способного адаптироваться к меняющимся обстоятельствам и накапливать знания в течение жизни, стандартные алгоритмы склонны к «забыванию» предыдущих навыков при обучении на новых данных. Этот феномен ограничивает возможности применения искусственного интеллекта в динамичных, реальных условиях, где требуется постоянная адаптация и долгосрочное сохранение информации. Разработка систем, способных к непрерывному обучению, является ключевой задачей для создания по-настоящему интеллектуальных и гибких алгоритмов.

Явление, известное как “катастрофическое забывание”, представляет собой ключевое препятствие на пути к созданию систем искусственного интеллекта, способных к непрерывному обучению. Суть его заключается в том, что при обучении новым задачам, нейронные сети склонны утрачивать знания, полученные ранее. Этот процесс происходит из-за того, что веса нейронной сети, оптимизированные для старых задач, изменяются при адаптации к новым данным, что приводит к потере информации. В результате, система может демонстрировать впечатляющие результаты в решении текущей задачи, но полностью “забывает” о предыдущих, что делает её непригодной для использования в динамичной среде, требующей сохранения и применения накопленного опыта.

Эффективное непрерывное обучение является ключевым фактором для создания действительно интеллектуальных систем искусственного интеллекта, способных функционировать в динамичном реальном мире. В отличие от традиционных моделей, которые обучаются на фиксированных наборах данных, системы, обладающие способностью к непрерывному обучению, могут адаптироваться к новым задачам и информации, не теряя при этом уже накопленные знания. Это особенно важно для таких приложений, как автономные транспортные средства, робототехника, персональные ассистенты и системы анализа данных, где требуется постоянное обновление и расширение базы знаний. Способность сохранять и использовать прошлый опыт позволяет этим системам функционировать более эффективно, надежно и безопасно в сложных и непредсказуемых условиях, приближая искусственный интеллект к уровню человеческого познания.

Исследования показали, что использование VLA, обучения с подкреплением по текущей политике и LoRA совместно критически важно для предотвращения катастрофического забывания, что демонстрирует кривая удержания после тонкой настройки <span class="katex-eq" data-katex-display="false">SFT</span>.
Исследования показали, что использование VLA, обучения с подкреплением по текущей политике и LoRA совместно критически важно для предотвращения катастрофического забывания, что демонстрирует кривая удержания после тонкой настройки SFT.

Последовательная Тонкая Настройка: Узкое Горлышко Непрерывного Обучения

Последовательная тонкая настройка (Sequential Fine-Tuning) представляет собой распространенный подход к непрерывному обучению, при котором модель последовательно обучается на каждой задаче. В рамках данного метода, модель сначала обучается на первой задаче, а затем, используя полученные веса в качестве отправной точки, переобучается на следующей задаче. Этот процесс повторяется для каждой последующей задачи в последовательности. В отличие от параллельного обучения, где модель обучается на всех задачах одновременно, последовательная тонкая настройка имитирует сценарий, когда данные для каждой задачи становятся доступны последовательно во времени, что часто встречается в реальных приложениях. Этот подход является относительно простым в реализации, однако может приводить к катастрофическому забыванию ранее изученных задач, особенно при значительной разнице между задачами.

Последовательная тонкая настройка (Sequential Fine-Tuning) — простой подход к непрерывному обучению — характеризуется высокой восприимчивостью к катастрофическому забыванию. Этот эффект наиболее выражен при решении задач, существенно отличающихся друг от друга. В процессе последовательного обучения новым задачам, модель склонна к потере знаний, приобретенных при решении предыдущих, особенно если задачи не имеют общих признаков или требуют различных стратегий решения. Это происходит из-за того, что веса нейронной сети оптимизируются для текущей задачи, что может приводить к переписыванию или разрушению представлений, необходимых для успешного выполнения предыдущих задач, что и проявляется как катастрофическое забывание.

В процессе последовательной тонкой настройки (Sequential Fine-Tuning) широко используется подход, при котором в качестве отправной точки применяются большие предварительно обученные модели (Large Pretrained Models). Это обусловлено тем, что такие модели уже обладают обширной базой знаний, полученной в ходе обучения на огромных объемах данных. Использование предварительно обученных моделей позволяет значительно сократить время и вычислительные ресурсы, необходимые для обучения на каждой новой задаче, а также повысить общую производительность и обобщающую способность модели, поскольку она не начинает обучение с нуля. Перенос знаний из предварительно обученной модели позволяет быстрее адаптироваться к новым задачам и снизить потребность в больших объемах данных для каждой конкретной задачи.

Несмотря на использование предварительно обученных моделей, последовательная тонкая настройка (Sequential Fine-Tuning) может приводить к негативному переносу знаний, что проявляется в ухудшении производительности на ранее изученных задачах — феномен, известный как “Негативный Обратный Перенос” (Negative Backward Transfer). Данное исследование демонстрирует, что интенсивность негативного обратного переноса может быть минимизирована посредством применения определенных стратегий обучения и архитектур моделей, хотя полное его устранение часто остается сложной задачей. Наблюдаемый эффект связан с тем, что тонкая настройка на новой задаче может переопределить или нарушить представления, необходимые для эффективного выполнения предыдущих задач, особенно если задачи существенно различаются по своей природе.

Последовательная тонкая настройка демонстрирует незначительное забывание выученных задач, поскольку каждая задача сохраняет высокую производительность (нормализованную до 100%) по мере добавления новых задач в процесс обучения.
Последовательная тонкая настройка демонстрирует незначительное забывание выученных задач, поскольку каждая задача сохраняет высокую производительность (нормализованную до 100%) по мере добавления новых задач в процесс обучения.

Параметрически-Эффективные Решения: Умнее, а не Тяжелее

Методы, такие как адаптация низкого ранга (Low-Rank Adaptation) и SLCA (Scaled Local Context Adaptation), решают проблему катастрофического забывания путем обновления лишь небольшой части параметров модели во время дообучения. Вместо полной перенастройки всех весов, эти подходы вводят небольшое количество обучаемых параметров, что значительно снижает вычислительные затраты и объем требуемой памяти. Это достигается за счет декомпозиции матриц весов или использования низкоранговых представлений, позволяющих эффективно адаптировать модель к новым задачам, сохраняя при этом знания, полученные ранее. Объем обновляемых параметров обычно составляет менее 5% от общего числа, что делает процесс дообучения значительно более эффективным и позволяет избежать переобучения на новых данных.

Методы эффективной адаптации моделей, такие как Low-Rank Adaptation (LoRA) и SLCA, используют информацию Фишера (Fisher Information) для определения значимости параметров модели, полученной при решении предыдущих задач. Информация Фишера, по сути, является мерой чувствительности функции потерь к изменениям параметров. Высокое значение информации Фишера для конкретного параметра указывает на его важность для производительности модели на предыдущей задаче. В процессе адаптации к новой задаче, эти методы стремятся минимизировать изменения параметров с высокой информацией Фишера, таким образом сохраняя знания, приобретенные ранее, и предотвращая катастрофическое забывание. Практически это достигается путем добавления регуляризационного члена к функции потерь, который штрафует отклонения обновляемых параметров от их исходных значений, взвешенных информацией Фишера.

Методы, такие как RETAIN и Elastic Weight Consolidation (EWC), направлены на явное уравновешивание процессов адаптации и сохранения знаний при последовательном обучении. Оба подхода используют различные механизмы для определения и защиты наиболее важных параметров модели, приобретенных на предыдущих задачах. RETAIN сохраняет информацию о градиентах предыдущих задач и использует её для регуляризации процесса обучения на новых задачах, минимизируя изменения критически важных весов. EWC, в свою очередь, оценивает важность каждого параметра, используя информацию Фишера Ω, и применяет штраф за отклонение от исходных значений этих параметров, эффективно предотвращая катастрофическое забывание и обеспечивая сохранение производительности на ранее изученных задачах.

Исследование показало, что последовательная тонкая настройка (fine-tuning) с использованием адаптации низкого ранга (LoRA) обеспечивает высокую пластичность модели и минимальное забывание ранее полученных знаний. В ходе экспериментов негативный обратный перенос (negative backward transfer) был ограничен значением менее 2% при переходе между задачами. Данный показатель сопоставим с результатами, достигаемыми при многозадачном обучении (multi-task training), что указывает на эффективность LoRA как метода сохранения знаний при последовательном обучении новым задачам.

Эффективность методов параметрически-эффективной адаптации, таких как LoRA и SLCA, значительно повышается при интеграции с алгоритмами обучения с подкреплением. В частности, применение методов обучения с подкреплением, ориентированных на текущую политику (On-Policy Reinforcement Learning), в сочетании с Group Relative Policy Optimization (GRPO), позволяет более эффективно исследовать пространство параметров и оптимизировать процесс удержания знаний. GRPO, в свою очередь, способствует улучшению обобщающей способности модели и снижению риска катастрофического забывания за счет группировки параметров и оптимизации их относительных изменений. Такое комбинирование позволяет добиться результатов, сопоставимых с многозадачным обучением, при значительно меньших вычислительных затратах и объеме обновляемых параметров.

Увеличение количества шагов дообучения Seq. FT позволяет достичь сопоставимой производительности с оракулом многозадачного обучения.
Увеличение количества шагов дообучения Seq. FT позволяет достичь сопоставимой производительности с оракулом многозадачного обучения.

За Пределами Сохранения: Освобождение Переноса и Обобщения

Успешное непрерывное обучение открывает возможности для позитивного “переноса знаний” — явления, когда опыт, полученный при решении одной задачи, способствует улучшению результатов в последующих. Исследования показывают, что, в отличие от традиционных методов машинного обучения, где каждое новое задание требует “обучения с нуля”, системы, способные к непрерывному обучению, демонстрируют ускоренное освоение новых навыков. Это происходит благодаря формированию более общих и устойчивых представлений о мире, что позволяет эффективно использовать ранее полученные знания в новых контекстах. В результате, такие системы способны не просто запоминать решения конкретных задач, но и адаптироваться к изменяющимся обстоятельствам и быстро осваивать новые области применения, значительно повышая свою эффективность и гибкость.

Методики, такие как Flow-SDE, играют ключевую роль в стабилизации процесса обучения стратегий искусственного интеллекта, что существенно повышает общую производительность и эффективность систем. Flow-SDE, используя принципы стохастических дифференциальных уравнений, позволяет агентам более плавно адаптироваться к изменяющимся условиям и избегать резких скачков в обучении, характерных для традиционных методов. Это достигается за счет введения контролируемого шума в процесс обучения, что способствует исследованию более широкого спектра возможных стратегий и, в конечном итоге, выбору наиболее оптимальной. В результате, агенты демонстрируют не только более высокую скорость обучения, но и улучшенную способность к обобщению, что особенно важно для решения сложных и непредсказуемых задач.

Снижение эффекта катастрофического забывания открывает возможности для обобщения знаний, позволяя агентам успешно выполнять задачи, на которых они не обучались напрямую. Данное исследование демонстрирует, что применение метода LoRA в процессе непрерывного обучения значительно повышает способность к обобщению, то есть к так называемому “zero-shot generalization”. Вместо того, чтобы требовать явной тренировки для каждой новой задачи, агенты, использующие LoRA, способны адаптироваться и эффективно работать с незнакомыми сценариями, демонстрируя повышенную гибкость и потенциал для создания более интеллектуальных и автономных систем искусственного интеллекта. Этот подход позволяет агентам не просто запоминать, но и извлекать общие принципы из полученного опыта, что критически важно для решения сложных и непредсказуемых задач.

Создание действительно устойчивых, адаптируемых и интеллектуальных систем искусственного интеллекта требует выхода за рамки простого запоминания информации. Способность к переносу знаний и обобщению опыта, продемонстрированная в исследованиях, открывает путь к разработке ИИ, способного эффективно решать новые задачи, с которыми он ранее не сталкивался. Подобные системы, не подверженные катастрофическому забыванию, смогут непрерывно учиться и совершенствоваться, аккумулируя знания и применяя их в разнообразных условиях. Это не только повышает их надежность и эффективность, но и приближает к созданию ИИ, способного к настоящему, гибкому мышлению и адаптации к постоянно меняющемуся миру.

В среднем по трем эталонным задачам, метод Seq демонстрирует высокие показатели как в плане производительности (<span class="katex-eq" data-katex-display="false">AVG</span>), так и обобщающей способности (<span class="katex-eq" data-katex-display="false">ZS</span>).
В среднем по трем эталонным задачам, метод Seq демонстрирует высокие показатели как в плане производительности (AVG), так и обобщающей способности (ZS).

Исследование демонстрирует, что даже простые последовательные настройки больших языковых моделей, дополненные методом LoRA, способны к непрерывному обучению с подкреплением. Это подтверждает идею о том, что реальность — это открытый исходный код, который мы ещё не прочитали. Как однажды заметил Джон Маккарти: «Всякий интеллект увеличивает возможности». В данном контексте, увеличение возможностей модели происходит не за счёт сложных механизмов предотвращения катастрофического забывания, а за счёт умения последовательно адаптироваться к новым задачам. Этот подход, по сути, является реверс-инжинирингом процесса обучения, позволяющим извлечь максимальную пользу из уже существующих знаний и быстро осваивать новые навыки.

Куда же дальше?

Представленная работа, на первый взгляд, демонстрирует тривиальную истину: последовательная настройка больших моделей с использованием LoRA — удивительно эффективна. Однако, истинное понимание приходит не от подтверждения ожидаемого, а от осознания границ применимости. Вместо гонки за сложными механизмами предотвращения катастрофического забывания, возможно, стоит взглянуть на само определение «забывания» — не как на недостаток, а как на необходимый процесс оптимизации, отсеивающий избыточное. Модель, способная «забывать» несущественное, возможно, ближе к истинному интеллекту, чем та, что хранит всё подряд.

Очевидным направлением для дальнейших исследований является изучение пределов масштабируемости этого подхода. Насколько эффективно он будет работать с еще более крупными моделями и более сложными задачами? Неизбежно возникнет вопрос о взаимодействии между различными задачами в процессе последовательной настройки — не приведет ли «успешное» забывание к кумулятивным ошибкам, которые в конечном итоге сделают модель бесполезной? И, наконец, не стоит ли задуматься о том, что сама концепция «непрерывного обучения» является искусственной конструкцией, навязанной нам человеческим стремлением к линейному прогрессу?

Возможно, самое интересное — не создание моделей, которые «не забывают», а создание систем, которые эффективно используют забывание для адаптации к постоянно меняющемуся миру. Ведь в конечном итоге, суть не в том, чтобы хранить информацию, а в том, чтобы уметь ее использовать — а для этого иногда необходимо отпустить старое, чтобы освободить место для нового.


Оригинал статьи: https://arxiv.org/pdf/2603.11653.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-13 19:39