Обучение в процессе работы: как улучшить логические модели

Автор: Денис Аветисян

Новый подход TEMPO позволяет повысить точность больших языковых моделей, обучая их непосредственно во время использования.

Система TEMPO демонстрирует устойчивый рост производительности на сложном бенчмарке AIME в течение 350 шагов, в отличие от базовых алгоритмов самообучения, которые быстро достигают плато и деградируют, что подтверждает эффективность периодического сопоставления критика с внешней супервизией и указывает на то, что увеличение вычислительных ресурсов во время тестирования приводит к масштабируемым улучшениям в решении сложных задач.

TEMPO — это фреймворк для обучения больших моделей во время тестирования, использующий алгоритм «актер-критик» и периодическую перекалибровку критика для предотвращения потери разнообразия и достижения лучших результатов.

Несмотря на успехи в обучении больших языковых моделей, их адаптация к новым данным во время работы часто приводит к быстрому насыщению и снижению разнообразия ответов. В статье ‘TEMPO: Scaling Test-time Training for Large Reasoning Models’ предложен фреймворк TEMPO, использующий чередование этапов улучшения политики и периодической перекалибровки критика на размеченных данных. Такой подход, формализованный в рамках алгоритма Expectation-Maximization, позволяет преодолеть ограничения существующих методов обучения во время работы и добиться устойчивого улучшения результатов, например, повысить точность OLMO3-7B на AIME 2024 с 33.0% до 51.1%. Способен ли TEMPO стать стандартом для адаптации больших моделей к меняющимся условиям и новым задачам?

Пределы масштаба: Разум в больших языковых моделях

Несмотря на впечатляющие возможности больших языковых моделей, таких как Qwen3 и OLMO3, их производительность в задачах, требующих сложного логического мышления, остаётся непостоянной. Эти модели демонстрируют способность генерировать связные тексты и решать некоторые задачи, но при столкновении с многоступенчатыми рассуждениями или проблемами, требующими глубокого понимания контекста, их эффективность существенно снижается. Наблюдается, что модели склонны к ошибкам в ситуациях, где необходимо не просто вспомнить информацию, а применить её для вывода новых знаний или решения нестандартных задач. Эта непоследовательность указывает на то, что простое увеличение размера модели и объёма обучающих данных не является достаточным для достижения надёжного и универсального логического мышления.

Наблюдается, что традиционные методы увеличения масштаба языковых моделей, такие как Qwen3 и OLMO3, демонстрируют тенденцию к снижению эффективности прироста производительности. Несмотря на значительные вычислительные ресурсы, затрачиваемые на расширение размеров моделей, их способность к решению сложных задач, требующих многоступенчатых рассуждений, остаётся нестабильной. Это указывает на то, что простое увеличение количества параметров перестаёт быть эффективным путём улучшения навыков логического мышления и решения проблем. Вместо этого, всё больше внимания уделяется разработке более совершенных механизмов рассуждений, которые могли бы оптимизировать использование существующих ресурсов и обеспечить более надёжные результаты даже при ограниченном размере модели. Необходимость в инновационных подходах к построению архитектуры и алгоритмов обучения становится очевидной, поскольку дальнейший рост масштаба без улучшения логических способностей представляется нецелесообразным.

Исследования, проводимые с использованием таких эталонных тестов, как BigBenchHard, AIME Benchmark и GPQA-Diamond, последовательно демонстрируют ограничения современных больших языковых моделей в задачах, требующих многоступенчатых рассуждений и решения проблем. Эти тесты специально разработаны для оценки способности моделей не просто извлекать информацию, но и применять логические цепочки, делать выводы на основе нескольких взаимосвязанных фактов и находить решения, требующие последовательного анализа. Наблюдаемые трудности указывают на то, что увеличение размера модели само по себе не является достаточным условием для достижения полноценного рассуждения; необходимы новые подходы к архитектуре и обучению, которые позволят моделям более эффективно моделировать и применять сложные логические структуры.

Первоначальное обучение больших языковых моделей на специализированных наборах данных, таких как DAPO-Math-17K и Dolci-RL-Zero-General, обеспечивает базовый уровень понимания и решения задач. Однако, несмотря на успехи в освоении примеров из обучающей выборки, модели демонстрируют существенные трудности при столкновении с новыми, ранее не встречавшимися задачами, требующими логических умозаключений и обобщения знаний. Эта проблема указывает на то, что простое увеличение объема данных или размера модели не является достаточным для достижения подлинного понимания и способности к решению сложных проблем, а требует разработки принципиально новых подходов к организации и представлению знаний в искусственном интеллекте.

Алгоритм, основанный на EM-подходе, попеременно выполняет перекалибровку критика на основе подтвержденных вознаграждений <span class="katex-eq" data-katex-display="false">D_{L}</span> и уточнение политики путем генерации цепочек рассуждений на немаркированных вопросах <span class="katex-eq" data-katex-display="false">D_{u}</span>, что обеспечивает непрерывное самосовершенствование и выход за пределы плато RLVR. — Алгоритм, основанный на EM-подходе, попеременно выполняет перекалибровку критика на основе подтвержденных вознаграждений $D_{L}$ и уточнение политики путем генерации цепочек рассуждений на немаркированных вопросах $D_{u}$ , что обеспечивает непрерывное самосовершенствование и выход за пределы плато RLVR.

Обучение в процессе тестирования: Расширение возможностей рассуждений с использованием немаркированных данных

Тренировка во время тестирования (Test-Time Training, TTT) представляет собой подход к улучшению способности к рассуждениям, который выходит за рамки стандартного предварительного обучения. В отличие от статических моделей, TTT использует неразмеченные данные непосредственно во время инференса для адаптации параметров модели. Этот процесс позволяет модели динамически совершенствовать свои навыки рассуждения, применяя полученные знания к новым, ранее не встречавшимся задачам и расширяя область решаемых проблем без необходимости переобучения на размеченном наборе данных. TTT позволяет модели адаптироваться к специфике конкретного тестового примера, что потенциально повышает точность и надежность рассуждений в реальных условиях.

Основной принцип обучения во время тестирования (Test-Time Training, TTT) заключается в адаптации параметров модели на каждом новом тестовом примере. Это достигается путем незначительной корректировки весов нейронной сети непосредственно во время процесса инференса, используя информацию, полученную из текущего входного примера. Такой подход позволяет модели постепенно улучшать свои навыки рассуждений, поскольку она динамически настраивается на особенности каждого нового случая, не требуя переобучения на большом наборе данных. Адаптация параметров происходит итеративно, что позволяет модели эффективно извлекать знания из неразмеченных данных и улучшать обобщающую способность.

Адаптация модели в процессе Test-Time Training (TTT) осуществляется посредством архитектуры «актер-критик», функционирующей поочередно. Актер генерирует последовательность рассуждений (reasoning trajectory) для каждого нового примера, представляя собой предполагаемое решение. Критик, в свою очередь, оценивает данную последовательность, предоставляя обратную связь в виде сигнала, определяющего качество предложенного решения. Этот сигнал используется для обновления параметров как актера, так и критика, оптимизируя процесс генерации рассуждений и оценки на основе каждого поступающего примера. В результате, модель непрерывно совершенствует свои навыки рассуждения непосредственно в процессе инференса.

Обучение во время инференса (Test-Time Training, TTT) позволяет расширить базу знаний модели путем обновления ее параметров на неразмеченных данных. Этот процесс, в отличие от статического предварительного обучения, обеспечивает адаптацию модели к новым, ранее не встречавшимся задачам рассуждения. Обновление параметров на неразмеченных данных позволяет модели извлекать дополнительную информацию из входных данных и улучшать свою способность обобщать знания, что приводит к повышению точности и надежности при решении сложных задач рассуждения, даже в условиях ограниченного количества размеченных данных.

Обучение с ожиданием-максимизацией во время тестирования: Структура оптимизации политики

Метод Test-time Expectation-Maximization (TTEMPO) представляет собой усовершенствованную структуру TTT (Test-Time Training), использующую попеременную схему обучения «актер-критик». В рамках этой схемы, агент последовательно оптимизирует политику (актер) и функцию оценки (критик) во время выполнения, что обеспечивает непрерывное улучшение производительности. Попеременная оптимизация позволяет избежать нестабильности, часто возникающей при одновременном обновлении обоих компонентов, и способствует устойчивому обучению в процессе тестирования. Такой подход позволяет модели адаптироваться к новым данным и улучшать свои прогнозы непосредственно во время использования, без необходимости переобучения на большом наборе данных.

Метод TTEMPO улучшает процесс рассуждений посредством уточнения политики (Policy Refinement), используя оценку ценности на уровне токенов (Token-Level Value Estimation) для формирования гранулированного сигнала вознаграждения. Этот сигнал вознаграждения, рассчитанный для каждого токена в последовательности, направляет актора (actor) к оптимальным траекториям, обеспечивая более точную и эффективную генерацию ответов. Оценка ценности на уровне токенов позволяет актору более эффективно оценивать качество промежуточных шагов в процессе решения задачи, что способствует более обоснованному принятию решений и, как следствие, повышению общей производительности системы.

В качестве целевой функции оптимизации в TTEMPO используется нижняя граница доказательств (Evidence Lower Bound, ELBO). ELBO формируется на основе расхождения Кульбака-Лейблера (KL Divergence) и вспомогательного распределения, что позволяет обеспечить стабильное и эффективное обучение. Расхождение KL измеряет разницу между распределением политики и вспомогательным распределением, контролируя отклонение политики от желаемого поведения. Использование вспомогательного распределения, в свою очередь, способствует регуляризации и предотвращает переобучение. $ELBO = \mathbb{E}_{q(z|x)}[log p(x|z)] - \mathbb{D}_{KL}(q(z|x) || p(z))$ , где $\mathbb{D}_{KL}$ обозначает расхождение KL, $q(z|x)$ — приближенное апостериорное распределение, а $p(x|z)$ и $p(z)$ — правдоподобие и априорное распределение соответственно.

В ходе тестирования фреймворка TTEMPO были зафиксированы значительные улучшения в точности выполнения задач. На наборе данных AIME 2024 модель OLMO3-7B продемонстрировала повышение точности с 33.0% до 51.1%, а модель Qwen3-14B — с 42.3% до 65.8%. Дополнительные тесты на наборе данных AIME 2025 показали, что точность OLMO3-7B увеличилась с 26.3% до 37.0%, а Qwen3-14B — с 37.1% до 44.6%. Данные результаты подтверждают эффективность TTEMPO в повышении производительности моделей при решении задач, представленных в указанных наборах данных.

Самовознаграждающееся обучение с подкреплением: Внутренняя мотивация для рассуждений

Самообучающееся с подкреплением (SRRL) представляет собой перспективный подход к формированию внутренней мотивации у больших языковых моделей (LLM), позволяя им обучаться на неразмеченных данных без необходимости внешнего контроля. В отличие от традиционных методов, требующих предварительно размеченных наборов данных, SRRL стимулирует модели самостоятельно исследовать и совершенствовать свои навыки рассуждения, используя внутренние сигналы вознаграждения. Этот механизм позволяет LLM активно искать новые и полезные решения, расширяя свои знания и улучшая способность к решению сложных задач, даже в отсутствие явных указаний или оценок со стороны человека. Таким образом, SRRL открывает возможности для создания более автономных и адаптивных систем искусственного интеллекта, способных к непрерывному обучению и развитию.

В основе самообучающегося обучения с подкреплением (SRRL) лежит концепция использования энтропии в качестве внутреннего сигнала вознаграждения. Этот подход стимулирует языковую модель к исследованию разнообразных и неочевидных путей рассуждений, а не к зацикливанию на наиболее вероятных, но потенциально неоптимальных решениях. По сути, энтропия поощряет генерацию более разнообразных ответов, что позволяет модели обнаруживать новые, ранее неизвестные закономерности и стратегии решения задач. Чем выше энтропия, тем более неожиданным и информативным является ответ, и, следовательно, тем больше вознаграждение, которое получает модель. Такой механизм способствует развитию способности к более глубокому и творческому мышлению, позволяя модели адаптироваться к новым ситуациям и находить инновационные решения.

Для оценки качества и надёжности генерируемых цепочек рассуждений в рамках обучения с самовознаграждением применяются методы самосогласованности и голосования большинством. Самосогласованность предполагает многократное генерирование ответа на один и тот же вопрос с последующим сравнением полученных результатов — если различные траектории рассуждений сходятся к одному и тому же выводу, это повышает уверенность в его корректности. Голосование большинством, в свою очередь, заключается в генерации нескольких возможных решений и выборе наиболее часто встречающегося ответа, что позволяет снизить вероятность ошибки и повысить устойчивость системы. Комбинируя эти подходы, исследователи добиваются более надёжной оценки качества рассуждений, что критически важно для обучения языковых моделей без внешнего контроля и надзора.

Комбинация обучения с самовознаграждением (SRRL) и методики “Train-the-Thought” (TTT) открывает возможности для непрерывного обучения и адаптации языковых моделей. Практическая реализация этого подхода, представленная моделью TTEMPO, демонстрирует значительные улучшения в решении задач, требующих рассуждений. В частности, на тестовом наборе AIME 2024 модель OLMO3-7B показала абсолютный прирост в 18.1%, а Qwen3-14B — впечатляющие 23.5%. Более того, Qwen3-14B продолжает демонстрировать улучшенные результаты и на более сложных задачах, достигая прироста в 7.5% на AIME 2025, что подтверждает эффективность предложенного метода в условиях постоянно возрастающей сложности задач.

Исследование представляет подход TEMPO, который, подобно живой системе, стремится к адаптации и росту в процессе обучения. Авторы отмечают проблему «коллапса разнообразия» в существующих методах, когда модель перестаёт исследовать новые решения. Это напоминает пророчество о неизбежном застое, если не предвидеть и смягчить тенденцию к однообразию. Как точно подметил Пол Эрдёш: «Математика — это искусство видеть скрытые связи». В контексте TEMPO, это означает способность алгоритма обнаруживать и использовать новые пути к решению, даже в условиях ограниченных данных и вычислительных ресурсов. Постоянная перекалибровка критика в TEMPO — это попытка поддержать эту гибкость и избежать предсказуемого сбоя, обусловленного упрощением модели.

Что дальше?

Представленная работа, как и многие другие, лишь временно отодвигает неизбежное. Оптимизация моделей рассуждения в процессе эксплуатации — задача, по своей природе обреченная на столкновение с энтропией. Постоянная адаптация к новым данным, безусловно, ценна, однако она не решает фундаментальной проблемы: модели неизбежно отражают предвзятости и ограничения данных, на которых они обучались. Попытки калибровки критиков, предложенные в данной работе, — это, скорее, замедление процесса вырождения, нежели его остановка.

В ближайшем будущем, вероятно, произойдет смещение акцентов от улучшения существующих методов обучения в процессе эксплуатации к разработке систем, способных к самодиагностике и обнаружению собственных ошибок. Модель, осознающая границы своей компетенции, представляется более ценной, чем та, которая лишь демонстрирует кратковременное улучшение показателей. Важнее не максимизировать производительность, а минимизировать последствия ошибок.

Архитектура, как известно, — это компромисс, застывший во времени. Технологии сменяются, зависимости остаются. И в погоне за масштабируемостью и эффективностью легко забыть о простоте и надежности. Истинный прогресс, вероятно, лежит не в создании более сложных моделей, а в разработке более устойчивых и понятных систем.

Оригинал статьи: https://arxiv.org/pdf/2604.19295.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-22 19:02

🚀 Квантовые новости