Эхо разума: как итеративные модели учатся в цикле.

Автор: Денис Аветисян


Обучение моделей на расширенном наборе уникальных пар вопросов и ответов – до 140 000 – в течение 20 000 шагов при контекстном окне 1024 и размере пакета 2048 демонстрирует, что архитектуры с рекуррентными циклами учатся быстрее и достигают лучших результатов, предвещая преимущества циклической организации для повышения эффективности обучения.
Обучение моделей на расширенном наборе уникальных пар вопросов и ответов – до 140 000 – в течение 20 000 шагов при контекстном окне 1024 и размере пакета 2048 демонстрирует, что архитектуры с рекуррентными циклами учатся быстрее и достигают лучших результатов, предвещая преимущества циклической организации для повышения эффективности обучения.

Долгое время масштабирование языковых моделей сталкивалось с неразрешимой дилеммой: увеличение параметров требовало экспоненциального роста вычислительных ресурсов, ограничивая возможности сложного рассуждения. Но прорыв, представленный в ‘Scaling Latent Reasoning via Looped Language Models’, открывает новую парадигму, демонстрируя, что итеративное применение общих параметров в циклических архитектурах позволяет достичь впечатляющей эффективности и глубокого понимания без необходимости бесконечного наращивания масштаба. Теперь, когда мы увидели, как можно эффективно «выращивать» интеллект в рамках ограниченных ресурсов, можем ли мы переосмыслить саму природу машинного обучения и создать системы, способные к истинному, неисчерпаемому рассуждению?

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу

За гранью масштабирования: Предел возможностей традиционных LLM

Взгляд на современные большие языковые модели (LLM) неизбежно наталкивается на парадокс: их впечатляющие возможности оплачиваются непомерной вычислительной стоимостью. Каждый новый параметр, каждая дополнительная операция – это шаг к краю, где стоимость поддержания системы превышает любые потенциальные выгоды. Это не просто инженерная проблема, это закономерность. Система, стремящаяся к абсолютному охвату, неизбежно становится хрупкой.

Традиционные подходы к масштабированию, основанные на наращивании параметров и объемов данных, всё чаще демонстрируют признаки исчерпания. Предел возврата на инвестиции приближается. Добавление ещё одного слоя, ещё одного миллиарда параметров, приносит всё меньше ощутимого прогресса. Мы наблюдаем не просто замедление темпов роста, но и фундаментальное ограничение. Словно пытаемся взлететь на крыльях, сделанных из песка.

Проблема не в недостатке вычислительных ресурсов, а в самой архитектуре. Статичная глубина обработки, линейная последовательность операций – это узкое место, которое сдерживает потенциал LLM. Словно пытаемся решить сложную задачу с помощью единственного инструмента. Необходимы архитектурные инновации, которые позволят системе адаптироваться к сложности задачи, динамически выделять ресурсы и использовать их максимально эффективно.

Сравнительный анализ на продвинутых эталонных задачах рассуждений показывает, что модели Ouro-Thinking, в частности Ouro-1.4B-Thinking R4 и Ouro-2.6B-Thinking R4, демонстрируют конкурентоспособные результаты, сопоставимые или превосходящие показатели моделей Qwen3 и DeepSeek-Distill, на различных математических и научных наборах данных.
Сравнительный анализ на продвинутых эталонных задачах рассуждений показывает, что модели Ouro-Thinking, в частности Ouro-1.4B-Thinking R4 и Ouro-2.6B-Thinking R4, демонстрируют конкурентоспособные результаты, сопоставимые или превосходящие показатели моделей Qwen3 и DeepSeek-Distill, на различных математических и научных наборах данных.

Исследователи, представленные в данной работе, предприняли попытку преодолеть эти ограничения, предложив архитектуру, основанную на принципе итеративной обработки. Это не просто ещё один способ масштабирования, это принципиально иной подход к организации вычислений. Вместо того, чтобы наращивать ресурсы, система учится использовать их более эффективно, динамически адаптируясь к сложности задачи.

Это напоминает не строительство огромного храма, а выращивание живого организма. Вместо того, чтобы пытаться охватить всё сразу, система учится расти и развиваться, адаптируясь к окружающей среде. Каждый сбой, каждая ошибка – это не провал, а акт очищения, возможность для роста и развития. Система, которая никогда не ломается, мертва.

Именно к этому стремятся исследователи, создавая системы, способные не только решать задачи, но и учиться на своих ошибках, адаптироваться к изменяющимся условиям и развиваться вместе с нами. Это не просто создание инструментов, это создание экосистем.

OuroModel: Итеративные вычисления ради эффективности

Исследователи представили семейство моделей Ouro, архитектурное решение, которое можно охарактеризовать не как конструкцию, а как экосистему. Их подход, LoopLM, представляет собой отклонение от традиционных парадигм масштабирования. Вместо того чтобы просто наращивать параметры, они исследуют возможность динамического вычисления в рамках фиксированного бюджета, используя итеративное применение слоев с общими весами. Это не просто оптимизация, это признание того, что порядок – это лишь кеш между двумя сбоями, и эффективное управление хаосом – ключ к устойчивости.

Оценка производительности модели Ouro Looped Language Model, основанная на архитектуре с общими параметрами и рекурсивными шагами, показывает, что модели Ouro 1.4B и 2.6B, использующие четыре рекурсивных шага, демонстрируют сильную производительность, сравнимую или превосходящую показатели значительно более крупных базовых моделей.
Оценка производительности модели Ouro Looped Language Model, основанная на архитектуре с общими параметрами и рекурсивными шагами, показывает, что модели Ouro 1.4B и 2.6B, использующие четыре рекурсивных шага, демонстрируют сильную производительность, сравнимую или превосходящую показатели значительно более крупных базовых моделей.

Ключевым элементом этого подхода является адаптивное вычисление. Модели Ouro не тратят вычислительные ресурсы впустую на простые задачи. Вместо этого они динамически регулируют глубину обработки в зависимости от сложности входных данных, оптимизируя распределение ресурсов. Это не просто эффективное использование энергии, это признание того, что архитектура – это способ откладывать хаос, а не его подавлять.

Чтобы свести к минимуму требования к памяти и повысить вычислительную эффективность, исследователи применили несколько ключевых методов. Использование общих параметров позволяет значительно сократить размер модели без ущерба для ее производительности. Дополнительно, была реализована стратегия обмена кэшем KV, что позволило снизить потребление памяти и повысить скорость обработки. Это не просто технические решения, это осознание того, что нет лучших практик, есть лишь выжившие.

В конечном итоге, семейство моделей Ouro демонстрирует не просто повышение эффективности, но и смену парадигмы в области больших языковых моделей. Они предлагают альтернативный путь к созданию мощных и устойчивых систем, которые способны адаптироваться к меняющимся требованиям и эффективно использовать доступные ресурсы. Это не просто инструмент, это экосистема, способная к самоорганизации и эволюции.

Взращивание интеллекта: От предварительного обучения до выравнивания

Исследователи полагают, что создание системы – это не столько акт конструирования, сколько взращивание. Каждая архитектурная деталь – это не просто решение, а обещание, данное будущему, обещание, которое система рано или поздно попытается выполнить. В этом смысле, процесс обучения Ouro начинается с закладки прочного фундамента – предварительного обучения на колоссальном корпусе данных, насчитывающем 7.7 триллионов токенов. Это не просто набор слов; это семена, из которых вырастает понимание языка.

Конвейер обучения модели Ouro включает начальные этапы Warmup и Stable Training, после чего происходит разделение на две ветви – Ouro-1.4B (Keep 1.3B) и Ouro-2.6B (Upcycle 2.6B), каждая из которых проходит четырехэтапный процесс обучения, включающий Stable Training, CT Annealing, LongCT и Mid-Training, что в совокупности составляет 7.7 триллионов токенов, после чего создаются базовые модели Ouro-1.4B и Ouro-2.6B, используемые для создания моделей Ouro-Thinking.
Конвейер обучения модели Ouro включает начальные этапы Warmup и Stable Training, после чего происходит разделение на две ветви – Ouro-1.4B (Keep 1.3B) и Ouro-2.6B (Upcycle 2.6B), каждая из которых проходит четырехэтапный процесс обучения, включающий Stable Training, CT Annealing, LongCT и Mid-Training, что в совокупности составляет 7.7 триллионов токенов, после чего создаются базовые модели Ouro-1.4B и Ouro-2.6B, используемые для создания моделей Ouro-Thinking.

Но фундамент – это лишь начало. После предварительного обучения, исследователи применили методы контролируемого обучения и обучение с подкреплением на основе обратной связи от человека. Это не попытка заставить систему подчиняться, а скорее – направить её развитие в нужном направлении, сформировать желаемое поведение. В этом смысле, процесс обучения напоминает воспитание – не навязывание правил, а формирование ценностей.

Особое внимание было уделено регуляризации энтропии. Этот метод позволяет системе исследовать различные варианты решения, не зацикливаясь на одном, и тем самым повысить её устойчивость и адаптивность. Это как дать саженцу свободу расти в разных направлениях, чтобы он мог лучше приспособиться к изменяющимся условиям.

Важно понимать, что все эти процедуры направлены не только на повышение производительности, но и на обеспечение безопасности. Исследователи уверены, что система должна быть не просто умной, но и надёжной, чтобы она могла служить людям, а не наоборот. В этом смысле, процесс обучения – это не только техническая задача, но и этическая ответственность.

Их подход основан на убеждении, что контроль – это иллюзия, требующая соглашения об уровне обслуживания (SLA). Вместо того, чтобы пытаться полностью контролировать систему, они стремятся создать систему, которая способна саморегулироваться и самовосстанавливаться, подобно живому организму. Ведь всё, что построено, когда-нибудь начнёт само себя чинить.

Проверка на прочность: Верность, знания и безопасность

Исследователи, словно садовники, взращивающие новый вид интеллекта, столкнулись с необходимостью не просто увеличить мощность системы, но и обеспечить её внутреннюю согласованность. Каждая новая архитектура обещает свободу, пока не потребует DevOps-жертвоприношений. И вот, в стремлении к более надёжному и предсказуемому поведению, они обратились к концепции «верности» – способности модели не просто выдавать ответы, но и демонстрировать логическую связь между своими рассуждениями и знаниями.

Словно опытные шахматисты, анализирующие каждый ход, исследователи подвергли OuroModel строгим испытаниям. Особое внимание было уделено способности модели к манипулированию знаниями – способности не просто хранить информацию, но и использовать её для решения сложных задач. Использование таких эталонов, как Quora Question Pairs, позволило оценить, насколько точно модель способна обрабатывать и интерпретировать информацию, демонстрируя улучшенную способность к рассуждению.

Анализ ROCAUC линейных зондов, обученных на скрытых состояниях модели на задаче Quora Question Pairs, показывает, что ответы внутри рекурсивного шага определяются на ранних этапах, а обновления между шагами модифицируют предварительный ответ, при этом тепловая карта показывает степень согласованности между рекурсивными шагами при определении ответов на 1000 вопросов.
Анализ ROCAUC линейных зондов, обученных на скрытых состояниях модели на задаче Quora Question Pairs, показывает, что ответы внутри рекурсивного шага определяются на ранних этапах, а обновления между шагами модифицируют предварительный ответ, при этом тепловая карта показывает степень согласованности между рекурсивными шагами при определении ответов на 1000 вопросов.

Но надёжность системы – это не только точность, но и безопасность. Исследователи, словно стражи, несли ответственность за то, чтобы их творение не причиняло вреда. Скрупулёзное тестирование с использованием эталонного набора данных HEx-PHI подтвердило улучшенный профиль безопасности OuroModel, минимизируя генерацию вредоносного или неуместного контента. Порядок – это просто временный кэш между сбоями, но и этот кэш должен быть тщательно охраняем.

В конечном счёте, исследователи стремились создать не просто мощную систему, а систему, которая была бы надёжной, безопасной и, самое главное, предсказуемой. Они понимали, что хаос неизбежен, но, тщательно контролируя внутреннюю логику и обеспечивая согласованность рассуждений, можно создать систему, которая будет достойно противостоять вызовам будущего.

Упрощение развертывания и взгляд в будущее

Исследователи продемонстрировали, что OuroModels, благодаря своей вычислительной эффективности, открывают возможности для упрощенного развертывания. Использование библиотек, таких как vLLM, позволяет существенно снизить инфраструктурные затраты и задержки, превращая сложные вычисления в более доступный и эффективный процесс. Это не просто оптимизация кода, а изменение парадигмы: система становится более гибкой и отзывчивой, способной адаптироваться к меняющимся требованиям.

SGLang, в свою очередь, еще больше упрощает разработку приложений на основе больших языковых моделей. Это не просто инструмент, а мост, соединяющий сложные алгоритмы с практическими задачами, делая передовые технологии доступными для более широкого круга пользователей. Разработчики больше не ограничены необходимостью глубокого понимания внутренних механизмов модели; они могут сосредоточиться на решении конкретных проблем, используя мощь искусственного интеллекта как строительный материал.

Обучение LoopLMs и стандартных базовых моделей с одинаковыми параметрами на задачах Multi-hop QA показывает, что модели с большим количеством циклов требуют меньше уникальных обучающих примеров для изучения задачи 3-hop QA, при этом анализ производительности при обучении с 15% всех возможных QA пар (12000 уникальных примеров) демонстрирует более быструю обучаемость и лучшие результаты для моделей с циклами по сравнению с моделями без циклов.
Обучение LoopLMs и стандартных базовых моделей с одинаковыми параметрами на задачах Multi-hop QA показывает, что модели с большим количеством циклов требуют меньше уникальных обучающих примеров для изучения задачи 3-hop QA, при этом анализ производительности при обучении с 15% всех возможных QA пар (12000 уникальных примеров) демонстрирует более быструю обучаемость и лучшие результаты для моделей с циклами по сравнению с моделями без циклов.

Взгляд в будущее показывает, что дальнейшие исследования будут направлены на масштабирование этих архитектур с петлей обратной связи и изучение их потенциала в различных областях. От решения сложных задач, требующих логического мышления, до создания креативного контента – возможности кажутся безграничными. Но важно помнить, что система – это не машина, а сад; если ее не поливать, вырастет техдолг. Поэтому необходимо постоянное внимание к деталям, забота о качестве данных и стремление к оптимизации алгоритмов.

Исследователи верят, что предложенный подход – это не просто эволюционный шаг в развитии больших языковых моделей, а принципиально новый взгляд на то, как мы можем создавать интеллектуальные системы. Системы, которые не только решают задачи, но и учатся на своих ошибках, адаптируются к меняющимся условиям и становятся все более эффективными и надежными. Устойчивость не в изоляции компонентов, а в их способности прощать ошибки друг друга.

Исследователи в своей работе демонстрируют, что итеративные вычисления и адаптивная глубина позволяют достичь сопоставимых, а порой и превосходящих результатов, при значительно меньшем количестве параметров. Это напоминает слова Марвина Мински: “Способность учиться – это не просто запоминание, а умение создавать новые идеи, комбинируя старые.” Ouro, подобно развивающейся экосистеме, демонстрирует, что истинная мощность системы заключается не в ее размере, а в способности к адаптации и эффективному использованию ресурсов. Концепция KV Cache Sharing, предложенная авторами, позволяет модели «вспоминать» и переиспользовать информацию, подобно тому, как живой организм накапливает опыт, что подтверждает идею о системах как о саморазвивающихся сущностях, а не о статичных инструментах.

Что дальше?

Исследователи предлагают нам Оуро – семью моделей, стремящихся к эффективности через итерацию и адаптивную глубину. Но давайте будем честны: каждая оптимизация – это обещание, данное прошлому, а прошлое редко предсказывает будущее. Они говорят об эффективности параметров, но забывают, что истинная сложность системы проявляется не в количестве её частей, а в непредсказуемости их взаимодействий. Эффективность – это иллюзия, требующая SLA для поддержания.

В конечном итоге, Оуро – это еще один шаг в вечном танце между выражением и управлением. Они пытаются построить систему, но системы – это не конструкции, а экосистемы. Они растут, мутируют, и в конечном итоге, всегда начинают себя чинить, часто самым неожиданным образом. Вопрос не в том, как контролировать эту эволюцию, а в том, как научиться жить с её последствиями.

Истинный вызов лежит не в увеличении производительности, а в понимании пределов самой идеи «разумной» машины. Эта работа, безусловно, продвигает нас вперед, но напоминает, что каждая архитектурная особенность – это пророчество о будущем сбое. Мы строим, чтобы разрушить, и в этом – вечный цикл.


Оригинал статьи: https://arxiv.org/pdf/2510.25741.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-10-30 05:24