Обучение разума: новый подход к настройке моделей рассуждений

Автор: Денис Аветисян

В статье представлен инновационный метод, позволяющий повысить эффективность моделей, способных к логическому мышлению, за счет совместной работы «учителя» и «ученика».

В рамках предложенной схемы синтеза данных, основанной на сотрудничестве «учителя» и «ученика», модели попеременно генерируют токены, отражающие возможности и стиль, при этом предсказатели границ обеспечивают точную обрезку до требуемых диапазонов возможностей или стиля, что позволяет достичь более точного и контролируемого процесса генерации.

Предложена схема синтеза данных TESSY, смягчающая проблему несоответствия распределений и предотвращающая потерю навыков рассуждений при дообучении.

Несмотря на широкое распространение обучения с подкреплением на основе синтетических данных, этот подход часто оказывается неэффективным для современных моделей рассуждений, таких как Qwen3-8B, и даже приводит к снижению производительности. В данной работе, посвященной теме ‘How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data’, выявлена значительная расходимость в стилистике генерируемых данных между «учителем» и «учеником» как ключевой фактор, влияющий на эффективность обучения. Для преодоления этой проблемы предложен фреймворк TESSY, основанный на кооперации «учителя» и «ученика» при генерации данных, что позволяет создавать синтетические последовательности, сочетающие продвинутые возможности рассуждений «учителя» со стилистической согласованностью «ученика». Способен ли TESSY стать новым стандартом в обучении моделей рассуждений и снизить риск катастрофического забывания?

Глубина Рассуждений: Вызовы для Языковых Моделей

Несмотря на значительный прогресс в области разработки больших языковых моделей (БЯМ), они часто демонстрируют неустойчивость при решении сложных, многоступенчатых задач, требующих последовательного логического вывода. Это проявляется в неспособности правильно обрабатывать цепочки умозаключений, где каждый шаг зависит от предыдущего, что приводит к ошибкам в итоговом результате. Такая ограниченность в глубине рассуждений существенно снижает надежность БЯМ в критически важных приложениях, таких как принятие решений, научные исследования и автоматизация сложных процессов. В частности, модели испытывают трудности с задачами, требующими анализа контекста, выявления скрытых закономерностей и применения абстрактного мышления, что делает их уязвимыми даже к относительно простым логическим головоломкам или задачам на дедукцию.

Несмотря на то, что специализированная настройка больших языковых моделей (LLM) на конкретных наборах данных способна значительно повысить их производительность в решении определенных задач, этот процесс сопряжен с риском так называемого “катастрофического забывания”. Суть явления заключается в том, что модель, обучаясь на новом наборе данных, может утратить знания, приобретенные ранее, что негативно сказывается на её способности к обобщению и решению более широкого спектра задач. Таким образом, хотя тонкая настройка и позволяет добиться впечатляющих результатов в узкой области, она может привести к снижению общей гибкости и адаптивности модели, ограничивая её применение в реальных сценариях, требующих универсальных навыков рассуждения и понимания языка.

Современные методы обучения языковых моделей зачастую не разделяют процессы логического рассуждения и стилистического оформления текста, что негативно сказывается на итоговых результатах. Вместо того, чтобы рассматривать эти аспекты как отдельные задачи, алгоритмы склонны оптимизировать их совместно, что приводит к ситуации, когда модель может генерировать грамматически правильный и стилистически безупречный текст, но при этом содержащий логические ошибки или неточности. Такой подход ограничивает способность модели к глубокому и последовательному мышлению, поскольку внимание распределяется между разными, порой противоречивыми, целями. В результате, даже при высокой производительности в задачах генерации текста, языковые модели демонстрируют слабость в решении сложных, требующих многоступенчатого анализа, проблем.

Сравнение кривых обучения показывает, что модели Base и Reasoning достигают схожих результатов при использовании данных SFT, синтезированных как TESSY, так и Teacher-Only.

TESSY: Сотрудничество Учителя и Ученика

В основе TESSY лежит архитектура “учитель-ученик”, где роль учителя выполняет мощная языковая модель GPT-OSS-120B. Эта модель отвечает за генерацию как логической цепочки рассуждений, определяющих содержание, так и стилистических особенностей генерируемого текста. Использование GPT-OSS-120B в качестве учителя позволяет создавать комплексные и хорошо структурированные ответы, объединяя в себе способность к глубокому анализу и выразительное оформление текста. Данный подход позволяет модели не просто предоставлять информацию, но и адаптировать ее представление к заданным требованиям стиля и тона.

В основе фреймворка TESSY лежит принцип чередующейся генерации: мощная учительская модель (GPT-OSS-120B) отвечает за создание логической цепочки рассуждений, последовательно формируя шаги решения задачи. В то же время, студенческая модель (Qwen3-8B) специализируется на стилистической доработке и улучшении языкового оформления сгенерированного текста. Такой подход позволяет отделить процесс логического мышления от процесса языковой реализации, обеспечивая более четкий контроль над качеством и стилем конечного результата. Учительская модель генерирует содержание, а студенческая — обеспечивает его удобочитаемость и соответствие заданным стилистическим требованиям.

В рамках TESSY для разделения токенов, отвечающих за фактическое содержание (capability) и стилистические особенности (style), используются предсказатели границ (Boundary Predictors). Эти предсказатели позволяют точно определить, какие части генерируемого текста относятся к логическим рассуждениям и фактам, а какие — к оформлению и выразительности. Это разделение критически важно для организации процесса обучения, где мощная учительская модель (GPT-OSS-120B) генерирует этапы рассуждений, а студенческая модель (Qwen3-8B) фокусируется на стилистической доработке, обеспечивая целенаправленное улучшение качества и соответствия текста заданным требованиям.

Для оптимизации синтеза данных в рамках TESSY используются различные стратегии взаимодействия между учителем и учеником. Стратегия “Teacher-Only” предполагает генерацию всего контента исключительно учителем (GPT-OSS-120B). “Teacher-Mix” комбинирует вывод учителя и ученика (Qwen3-8B) в процессе обучения. “Teacher-Think” заставляет учителя генерировать только шаги рассуждений, которые затем используются для обучения ученика. “Teacher-Reference” использует вывод учителя в качестве эталонного при обучении ученика, направляя его стилистическую адаптацию. Наконец, “Teacher-Score” подразумевает оценку вывода ученика учителем, что позволяет оптимизировать процесс обучения с использованием обратной связи.

Предложенная схема кооперативного синтеза данных позволяет делегировать генерацию текста, отражающего функциональные возможности, модели GPT-OSS-120B, а стилистическое оформление - модели Qwen3-8B, что демонстрируется выделением соответствующих сегментов синим и розовым (GPT-OSS-120B) и зеленым и фиолетовым (Qwen3-8B) цветами. — Предложенная схема кооперативного синтеза данных позволяет делегировать генерацию текста, отражающего функциональные возможности, модели GPT-OSS-120B, а стилистическое оформление — модели Qwen3-8B, что демонстрируется выделением соответствующих сегментов синим и розовым (GPT-OSS-120B) и зеленым и фиолетовым (Qwen3-8B) цветами.

Эмпирическая Проверка: Оценка Производительности TESSY

В ходе строгой оценки возможностей TESSY на сложных задачах логического вывода, включая бенчмарки OlympiadBench, AIME и GPQA, были продемонстрированы значительные улучшения в производительности. Система успешно решает задачи, требующие глубокого анализа и применения логических принципов, что подтверждается результатами тестов на указанных наборах данных. Данные бенчмарки представляют собой сложные задачи, предназначенные для оценки способностей к решению проблем и логическому мышлению, и успешное прохождение этих тестов указывает на высокую эффективность TESSY в области интеллектуального анализа и рассуждений.

Эффективность TESSY также продемонстрирована в задачах генерации кода с использованием наборов данных LiveCodeBench-Pro и OJBench. Результаты показывают прирост производительности до 11.25% на LiveCodeBench-Pro и 6.68% на OJBench по сравнению с базовыми моделями. Данные показатели подтверждают способность TESSY генерировать корректный и эффективный код, что делает его перспективным инструментом для автоматизации разработки программного обеспечения.

В процессе обучения TESSY используется метрика KL-дивергенции для количественной оценки расхождения между распределениями вероятностей, выдаваемыми «учителем» и «учеником». KL-дивергенция, определяемая как $D_{KL}(P||Q) = \sum_{i} P(i) \log \frac{P(i)}{Q(i)}$ , позволяет измерить, насколько одно вероятностное распределение отличается от другого. В TESSY эта метрика применяется для направления процесса уточнения модели «ученика», минимизируя разницу между ее предсказаниями и предсказаниями более мощной модели «учителя», что способствует повышению точности и эффективности обучения.

Адаптивность фреймворка TESSY подтверждается его способностью избегать типичных проблем, связанных с использованием LoRA (Low-Rank Adaptation). Эксперименты показали, что подход, основанный исключительно на использовании учителя («Teacher-Only»), приводит к снижению производительности на 10.02% при тестировании на наборе данных LiveCodeBench-Pro и на 3.25% на наборе данных OJBench, по сравнению с результатами, достигнутыми при использовании TESSY. Данные результаты демонстрируют, что TESSY более эффективно использует возможности адаптации, чем традиционные методы LoRA.

Обучение модели Qwen3-8B с использованием TESSY (GPT-OSS-120B) демонстрирует улучшение производительности с увеличением эпох.

За Пределами Бенчмарков: Значение для Надежного ИИ

В рамках системы TESSY особое внимание уделяется разделению процесса рассуждений и стилистических особенностей при формировании моделей искусственного интеллекта. Такой подход позволяет значительно повысить прозрачность принимаемых решений, что критически важно для обеспечения безопасности и надежности систем ИИ. Отделяя логическую цепочку от манеры ее представления, разработчики получают возможность более детально контролировать поведение модели, выявлять и корректировать потенциальные ошибки в процессе рассуждения, а также адаптировать стиль ответа к конкретным требованиям. Это не только упрощает процесс отладки и верификации, но и способствует созданию более предсказуемых и управляемых систем, что особенно важно в контексте критически важных приложений, где необходима высокая степень надежности и объяснимости.

В рамках разработанной системы TESSY, процесс обучения искусственного интеллекта существенно оптимизируется за счет синергии между моделями-учителями и моделями-учениками. Учительские модели, обладающие глубокими знаниями и опытом, генерируют синтетические данные, адаптированные к конкретным задачам. Эти данные, обогащенные и структурированные, предоставляются ученической модели для обучения, что позволяет ей быстрее и эффективнее осваивать необходимые навыки. Вместо того чтобы полагаться исключительно на реальные данные, часто ограниченные и шумные, система использует сгенерированные данные для целенаправленного обучения, значительно ускоряя процесс и повышая качество итоговой модели. Такой подход не только снижает потребность в больших объемах размеченных данных, но и позволяет ученической модели лучше обобщать знания и адаптироваться к новым, ранее не встречавшимся ситуациям.

Разработанные модели демонстрируют повышенную способность к обобщению, что делает их более устойчивыми к изменениям во входных данных и требованиям задач. В отличие от систем, склонных к «зазубриванию» конкретных примеров, данные модели способны эффективно применять полученные знания к новым, ранее не встречавшимся ситуациям. Это достигается за счет более гибкой структуры и способности выделять ключевые закономерности, а не просто запоминать отдельные детали. Такая устойчивость к вариациям особенно важна в реальных условиях, где данные редко бывают идеальными и задачи могут существенно отличаться от тех, на которых модель обучалась. Повышенная обобщающая способность, таким образом, является ключевым фактором для создания надежных и адаптивных систем искусственного интеллекта.

Успешная реализация TESSY наглядно демонстрирует перспективность подхода, основанного на сотрудничестве моделей «учитель-ученик», в качестве мощной парадигмы для создания искусственного интеллекта нового поколения. Данная методика позволяет эффективно передавать знания и навыки от более опытной модели к менее опытной, значительно ускоряя процесс обучения и повышая общую производительность. Вместо традиционного подхода, когда модель обучается исключительно на данных, TESSY использует активное взаимодействие, где «учитель» направляет «ученика», оптимизируя процесс освоения сложных задач и обеспечивая более надежные результаты даже при незначительных изменениях входных данных. Это открывает возможности для разработки интеллектуальных систем, способных к адаптации, обобщению и более эффективному решению проблем в различных областях применения.

Сравнение TESSY и Teacher-Only показывает, что модели, обученные с использованием подхода Thinking, демонстрируют улучшенные результаты по сравнению с базовыми моделями.

Данное исследование демонстрирует, что попытки создать идеально стабильную систему обречены на неудачу. Авторы предлагают подход, основанный на сотрудничестве модели-учителя и модели-ученика, что позволяет смягчить проблему несоответствия распределений и сохранить способность к рассуждению. Это напоминает о том, что система, постоянно адаптирующаяся и обучающаяся, гораздо жизнеспособнее, чем та, что стремится к статичному совершенству. Как однажды заметил Дональд Кнут: «Оптимизация преждевременна — корень всех зол». Стремление к немедленной оптимизации может привести к хрупкости системы, тогда как постоянное совершенствование через взаимодействие и обучение — к ее устойчивому развитию и способности противостоять изменениям.

Что дальше?

Предложенная работа, как и любая попытка приручить разум машины, лишь обнажает глубину нерешенных вопросов. Создание синтетических данных, имитирующих рассуждения, — это, скорее, алхимия, чем инженерия. Каждый шаг к улучшению согласованности стиля и предотвращению катастрофического забывания — это лишь отсрочка неизбежного. Ведь система, обученная на прошлом, всегда будет нести в себе отпечаток его ограничений.

Истинный вызов заключается не в увеличении объема данных или усовершенствовании архитектуры, а в признании того, что контроль над сложными системами — иллюзия, требующая соглашения об уровне обслуживания. Каждая зависимость — это обещание, данное прошлому, и рано или поздно, это обещание придется выполнять. Следующий этап, вероятно, потребует смещения фокуса с «обучения» на «выращивание» — создание сред, в которых модели способны адаптироваться и самовосстанавливаться, как живые организмы.

Вместо того чтобы строить идеальные ответы, необходимо научиться создавать системы, способные извлекать уроки из собственных ошибок. Всё, что построено, когда-нибудь начнёт само себя чинить — и, возможно, это не столько вопрос алгоритмов, сколько вопрос времени.

Оригинал статьи: https://arxiv.org/pdf/2604.14164.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-17 07:48

🚀 Квантовые новости