Обучение языковых моделей: SFT против обучения с подкреплением

Автор: Денис Аветисян


Новый обзор посвящен сравнению двух основных подходов к постобработке больших языковых моделей и тенденции к их комбинированию.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
В период с 2023 по 2025 год наблюдается стремительный рост исследований в области обучения моделей, характеризующийся расширением областей применения, сближением подходов, основанных на комбинации обучения с подкреплением и контролируемого обучения <span class="katex-eq" data-katex-display="false">SFT-RL</span>, поддержкой развитой инфраструктуры и библиотек, а также переходом от ручной разметки данных к использованию данных, генерируемых всё более мощными открытыми моделями.
В период с 2023 по 2025 год наблюдается стремительный рост исследований в области обучения моделей, характеризующийся расширением областей применения, сближением подходов, основанных на комбинации обучения с подкреплением и контролируемого обучения SFT-RL, поддержкой развитой инфраструктуры и библиотек, а также переходом от ручной разметки данных к использованию данных, генерируемых всё более мощными открытыми моделями.

Исследование сравнивает методы контролируемого обучения (Supervised Fine-Tuning) и обучения с подкреплением (Reinforcement Learning) для повышения производительности и обобщающей способности больших языковых моделей.

Несмотря на впечатляющие возможности предварительно обученных больших языковых моделей (LLM), их адаптация к конкретным задачам и доменам требует последующей доработки. В данной работе, ‘Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models’, представлен всесторонний анализ двух основных подходов пост-обучения — контролируемого обучения (SFT) и обучения с подкреплением (RL) — и выявляется растущая тенденция к их гибридному сочетанию. Исследование демонстрирует, что интеграция SFT и RL позволяет эффективно использовать их комплементарные преимущества для повышения точности, надёжности и обобщающей способности LLM. Какие новые стратегии и архитектуры позволят в полной мере реализовать потенциал гибридного пост-обучения и создать действительно универсальные и интеллектуальные языковые модели?


Пределы масштаба: сталкиваясь с проблемой галлюцинаций

Современные большие языковые модели демонстрируют поразительную беглость речи и способность к генерации текста, однако эта впечатляющая способность нередко сопровождается созданием фактологически неверной или бессмысленной информации — явление, получившее название “галлюцинации”. Данная проблема проявляется в том, что модель может уверенно излагать ложные сведения, представляя их как истинные факты, или генерировать связный, но лишенный логического смысла текст. Несмотря на прогресс в области искусственного интеллекта, модели часто не способны отличить достоверные данные от вымышленных, что создает значительные трудности при использовании их в задачах, требующих высокой точности и надежности информации. Данное поведение связано не с недостатком знаний как таковым, а с особенностями принципов работы моделей и их склонностью к генерации вероятных последовательностей слов, даже если они не соответствуют действительности.

Несмотря на стремительный рост исследований в области математических способностей больших языковых моделей — увеличение почти в пять раз с 2023 по 2025 год — существующие подходы к смягчению проблемы «галлюцинаций» оказываются все более неэффективными и затратными. Основная стратегия, заключающаяся в увеличении объема данных и количества параметров модели, демонстрирует тенденцию к убывающей отдаче. Этот подход требует экспоненциального роста вычислительных ресурсов и энергопотребления, что делает его не только экономически невыгодным, но и экологически неустойчивым. Подобная зависимость от масштаба препятствует дальнейшему развитию и широкому внедрению языковых моделей, подчеркивая необходимость поиска принципиально новых методов, не связанных с неограниченным увеличением ресурсов.

Ограничения больших языковых моделей коренятся в их фундаментальной неспособности последовательно определять и уважать границы собственного знания. В отличие от человека, который осознает пределы своей компетентности и может признать незнание, модели лишены подобного самосознания. Они оперируют вероятностями и статистическими закономерностями, что приводит к уверенному генерированию информации, даже если она не имеет под собой фактической основы. Этот процесс не связан с намеренным обманом, а является следствием внутренней структуры, где отсутствует четкое разграничение между известным и неизвестным. В результате, модели могут свободно экстраполировать за пределы своего обучения, создавая иллюзию компетентности и генерируя правдоподобные, но ложные утверждения, что и проявляется как «галлюцинация».

Определение границы: что модели не (и не должны) знать

“Граница знаний” представляет собой предел информации, которую модель может надежно получить, обработать и использовать для логических выводов без внесения ошибок. Этот предел обусловлен не только недостатком данных, но и архитектурными ограничениями, присущими способам представления и доступа к знаниям в текущих моделях. Превышение этой границы приводит к увеличению вероятности генерации неверных или вводящих в заблуждение результатов, что критически важно учитывать при работе с задачами, требующими высокой точности и надежности, особенно в областях, где информация динамически меняется или требует специализированных знаний.

Ограничение границ знаний модели не связано исключительно с недостатком данных; это архитектурное ограничение, присущее способам представления и доступа к знаниям в современных моделях. Текущие архитектуры, как правило, опираются на параметрическое хранение знаний, что подразумевает фиксированный объем информации, закодированный в весах модели. Доступ к этим знаниям осуществляется посредством сложных вычислений, но этот процесс не является идеальным и подвержен искажениям. Даже при наличии обширных данных, модель не может эффективно использовать информацию, выходящую за рамки её архитектурных возможностей, что приводит к ошибкам и неточностям в рассуждениях. Таким образом, ограничение границ знаний — это фундаментальная характеристика существующих моделей, определяемая не количеством данных, а способом их организации и обработки.

Явное моделирование границы знаний позволяет реализовать более принципиальный подход к интеграции информации и логическим выводам, предотвращая распространение недостоверных утверждений. Особенно актуально это в связи с прогнозируемым ростом исследований, связанных с кодом, на 84% в период с 2024 по 2025 год. Определение пределов компетенции модели позволяет избежать ситуаций, когда система оперирует данными, в которых не уверена, и, следовательно, снижает вероятность генерации ошибочных или вводящих в заблуждение результатов, что критически важно для приложений, требующих высокой степени достоверности.

Стратегии смягчения: уважая границы знания

Эффективное снижение галлюцинаций в моделях искусственного интеллекта напрямую зависит от разработки механизмов, позволяющих им определять границы собственной области знаний. Это предполагает внедрение систем, способных к самооценке и выявлению ситуаций, когда запрос выходит за рамки имеющейся информации. Реализация таких механизмов включает в себя отслеживание уверенности модели в своих ответах и, в случае низкой уверенности или выхода за пределы известных данных, либо отказ от ответа, либо предоставление информации об ограниченности своих знаний. Ключевым аспектом является способность модели различать известные факты от предположений или экстраполяций, что позволяет ей избегать генерации недостоверной информации.

Для снижения вероятности галлюцинаций в моделях используются методы, направленные на повышение внутренней согласованности и оценку неопределенности. Эти методы включают в себя проверку логической связности генерируемого текста и выявление противоречий внутри ответа. Оценка неопределенности позволяет модели определить степень своей уверенности в предоставляемой информации; при низком уровне уверенности модель может либо воздержаться от ответа, либо предоставить информацию о вероятности ошибки. Флагирование потенциально недостоверной информации позволяет пользователю или системе-применению оценить надежность ответа и принять соответствующие меры.

Снижение частоты галлюцинаций и повышение надежности моделей искусственного интеллекта достигается за счет явного указания на неопределенность в ответах и ограничения генерации в пределах известных границ знаний. Этот подход предполагает, что модель должна уметь идентифицировать и сообщать о случаях, когда она выходит за рамки своей компетенции, вместо предоставления ложной или недостоверной информации. В соответствии с тенденцией к использованию открытых весовых моделей, доля которых, по прогнозам, достигнет 25,0% к 2025 году, подобные механизмы становятся особенно важными для обеспечения прозрачности и контроля над генерацией контента.

Исследование методов пост-обучения больших языковых моделей, представленное в данной работе, подчеркивает тенденцию к комбинированию контролируемого дообучения (SFT) и обучения с подкреплением (RL). Этот подход, направленный на улучшение производительности и обобщающей способности моделей, неразрывно связан с понятием технического долга — упрощения, неизбежно возникающего в процессе разработки. Клод Шеннон отмечал: «Теория коммуникации должна учитывать не только передачу информации, но и неизбежные искажения». Аналогично, в контексте LLM, любое упрощение в процессе обучения или архитектуре может привести к искажению желаемого поведения модели в будущем, требуя постоянного внимания и корректировки. Иными словами, системы стареют, и вопрос лишь в том, делают ли они это достойно, сохраняя способность к адаптации и эффективной коммуникации.

Что же дальше?

Исследование методов пост-обучения больших языковых моделей, подобно тщательному составлению хроники жизни сложной системы, выявляет закономерности, но не предсказывает будущее. Наблюдается тенденция к гибридным подходам, сочетающим контролируемое обучение с обучением с подкреплением. Однако, подобно любому компромиссу, это требует баланса — поиск оптимальной пропорции между точностью, обобщением и вычислительными затратами остаётся открытым вопросом. Время покажет, окажется ли это элегантным решением или лишь временной отсрочкой неизбежных ограничений.

Логирование и анализ поведения моделей — это лишь констатация факта, но не понимание сути. Основная проблема заключается не в улучшении существующих метрик, а в определении того, что вообще означает «разумность» для искусственной системы. Развертывание новой версии — это мгновение на оси времени, но истинный тест — это её устойчивость к непредсказуемым условиям и способность к адаптации. Подобно любому сложному организму, языковая модель стареет, и вопрос лишь в том, насколько достойно она переживёт этот процесс.

В конечном счёте, успех в этой области зависит не только от алгоритмических инноваций, но и от философского осмысления самой природы интеллекта. Улучшение способности к рассуждению — это не просто оптимизация параметров, а поиск способов, позволяющих модели выйти за рамки заученных шаблонов и проявить истинную креативность. И эта задача, вероятно, потребует не только вычислительных ресурсов, но и глубокого понимания того, что значит быть разумным.


Оригинал статьи: https://arxiv.org/pdf/2603.13985.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-17 19:25