Обучение с подкреплением: Как вернуть уверенность в решениях ИИ

Автор: Денис Аветисян

Новое исследование предлагает метод устранения излишней самоуверенности в моделях, обученных с использованием обучения с подкреплением и проверяемой обратной связи.

В процессе обучения с подкреплением на основе обратной связи от человека (RLVR) наблюдается повышение уверенности языковой модели, однако данная методика одновременно усугубляет склонность модели к излишней самоуверенности в своих прогнозах.

Предложен алгоритм DCPO, разделяющий оптимизацию точности и калибровки, для повышения надежности и улучшения оценки уверенности в моделях обучения с подкреплением.

Несмотря на значительные успехи в обучении больших языковых моделей с подкреплением (RL), проблема калибровки — то есть соответствия уверенности модели ее фактической точности — остается нерешенной. В работе ‘Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards’ исследуется деградация калибровки при использовании обучения с подкреплением на основе проверяемых наград (RLVR), где модели склонны к избыточной уверенности в неверных ответах. Авторы показывают, что существует фундаментальный конфликт градиентов между оптимизацией точности и калибровки, и предлагают DCPO — фреймворк, разделяющий эти цели. Может ли предложенный подход к разделению оптимизации обеспечить более надежное и калиброванное принятие решений языковыми моделями в реальных приложениях?

Калибровка как ахиллесова пята разумных моделей

Перспективным направлением для улучшения способности больших языковых моделей к рассуждениям является обучение с подкреплением на основе проверяемых вознаграждений (RLVR). Этот подход позволяет модели не просто выдавать ответы, но и обосновывать их, что повышает надежность и прозрачность процесса принятия решений. RLVR предполагает обучение модели путем предоставления вознаграждения за каждое корректное рассуждение, подтвержденное верифицируемым доказательством. В отличие от традиционных методов обучения, где модель оценивается только по конечному результату, RLVR фокусируется на промежуточных шагах рассуждений, стимулируя модель к построению логически последовательных и обоснованных аргументов. Подобный подход открывает возможности для создания более интеллектуальных и надежных систем искусственного интеллекта, способных решать сложные задачи, требующие глубокого анализа и логического мышления.

В процессе обучения больших языковых моделей с подкреплением, направленном на улучшение логического мышления, возникает серьезная проблема — деградация калибровки. Эта тенденция проявляется в том, что модель начинает демонстрировать чрезмерную уверенность в своих ответах, даже когда они неверны. Иными словами, модель ошибается, но при этом выдает результат с высокой вероятностью, что вводит в заблуждение и снижает надежность системы. Это особенно критично в задачах, где требуется не просто получить ответ, а оценить и его достоверность, поскольку чрезмерная уверенность в неверных ответах может привести к серьезным последствиям в различных областях применения, от медицины до финансов.

Проблема избыточной уверенности в ответах, свойственная моделям, обученным с помощью обучения с подкреплением на основе проверяемых вознаграждений (RLVR), проявляется в виде компромисса между точностью и калибровкой. Это означает, что повышение способности модели к правильным ответам часто сопровождается снижением её способности адекватно оценивать собственную уверенность — модель может выдавать неверные ответы, будучи при этом абсолютно убежденной в их правильности. Такой дисбаланс существенно ограничивает практическое применение RLVR, поскольку в критически важных областях, где требуется надежность и предсказуемость, важна не только правильность ответа, но и степень уверенности в нём. Невозможность получить одновременно высокую точность и адекватную калибровку становится серьезным препятствием для внедрения этих технологий в реальные приложения, требующие доверия к результатам.

В основе наблюдаемого компромисса между точностью и калибровкой больших языковых моделей лежит конфликт градиентов — несоответствие между целями оптимизации. Процесс обучения, направленный на повышение точности ответов, зачастую приводит к усилению уверенности модели, даже если ответ ошибочен. Это происходит потому, что градиент, оптимизирующий точность, может противоречить градиенту, необходимому для поддержания хорошо откалиброванной вероятностной оценки. Таким образом, модель стремится давать ответы, которые кажутся правдоподобными, а не обязательно являются таковыми, что приводит к завышенной уверенности в неверных ответах. Разрешение этого конфликта градиентов является ключевой задачей для улучшения надёжности и практической применимости методов обучения с подкреплением, ориентированных на повышение рассудительных способностей языковых моделей.

Оптимизация точности и калибровки политики сталкивается с конфликтом градиентов, что требует баланса между этими двумя целями.

DCPO: Разделение точности и уверенности

DCPO (Decoupled Calibration Policy Optimization) представляет собой новый подход к обучению языковых моделей, направленный на одновременную оптимизацию точности рассуждений и калибровки уверенности. В отличие от традиционных методов, которые оптимизируют только точность, DCPO позволяет раздельно настраивать модель для улучшения как способности к логическому выводу, так и соответствия прогнозируемой уверенности фактической вероятности правильного ответа. Это достигается за счет декомпозиции процесса обучения и применения специализированных методов оптимизации для каждого из этих аспектов, что позволяет добиться более надежных и точных результатов в задачах, требующих как рассуждений, так и оценки уверенности.

DCPO использует метод блочной вербализации (Block-wise Verbalization) для структурирования выходных данных модели, разделяя этапы рассуждений и сигналы уверенности. Этот подход позволяет модели генерировать вывод, состоящий из отдельных блоков, представляющих логическую цепочку рассуждений, а также оценки достоверности каждого шага. Разделение этих сигналов критически важно, так как позволяет оптимизировать точность рассуждений и калибровку уверенности независимо друг от друга, что приводит к более надежным и обоснованным результатам. В частности, отдельные блоки позволяют применять специфические функции потерь и стратегии оптимизации для улучшения каждого аспекта — точности и калибровки — без взаимного влияния.

Маскированная оптимизация градиента является ключевым компонентом DCPO, позволяющим создавать отдельные сигналы преимущества для различных подмножеств токенов. Этот подход предполагает, что градиенты, вычисляемые для каждого токена, маскируются в зависимости от их роли в процессе рассуждения. В частности, токенам, относящимся к фактическому рассуждению, назначается один сигнал преимущества, в то время как токенам, представляющим уверенность (например, предсказаниям), назначается другой. Такое разделение позволяет оптимизировать точность рассуждений и калибровку независимо, повышая эффективность обучения и улучшая общую производительность модели. Использование маскированных градиентов снижает влияние нежелательных корреляций между сигналами рассуждения и уверенности, что приводит к более точной и надежной калибровке.

Метод DCPO использует групповую выборку (Group Sampling) для генерации сигнала с низкой дисперсией, предназначенного для оптимизации калибровки модели. В процессе обучения, вместо использования отдельных примеров для оценки калибровки, DCPO формирует группы примеров, что позволяет получить более стабильную и надежную оценку уверенности модели. Это снижает шум в градиентах, используемых для обновления параметров модели, и тем самым стабилизирует процесс обучения, особенно в задачах, где оценка калибровки является сложной и подвержена значительным колебаниям. Использование групповой выборки позволяет более эффективно настраивать модель для выдачи достоверных вероятностных оценок, что критически важно для принятия обоснованных решений на основе её предсказаний.

DCPO представляет собой комплексную систему, использующую блочную вербализацию уверенности и разделение оценки преимущества для оптимизации точности и калибровки, а также интегрирующую сигналы на уровне экземпляров и групп для повышения стабильности калибровки.

Оценка и повышение достоверности с помощью DCPO

DCPO использует предсказание достоверности (Confidence Prediction) для оценки надежности выходных данных модели, предоставляя количественную меру калибровки. В основе подхода лежит способность модели не только предоставить ответ, но и оценить степень своей уверенности в этом ответе. Это позволяет отделить обоснованные прогнозы от тех, которые получены случайно или на основе неверных предположений. Количественная оценка калибровки, выраженная в виде вероятности, позволяет сравнивать различные модели и алгоритмы, а также выявлять области, где модель склонна к переоценке или недооценке своей уверенности. Использование предсказания достоверности является ключевым элементом повышения надежности и предсказуемости работы моделей машинного обучения.

В рамках DCPO используется механизм «выраженной уверенности» (Verbalized Confidence), при котором модель не только предоставляет ответ, но и явно указывает уровень своей уверенности в этом ответе, а также предоставляет обоснование принятого решения. Это позволяет пользователю оценить надежность предсказания, основываясь не только на конечном результате, но и на процессе рассуждений, представленном моделью. Вывод уверенности осуществляется в числовом формате, что обеспечивает возможность количественного анализа и сравнения различных предсказаний модели, а также последующей калибровки.

Эффективность DCPO строго оценивалась с использованием метрики Expected Calibration Error (ECE), позволяющей количественно оценить калибровку модели. Результаты показали значительное улучшение калибровки, выраженное в снижении ECE на 71.6% относительно базового уровня. Данный показатель свидетельствует о том, что предсказанные вероятности соответствуют фактической частоте событий, что повышает надежность и полезность выходных данных модели. Снижение ECE подтверждается статистическим анализом и демонстрирует превосходство DCPO в оценке достоверности собственных прогнозов.

В основе подхода DCPO лежит использование метрики Фишера для обеспечения надежного и статистически обоснованного измерения расстояния между вероятностными распределениями. Это позволяет более точно оценивать калибровку модели, избегая искажений, связанных с упрощенными методами. Результаты показывают, что применение данной метрики позволило достичь значения AUROC, равного 0.914, что свидетельствует о значительном улучшении калибровки модели по сравнению с существующими подходами и подтверждает эффективность использования метрики Фишера для оценки и повышения достоверности предсказаний.

В процессе обучения предложенный метод позволяет значительно снизить излишнюю уверенность модели, сохраняя при этом высокую точность на наборе данных AIME25.

К надёжным и заслуживающим доверия системам рассуждений

Метод DCPO (Disentangled Confidence Prediction Optimization) направлен на решение ключевой проблемы калибровки в задачах рассуждений с использованием больших языковых моделей (RLVR). Традиционно, повышение точности моделей сопровождалось ухудшением калибровки — то есть, соответствием между предсказанной уверенностью и фактической вероятностью правильного ответа. DCPO преодолевает это противоречие, позволяя независимо оптимизировать как точность, так и калибровку. Этот подход позволяет создавать модели, способные не только выдавать верные ответы, но и достоверно оценивать свою уверенность в них, что критически важно для приложений, где надежность решений имеет первостепенное значение. Фактически, DCPO открывает путь к созданию более ответственных и заслуживающих доверия систем искусственного интеллекта.

Метод DCPO открывает новые возможности в создании языковых моделей, позволяя одновременно достигать высокой точности и хорошо откалиброванной уверенности в ответах. Традиционно, повышение точности часто приводило к ухудшению калибровки — модели становились более самоуверенными, даже когда ошибались. DCPO решает эту проблему, разделяя оптимизацию точности и калибровки, что позволяет добиться значительного прогресса в обоих направлениях. В результате, модель демонстрирует впечатляющую точность — 41.6% на бенчмарке AIME24 — и при этом способна более адекватно оценивать свою уверенность в предсказаниях, что критически важно для приложений, требующих надежных и обоснованных решений.

Полученные результаты имеют существенное значение для областей, где надёжность принимаемых решений критически важна, например, в медицинской диагностике или финансовом прогнозировании. Разработанный подход демонстрирует среднее повышение точности на 11.8% при тестировании на пяти различных бенчмарках, что указывает на возможность создания систем, способных не только выдавать правильные ответы, но и адекватно оценивать свою уверенность в них. Такая калибровка особенно важна в ситуациях, где ошибка может привести к серьёзным последствиям, позволяя специалистам более эффективно использовать и доверять результатам, предоставляемым искусственным интеллектом.

Разработка DCPO знаменует собой важный шаг в создании более надежных и заслуживающих доверия систем рассуждений. В отличие от традиционных подходов, ориентированных исключительно на статистическую точность, DCPO акцентирует внимание на калибровке уверенности модели, позволяя ей не только выдавать правильные ответы, но и адекватно оценивать степень своей уверенности в них. Это принципиально важно для приложений, где требуется не просто предсказание, а обоснованное и надежное принятие решений, например, в медицинской диагностике или финансовом прогнозировании. В результате, DCPO способствует переходу от систем, которые просто «угадывают» правильно, к системам, способным к осознанному и обоснованному рассуждению, что открывает новые возможности для применения искусственного интеллекта в критически важных областях.

Результаты показывают, что DCPO обеспечивает более стабильную динамику оптимизации по сравнению с другими методами, что подтверждается анализом градиентной нормы.

В работе, посвящённой отстройке рассуждений и уверенности в обучении с подкреплением, авторы пытаются приручить извечную проблему чрезмерной уверенности больших языковых моделей. Стремление к «бесконечной масштабируемости», как правило, заканчивается необходимостью бороться с последствиями, и здесь предлагаемый DCPO — лишь одна из попыток обуздать этот процесс. Как метко заметил Роберт Тарьян: «Программирование — это искусство заставлять машину делать то, что вы хотите». В данном случае, “хотеть” — это адекванная калибровка уверенности, а “заставить” — это отделить оптимизацию точности от оптимизации калибровки. Иначе говоря, красивая диаграмма снова превратится в монолит, если не позаботиться о фундаментальных вещах.

Что дальше?

Предложенный подход к разделению оптимизации точности и калибровки, безусловно, представляет интерес, однако не стоит забывать старую истину: каждая «революционная» архитектура — это просто более сложный способ сломать существующие инструменты мониторинга. Устранение завышенной уверенности — задача бесконечная. Вполне вероятно, что оптимизация, основанная на «верифицируемых» наградах, сама по себе породит новые, ещё более изощрённые формы непредсказуемого поведения, особенно при масштабировании на сложные, реальные задачи. Если код выглядит идеально откалиброванным — значит, его ещё никто не запустил в продакшене.

В перспективе, стоит обратить внимание не только на математическую элегантность алгоритмов, но и на практическую применимость методов оценки калибровки в условиях ограниченных ресурсов и неполной информации. Вопрос о том, как эффективно детектировать и исправлять ошибки калибровки в динамически меняющейся среде, остаётся открытым. Иными словами, предложенный фреймворк — это шаг вперёд, но не стоит обольщаться — проблема надёжности систем обучения с подкреплением останется актуальной ещё очень долго.

В конечном итоге, истинным мерилом успеха станет не снижение метрики ошибки калибровки на тестовом наборе данных, а способность системы предсказывать свои собственные ошибки в реальном времени и адаптироваться к новым, непредвиденным обстоятельствам. Иначе говоря, нужна не идеальная калибровка, а устойчивость к её отсутствию.

Оригинал статьи: https://arxiv.org/pdf/2603.09117.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-11 10:26

🚀 Квантовые новости