Обучение ИИ: Новый подход к пониманию человеческих предпочтений

Автор: Денис Аветисян

Исследователи разработали масштабируемый фреймворк C2, позволяющий более эффективно согласовывать поведение больших языковых моделей с человеческими ценностями.

На рисунке представлено сравнение моделей C2 и Reasoning RM, сопоставленных по вычислительным ресурсам, при использовании мажоритарного голосования на RewardBench, где средние значения и стандартные отклонения рассчитаны на основе трех повторных запусков.

C2 использует контрастное обучение и рубрики для верификации, значительно улучшая надежность и точность моделей обучения с подкреплением на основе обратной связи от человека.

Несмотря на перспективность обучения с подкреплением на основе обратной связи от человека, существующие методы оценки качества ответов часто требуют дорогостоящих ручных аннотаций. В данной работе, посвященной проблеме, представленной в статье ‘C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences’, предложен фреймворк C2, который значительно улучшает надежность моделей вознаграждения путем обучения генератора и верификатора рубрик на основе контрастивного обучения, используя лишь бинарные предпочтения. Этот подход позволяет создавать более устойчивые к ошибкам и надежные модели, сопоставимые по производительности с системами, обученными на значительно больших объемах размеченных данных. Можно ли, таким образом, создать более прозрачные и эффективные системы искусственного интеллекта, лучше согласующиеся с человеческими ценностями, не прибегая к масштабным ручным аннотациям?

Вызовы надежной оценки ИИ

Современные методы оценки больших языковых моделей (LLM) зачастую демонстрируют недостаточную устойчивость и испытывают трудности при анализе сложных, многоаспектных задач. Исследования показывают, что незначительные изменения в формулировке вопроса или в исходных данных могут приводить к существенным колебаниям в ответах модели, что ставит под сомнение надежность получаемых результатов. Особенно остро эта проблема проявляется в задачах, требующих не просто фактических знаний, а понимания контекста, логического вывода и способности к абстрактному мышлению. Неспособность LLM адекватно реагировать на тонкие нюансы и неоднозначности свидетельствует о необходимости разработки более совершенных метрик и протоколов оценки, способных выявить истинный уровень интеллекта и рассудительности этих систем.

Оценка больших языковых моделей (LLM) сталкивается с серьезными трудностями из-за присущей человеческой обратной связи субъективности. Различные люди могут по-разному интерпретировать один и тот же ответ, что приводит к непоследовательным оценкам и затрудняет объективное сравнение моделей. Существующие бенчмарки, в свою очередь, часто не охватывают всего спектра сложных рассуждений и нюансов человеческого языка, упрощая задачу до набора конкретных сценариев. Это ограничивает возможность выявления истинной интеллектуальной способности моделей и их способности к обобщению знаний. Таким образом, несовершенство как субъективных оценок, так и существующих тестовых наборов существенно замедляет прогресс в создании действительно надежных и интеллектуальных систем искусственного интеллекта, способных к сложному мышлению и принятию решений.

Самостоятельно сгенерированные критерии оценки практически не смещают распределение уверенности (<span class="katex-eq" data-katex-display="false">\Delta = 0</span>), при этом высококачественные критерии повышают точность, а низкокачественные - снижают её ниже уровня без использования критериев. — Самостоятельно сгенерированные критерии оценки практически не смещают распределение уверенности ( $\Delta = 0$ ), при этом высококачественные критерии повышают точность, а низкокачественные — снижают её ниже уровня без использования критериев.

Построение взыскательных оценщиков: верификация с использованием рубрик

Метод Rubric-Augmented Verification (RAV) предполагает использование четко определенных критериев для управления оценками, выполняемыми ИИ. Вместо оценки комплексного результата целиком, RAV разбивает сложные задачи оценки на ряд более простых, управляемых подвопросов. Такой подход позволяет ИИ-оценщику последовательно анализировать отдельные аспекты, определяемые в рубрике, что повышает точность и облегчает интерпретацию результатов. Разложение сложной оценки на подвопросы позволяет более эффективно использовать ресурсы ИИ и повысить надежность получаемых оценок.

Использование рубрик в процессе оценки значительно повышает точность и согласованность результатов, в отличие от упрощенных сигналов вознаграждения. Традиционные системы часто полагаются на единичные метрики, что приводит к субъективным и неполным оценкам. Рубрики, напротив, предоставляют детализированный набор критериев, позволяющий оценить различные аспекты ответа или решения. Это позволяет ИИ-оценщикам не просто констатировать «правильно» или «неправильно», а предоставлять структурированную обратную связь, основанную на конкретных показателях качества. Такой подход снижает зависимость от случайных факторов и повышает надежность оценки, что особенно важно при автоматизированной проверке больших объемов данных.

Автоматическое генерирование оценочных рубрик является ключевым элементом предлагаемого подхода. Для реализации этой задачи требуется разработка фреймворка, способного не только формировать сами рубрики, определяющие критерии оценки, но и обучаться применению этих рубрик для анализа и оценки результатов. Фреймворк должен учитывать как содержание критериев, определяющих “хорошую” рубрику, так и методы ее эффективного применения к конкретным задачам оценки, обеспечивая тем самым надежность и воспроизводимость результатов.

Генерация критериев оценки и проверка на их основе рассматриваются как совместное, но критическое взаимодействие, в котором генератор предлагает критерии для направления верификатора к верным суждениям, а верификатор критически оценивает, каким критериям следовать, исходя из полученных результатов.

Совместное обучение рубрик и верификаторов

В рамках разработанного подхода «Cooperative yet Critical Reward Modeling» осуществляется совместное обучение двух компонентов: генератора рубрик и верификатора, дополненного этими рубриками. Генератор отвечает за создание наборов критериев оценки, а верификатор использует эти рубрики для оценки качества ответов. Совместное обучение позволяет обоим компонентам улучшать свои характеристики: генератор учится создавать более полезные рубрики, основываясь на обратной связи от верификатора, а верификатор, в свою очередь, повышает точность оценки, используя более качественные критерии. Такая взаимосвязь способствует постоянному совершенствованию всей системы.

Обучение системы происходит на основе пар контрастных рубрик — примеров полезных и вводящих в заблуждение критериев оценки. Для обучения генератора рубрик используется алгоритм Direct Preference Optimization (DPO), который напрямую оптимизирует политику генерации на основе предпочтений, заданных в парах контрастных рубрик. Верификатор, в свою очередь, обучается с использованием Group Relative Policy Optimization (GRPO), что позволяет ему оценивать ответы с учетом сгенерированных рубрик и приоритизировать наиболее надежные из них. Такой подход позволяет системе не только генерировать полезные критерии, но и эффективно их использовать для повышения точности оценки.

Верификатор в данной системе использует механизм селективного вывода (Selective Inference), позволяющий ему динамически выбирать стратегию оценки. В тех случаях, когда верификатор оценивает надежность представленного рубрика как недостаточную, он переключается на оценку без использования рубрики. Этот подход позволяет избежать влияния некачественных или вводящих в заблуждение рубрик на конечный результат, обеспечивая более точную и объективную оценку, и позволяет верификатору самостоятельно определять, когда следовать инструкциям рубрики, а когда полагаться на собственные критерии оценки.

Взаимное совершенствование рубрик и верификаторов происходит за счет положительной обратной связи: повышение качества генерируемых рубрик ведет к более точной верификации, а более точная верификация, в свою очередь, способствует генерации улучшенных рубрик. Данный процесс позволил достичь прироста в 6.5 пункта на бенчмарке RM-Bench и увеличения показателя выигрышей (win rate) на 6.0 пунктов в LC на AlpacaEval, что демонстрирует эффективность предложенного подхода к совместному обучению.

Наша система C2 обучается с использованием DPO для генерации полезных критериев и GRPO для обучения верификатора определять их качество и следовать им, переключаясь на оценку без критериев при необходимости.

Обеспечение качества рубрик: критическая оценка

Качество критериев оценки играет ключевую роль в эффективности всей системы. Для обеспечения этого качества используется передовая модель GPT-5, которая автоматически оценивает сгенерированные критерии. Этот процесс позволяет выявлять неясные, двусмысленные или неточно отражающие желаемые параметры оценки пункты, что обеспечивает надежность и объективность автоматизированной оценки. Такой подход позволяет значительно повысить точность и достоверность результатов, получаемых от искусственного интеллекта, и гарантирует соответствие критериев оценки заданным требованиям.

Автоматизированная оценка, применяемая в системе, позволяет выявлять и совершенствовать критерии оценивания, обеспечивая их ясность, лаконичность и точное соответствие поставленным задачам. В процессе анализа автоматически обнаруживаются нечеткие формулировки, двусмысленности и несоответствия между заявленными требованиями и фактическими критериями оценки. Затем система предлагает конкретные улучшения, направленные на устранение этих недостатков и повышение надежности всей процедуры оценивания. Такой подход гарантирует, что разработанные критерии эффективно измеряют требуемые навыки и знания, а результаты оценки являются объективными и достоверными.

Исследования показали, что разработанный подход превосходит систему Reasoning RM в оценке качества на базе RewardBench. В частности, модель Tulu3-8B достигла точности в 58.3%, а Qwen3-8B — впечатляющие 78.5%. Эти результаты демонстрируют высокую надежность и практическую ценность системы в автоматизированной оценке и улучшении критериев оценивания, что способствует повышению точности и объективности искусственного интеллекта в различных областях применения.

Повышение качества оценочных критериев, или рубрик, является ключевым фактором для обеспечения достоверности и надежности оценок, формируемых искусственным интеллектом. Внедрение автоматизированных систем контроля качества рубрик позволяет выявлять и устранять неточности, двусмысленности и несоответствия, что, в свою очередь, способствует более объективной и справедливой оценке результатов. Такой подход не только повышает доверие к системам искусственного интеллекта, но и способствует ответственному развитию технологий, гарантируя, что оценки, генерируемые ИИ, соответствуют этическим нормам и требованиям точности. В конечном итоге, фокус на качестве рубрик создает основу для прозрачной и надежной системы оценки, необходимой для широкого внедрения и эффективного использования искусственного интеллекта в различных сферах деятельности.

Селективный вывод позволяет повысить точность оценки, особенно при сочетании высоко- и низкокачественных критериев, что демонстрируется серыми областями на графике.

Предложенная модель C2 демонстрирует элегантный подход к проблеме масштабируемости в обучении моделей вознаграждения. Разделение на генератор рубрик и верификатор, использующее контрастное обучение на основе бинарных предпочтений, напоминает стремление к созданию систем, способных к самосовершенствованию и адаптации. Как однажды заметил Алан Тьюринг: «Я думаю, что в будущем компьютеры смогут думать». Эта способность к обучению и адаптации, воплощенная в C2, позволяет моделям вознаграждения более эффективно согласовываться с человеческими ценностями, подобно тому, как система, стремящаяся к долговечности, адаптируется к изменяющимся условиям. Важно помнить, что версионирование — это форма памяти, а стрела времени всегда указывает на необходимость рефакторинга, что особенно актуально при создании надежных и масштабируемых систем.

Что дальше?

Представленная работа, подобно каждому коммиту в длинной ветке разработки, фиксирует состояние попытки приручить неуловимую сущность — соответствие больших языковых моделей человеческим ценностям. C2, с его акцентом на рубрики и контрастное обучение, — это, безусловно, шаг вперед, но не стоит забывать: каждая версия — лишь глава в летописи, а не финальный аккорд. Основная проблема, как и прежде, заключается в хрупкости самой концепции «человеческих ценностей» — что есть истинный критерий, когда даже сами люди зачастую не могут прийти к согласию?

Задержка в исправлении несоответствий, неизбежная в процессе масштабирования, — это, по сути, налог на амбиции. Будущие исследования, вероятно, будут направлены на повышение робастности рубрик-генераторов, на разработку методов самокоррекции и, возможно, на поиск способов интеграции более сложных, контекстно-зависимых критериев оценки. Интересно, сможет ли система самостоятельно выявлять и исправлять предвзятости, или же ей всегда будет нужен внешний арбитр?

В конечном итоге, все системы стареют — вопрос лишь в том, делают ли они это достойно. Время — не метрика, а среда, в которой существуют системы. Поэтому, вместо того, чтобы стремиться к идеальному соответствию, возможно, стоит сосредоточиться на создании систем, способных адаптироваться и учиться на своих ошибках, признавая, что абсолютная истина — иллюзия, а прогресс — это бесконечный процесс.

Оригинал статьи: https://arxiv.org/pdf/2604.13618.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-19 10:17

🚀 Квантовые новости