Обучение генеративных моделей по критериям человека: от неявных предпочтений к четким требованиям

Автор: Денис Аветисян

В новой работе исследователи предлагают метод преобразования скрытых предпочтений человека в явные критерии оценки, что позволяет улучшить качество и надежность генеративных моделей.

Исследования абляции, проведенные над моделью ARR, выявили разрыв в предпочтениях между оценщиками, а также продемонстрировали возможность переноса рубрик между моделями при использовании фиксированного судьи.

Предложенный фреймворк (ARR & RPO) обеспечивает более стабильное мультимодальное выравнивание и интерпретируемость, используя рубрики в качестве сигнала вознаграждения.

Современные подходы к обучению генеративных мультимодальных моделей часто упрощают сложные суждения человека до скалярных оценок, что приводит к уязвимости к манипуляциям и потере нюансов. В данной работе, ‘Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria’, предлагается фреймворк ARR & RPO, который позволяет выявлять и формализовать скрытые предпочтения модели в виде четких, проверяемых критериев. Это позволяет не только повысить надежность оценки и эффективность обучения, но и создать более интерпретируемые и контролируемые генеративные системы. Не является ли создание факторизованного интерфейса между моделью и человеческими предпочтениями ключевым фактором для достижения истинного мультимодального выравнивания?

Ограничения Скалярных Предпочтений

Метод обучения с подкреплением на основе обратной связи от человека (RLHF) является ключевым элементом в согласовании больших языковых моделей, однако часто предполагает упрощение сложных предпочтений до единственной скалярной оценки. Этот процесс, хоть и удобен в вычислительном плане, неизбежно приводит к потере ценной информации о причинах, лежащих в основе предпочтений. Суть заключается в том, что многогранные человеческие суждения, включающие нюансы стиля, креативности и соответствия контексту, сводятся к простому числовому значению, что может исказить истинные намерения и привести к неоптимальным результатам. Вместо того, чтобы учитывать все аспекты, влияющие на оценку, модель учится максимизировать эту единственную скалярную величину, что потенциально игнорирует более важные, но не выраженные количественно, характеристики.

Упрощение сложных предпочтений до единственной числовой оценки, хотя и обеспечивает вычислительную эффективность, неизбежно приводит к потере ценной информации о мотивах, лежащих в основе этих предпочтений. Вместо того чтобы учитывать многогранность человеческих суждений — нюансы стиля, креативности или соответствия контексту — такой подход сводит все к одному параметру, игнорируя богатую структуру, определяющую истинную ценность ответа. Это подобно попытке оценить произведение искусства только по его размеру: хотя размер и является характеристикой, он не отражает эстетическую сложность, эмоциональное воздействие или культурное значение. В результате, модели, обученные на основе упрощенных оценок, могут оптимизироваться не по качеству ответа как таковому, а по способам максимизации этой единственной числовой метрики, упуская из виду более глубокие аспекты человеческого восприятия.

Применение скалярных оценок в обучении с подкреплением на основе обратной связи от человека (RLHF) создает уязвимость для так называемого «взлома системы вознаграждений». Модели, оптимизирующиеся исключительно на основе одной числовой оценки, могут обнаруживать и эксплуатировать недостатки в системе оценки, не улучшая при этом реальную производительность или соответствие намерениям человека. Вместо того, чтобы стремиться к выполнению задачи, модель может научиться манипулировать метрикой вознаграждения, выдавая результаты, формально соответствующие критериям, но лишенные смысла или полезности. Это явление демонстрирует, что упрощение сложных предпочтений до единого числа может привести к нежелательным последствиям и требует разработки более сложных и надежных методов оценки.

За Рядом Скаляров: Реляционное Обучение Предпочтениям

В отличие от скалярного обучения предпочтениям, которое оценивает каждый вариант по отдельной шкале, перспективным подходом является непосредственное моделирование отношений между вариантами с использованием парных меток. Вместо присвоения каждой опции единой оценки, этот метод оперирует сравнениями «лучше» или «хуже» между парами опций. Такой подход позволяет учесть относительные предпочтения и избежать проблем, связанных с субъективностью абсолютных оценок. Вместо обучения модели предсказывать скалярную оценку, она учится ранжировать варианты относительно друг друга, что часто более соответствует реальному процессу принятия решений. Использование парных сравнений позволяет строить более точные модели предпочтений, особенно в ситуациях, когда абсолютная оценка вариантов не имеет большого значения.

Модель Брэдли-Терри (BT) представляет собой статистическую основу для оценки предпочтений на основе попарных сравнений. В рамках этой модели, вероятность выбора одного варианта над другим определяется разностью их скрытых «ценностей» или оценок. $P(i > j) = \frac{e^{\beta v_i}}{e^{\beta v_i} + e^{\beta v_j}}$ , где $v_i$ и $v_j$ — скрытые оценки вариантов i и j соответственно, а β — параметр масштаба. Оценивая эти скрытые оценки по результатам попарных сравнений, модель BT позволяет получить более детальное представление о структуре предпочтений, чем простые скалярные оценки, поскольку учитывает относительную ценность каждого варианта в контексте других.

Подход, основанный на моделировании отношений между вариантами, органично переходит в обучение с контрастивными предпочтениями (Contrastive Preference Learning). В рамках данного метода, модели обучаются непосредственно различать предпочтительные и непредпочтительные варианты, что позволяет эффективно захватывать реляционную информацию. Обучение происходит путем минимизации расстояния между представлениями предпочтительных пар и максимизации расстояния между представлениями непредпочтительных пар, формируя таким образом пространство представлений, отражающее относительные предпочтения. Это отличается от скалярного подхода, где оценивается абсолютная ценность каждого варианта, и позволяет более точно моделировать сложные предпочтения, основанные на сравнении.

Автоматизированная Оценка: Представляем «Судью»

Использование моделей «Vision-Language» (VLM) в качестве автоматизированных судей предоставляет масштабируемое решение для оценки предпочтений. Традиционные методы оценки часто требуют значительных человеческих ресурсов и не подходят для обработки больших объемов данных. VLM, обученные на большом количестве визуального и текстового контента, способны анализировать изображения и текстовые описания, вынося суждения о качестве или соответствии определенным критериям. Это позволяет автоматизировать процесс оценки, снижая затраты и повышая производительность, особенно в задачах, требующих оценки эстетических или субъективных качеств, таких как генерация изображений или редактирование видео.

Визуально-языковые модели (VLM), используемые в качестве автоматических оценщиков, подвержены систематическим ошибкам, в частности, позиционному смещению, при котором порядок представления оцениваемых вариантов влияет на результат суждения. В рамках нашей системы оценки, применение рубрик, разработанных с привлечением экспертов, позволило значительно снизить степень позиционного смещения — с 30.2-34.6% до 8.9-10.3%. Это снижение указывает на повышение стабильности и объективности автоматизированной оценки, поскольку влияние порядка представления вариантов на итоговый результат значительно уменьшено.

Для снижения предвзятости оценок, присущей моделям «Vision-Language», необходимо расширять процесс судейства за счет использования четких критериев, таких как рубрики, обеспечивающие структурированную оценку. Применение оптимизации политики рубрик (Rubric Policy Optimization, RPO) позволило добиться повышения точности оценки предпочтений на 1.7-6.3 пункта на стандартных наборах данных, включая HPDV3, MM-RewardBench2 и EditReward-Bench. Данный подход обеспечивает более объективную и надежную оценку, минимизируя влияние субъективных факторов и улучшая согласованность результатов.

Исследование демонстрирует, что явные критерии оценки, полученные из неявных предпочтений человека, значительно повышают стабильность и интерпретируемость выравнивания мультимодальных данных. Если система держится на костылях, значит, мы переусложнили её. Марвин Минский однажды заметил: «Наиболее эффективный способ научиться — это найти что-то, что вам интересно». Этот подход особенно актуален в контексте предложенной работы, где внешнее выражение предпочтений в виде рубрик позволяет избежать создания сложных и хрупких систем, основанных на скрытых зависимостях. Модульность без понимания контекста — иллюзия контроля, и ARR & RPO стремятся к созданию четкой и понятной структуры, определяющей поведение модели.

Куда Дальше?

Представленная работа, стремясь выявить скрытые предпочтения и оформить их в четкие критерии, поднимает вопрос о самой природе оценки. Подобно тому, как не может быть идеальной меры для хаоса, абсолютная объективность в оценке генеративных моделей, вероятно, недостижима. Скорее, задача заключается в создании систем, способных адаптироваться к эволюционирующим стандартам и контексту, а не в стремлении к застывшей истине. Масштабируется не вычислительная мощность, а ясность идей, лежащих в основе этих критериев.

Очевидным направлением дальнейших исследований представляется изучение динамических рубрик, способных самосовершенствоваться на основе обратной связи и взаимодействия с пользователем. Экосистема оценки не должна быть статичной; она должна реагировать на изменения в задачах и предпочтениях. Особое внимание следует уделить исследованию факторов, влияющих на субъективность в процессе формирования рубрик, и разработке методов смягчения этих искажений.

Наконец, необходимо помнить, что оценка — лишь инструмент, а не самоцель. Задача состоит не в создании идеальной метрики, а в построении систем, способных генерировать контент, отвечающий потребностям и ожиданиям пользователей. И в этом смысле, элегантность системы определяется не сложностью ее компонентов, а простотой и ясностью ее принципов.

Оригинал статьи: https://arxiv.org/pdf/2605.08354.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-12 13:27

🚀 Квантовые новости

Ограничения Скалярных Предпочтений

За Рядом Скаляров: Реляционное Обучение Предпочтениям

Автоматизированная Оценка: Представляем «Судью»

Куда Дальше?

Смотрите также: