Многоликий Судья: Проверка Искусственного Интеллекта на Способность к Комплексным Оценкам

Автор: Денис Аветисян


Новый бенчмарк Multi-Crit позволяет оценить, насколько хорошо мультимодальные модели искусственного интеллекта справляются с одновременным учетом множества критериев при оценке контента.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Набор разнообразных мультимодальных запросов, представленный в Multi-Crit, охватывает широкий спектр областей оценки, используемых для работы с большими мультимодальными моделями, и демонстрирует возможности их проверки на соответствие заданным критериям.
Набор разнообразных мультимодальных запросов, представленный в Multi-Crit, охватывает широкий спектр областей оценки, используемых для работы с большими мультимодальными моделями, и демонстрирует возможности их проверки на соответствие заданным критериям.

Исследование представляет Multi-Crit, комплексный инструмент для оценки мультимодальных моделей, способных выносить решения на основе множества, зачастую противоречивых, критериев.

Несмотря на растущую популярность больших мультимодальных моделей в качестве судей в системах оценки, их способность последовательно следовать разнообразным и детализированным критериям остаётся малоизученной. В данной работе представлена новая методика оценки, ‘Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following’, позволяющая всесторонне протестировать мультимодальные модели на предмет способности следовать множественным критериям и разрешать возникающие конфликты. Анализ 25 моделей показал, что даже проприетарные модели испытывают трудности с поддержанием согласованности при оценке по нескольким критериям, а открытые модели демонстрируют ещё более низкую гибкость. Какие новые подходы к обучению и оценке необходимы для создания надежных и управляемых систем мультимодальной оценки на основе искусственного интеллекта?


Вызов Надежного Искусственного Суждения

По мере все более глубокого внедрения систем искусственного интеллекта в процессы принятия решений, возрастает критическая потребность в надежных и понятных суждениях. ИИ уже не просто выполняет рутинные задачи, но и участвует в формировании важных выводов, влияющих на различные аспекты жизни — от здравоохранения и финансов до правосудия и безопасности. Это предъявляет новые требования к алгоритмам: недостаточно просто выдавать правильный ответ, необходимо, чтобы логика, лежащая в основе этого ответа, была прозрачной и объяснимой. В противном случае, отсутствие доверия к решениям ИИ может стать серьезным препятствием для его дальнейшего развития и широкого применения, а также повлечь за собой непредсказуемые последствия.

Традиционные метрики оценки, такие как точность и полнота, часто оказываются недостаточными для выявления тонкостей рассуждений и учета сложных критериев при работе с системами искусственного интеллекта. Эти показатели склонны упрощать процесс принятия решений, не учитывая контекст, этические соображения или потенциальные непредвиденные последствия. В результате, даже системы с высокими показателями по стандартным метрикам могут выдавать ошибочные или предвзятые результаты в реальных сценариях, особенно когда требуется учитывать множество взаимосвязанных факторов. Это несоответствие между формальной оценкой и фактической надежностью подчёркивает необходимость разработки более совершенных методов оценки, способных отражать сложность и многогранность человеческого мышления и обеспечивать действительно надёжные решения на основе искусственного интеллекта.

Несмотря на различия в эффективности отдельных моделей по разным критериям, все они демонстрируют более высокую способность к плюралистическому выравниванию и проверке рассуждений по сравнению с задачами открытого типа.
Несмотря на различия в эффективности отдельных моделей по разным критериям, все они демонстрируют более высокую способность к плюралистическому выравниванию и проверке рассуждений по сравнению с задачами открытого типа.

Multi-Crit: Эталон для Плюралистического Суждения

Бенчмарк Multi-Crit разработан для оценки способности ИИ-судьи следовать разнообразным критериям оценки и выдавать надежные, критериально-ориентированные суждения. В отличие от традиционных подходов, фокусирующихся на едином показателе, Multi-Crit требует от модели анализа и оценки по множеству заданных параметров. Это подразумевает не только вынесение общей оценки, но и предоставление обоснования, соответствующего каждому отдельному критерию, что позволяет детально оценить процесс принятия решений ИИ и выявить потенциальные смещения или несоответствия. Надежность критериальных суждений проверяется посредством специально разработанных наборов данных и метрик, обеспечивающих количественную оценку точности и согласованности ответов ИИ.

Бенчмарк Multi-Crit специально предназначен для оценки способности ИИ-судьи следовать разнообразным критериям оценки и выдавать надежные суждения на уровне каждого критерия. Ключевым аспектом является тестирование “следования множественным критериям” (Pluralistic Criteria Following), при котором оценивается, насколько хорошо судья справляется с ситуациями, когда различные критерии противоречат друг другу. Это особенно важно для практических приложений, где часто необходимо учитывать конкурирующие факторы и принимать взвешенные решения на их основе, например, при оценке эссе, определении приоритетов в задачах или разрешении споров.

Традиционные методы оценки моделей искусственного интеллекта часто ограничиваются проверкой соответствия единственному критерию, что не отражает сложность реальных сценариев. Переход к многокритериальной оценке, как это реализовано в Multi-Crit, позволяет более полно оценить способность ИИ к рассуждениям. Такой подход учитывает взаимодействие между различными критериями и позволяет выявить, насколько эффективно модель справляется с конфликтами между ними. Это обеспечивает более точную и всестороннюю оценку, приближающуюся к человеческому суждению и необходимую для развертывания ИИ в сложных, многоаспектных задачах.

Набор данных Multi-Crit создан на основе разнообразных запросов, ответов различных мультимодальных моделей и многокритериальной оценки человека, выявляющей расхождения в предпочтениях по различным критериям.
Набор данных Multi-Crit создан на основе разнообразных запросов, ответов различных мультимодальных моделей и многокритериальной оценки человека, выявляющей расхождения в предпочтениях по различным критериям.

Большие Мультимодальные Модели в Роли Судей: Производительность и Валидация

Для оценки возможностей больших мультимодальных моделей (LMM) в качестве ИИ-судей был проведен анализ производительности GPT-4o, Claude-3.7-Sonnet, InternVL3.5 и Qwen2.5-VL на базе эталонного набора данных Multi-Crit. Выбор данных Multi-Crit обусловлен его способностью оценивать модели по нескольким критериям одновременно, что необходимо для имитации процесса принятия решений человеком. Использование нескольких моделей позволило провести сравнительный анализ и выявить сильные и слабые стороны каждой из них в контексте задачи оценки и суждения.

В ходе оценки производительности больших мультимодальных моделей (LMM) в качестве судей на базе эталона Multi-Crit, было установлено, что наиболее эффективные проприетарные модели демонстрируют среднюю совокупную точность (Pluralistic Accuracy) около 32.78% при решении задач с открытым ответом и 53.17% при решении задач, требующих логических рассуждений. В то же время, открытые модели значительно отстают по данному показателю, демонстрируя существенно более низкую точность в обеих категориях задач. Это указывает на превосходство проприетарных моделей в задачах, требующих сложного анализа и оценки.

Для всесторонней оценки судейских способностей больших мультимодальных моделей (LMM), проводилось тестирование по трем ключевым показателям. Критерий-уровень точности оценивал способность модели правильно оценивать отдельные критерии. Чувствительность к компромиссам, достигшая 84.40% для GPT-4o, измеряла способность модели учитывать взаимосвязь между различными критериями и находить оптимальные решения при наличии противоречий. Коэффициент разрешения конфликтов, зафиксированный на уровне 65.84% для o4-mini, показывал способность модели разрешать разногласия между отдельными оценками. Совместное использование этих трех метрик позволило получить комплексное представление о качестве суждений, производимых LMM.

Для обеспечения значимой оценки и валидации результатов, производительность больших мультимодальных моделей (LMM) была сопоставлена с базовым уровнем, установленным соглашением между людьми-аннотаторами (Human Inter-Annotator Agreement). Этот подход позволил определить, насколько оценки, предоставляемые LMM, соответствуют субъективным оценкам, данным экспертами-людьми. Сравнение с соглашением между аннотаторами является критически важным этапом, поскольку позволяет учесть неизбежный уровень разногласий между людьми при оценке сложных, открытых задач и обеспечить объективную интерпретацию результатов работы моделей.

Обучение с подкреплением позволило улучшить логические рассуждения моделей на основе Qwen2.5-VL-7B в наборе данных Multi-Crit.
Обучение с подкреплением позволило улучшить логические рассуждения моделей на основе Qwen2.5-VL-7B в наборе данных Multi-Crit.

Повышение Качества Суждений с Помощью Цепочек Рассуждений

Исследования показали, что применение методов “Рассуждение в процессе мышления” — получение от моделей цепочек рассуждений, объясняющих их выводы — значительно повышает качество и прозрачность их оценок. Вместо простого предоставления конечного результата, модели, использующие эти методы, демонстрируют ход своих мыслей, позволяя понять, какие факторы и соображения привели к конкретному суждению. Это не только повышает доверие к оценкам, но и облегчает выявление потенциальных ошибок или предвзятостей в логике модели. Полученные результаты подтверждают, что акцент на процессе рассуждения, а не только на конечном ответе, является ключевым фактором в создании надежных и понятных систем искусственного интеллекта, способных выполнять роль объективных судей.

Исследования показали, что применение метода прослеживания логических цепочек рассуждений значительно повышает согласованность и надёжность оценок, вне зависимости от подхода к суждению. Как в случае комплексной многокритериальной оценки, так и при использовании однокритериальной системы, модели, демонстрирующие ход своих мыслей, выдавали более стабильные и предсказуемые результаты. Это указывает на то, что ценность искусственного интеллекта как судьи заключается не только в конечном вердикте, но и в прозрачности процесса принятия решения, что позволяет лучше понимать и доверять его заключениям.

Исследования показывают, что для создания действительно надежных систем искусственного интеллекта, выполняющих роль судей или оценщиков, необходимо уделять первостепенное внимание не только конечному результату, но и самому процессу рассуждений. Вместо простого анализа ответа, важно понимать, как модель пришла к этому выводу — какие факторы были учтены, какие логические шаги предприняты. Оценивая ход мыслей ИИ, можно выявить потенциальные ошибки, предвзятости или нелогичности, что позволяет значительно повысить доверие к его решениям и обеспечить более обоснованные и прозрачные оценки. Подход, фокусирующийся на логической цепочке рассуждений, а не только на итоговом балле, является ключевым для построения искусственных судей, заслуживающих доверия и способных к объективной оценке.

Модель o4-minicorrectly демонстрирует способность различать противоречия между полнотой и отсутствием галлюцинаций при оценке по отдельным критериям, но теряет эту способность при совместной многокритериальной оценке, где полнота становится доминирующим фактором.
Модель o4-minicorrectly демонстрирует способность различать противоречия между полнотой и отсутствием галлюцинаций при оценке по отдельным критериям, но теряет эту способность при совместной многокритериальной оценке, где полнота становится доминирующим фактором.

Представленное исследование демонстрирует важность всесторонней оценки моделей, способных следовать множественным критериям. Как отмечал Дэвид Марр: «Цель познания — построение вычислительной теории, объясняющей, как работает разум». Аналогично, Multi-Crit стремится создать вычислительную основу для оценки способности моделей разрешать конфликты между критериями, что является ключевым аспектом в достижении подлинного соответствия предпочтениям. Данный бенчмарк, выявляя ограничения существующих моделей в оценке на уровне отдельных критериев, подчеркивает необходимость разработки более надежных и детализированных методов оценки, способных отразить сложность человеческих суждений.

Что дальше?

Представленный анализ, фокусируясь на оценке многомодальных моделей через призму множественных и часто противоречивых критериев, неизбежно наталкивается на фундаментальный вопрос: действительно ли мы измеряем понимание, или лишь способность к сложной имитации? Успешное прохождение тестов Multi-Crit, безусловно, демонстрирует прогресс в следовании инструкциям, но не гарантирует, что модель способна к истинной оценке, основанной на внутреннем, а не заданном внешне, понимании ценностей и приоритетов.

Очевидным направлением для будущих исследований является разработка метрик, выходящих за рамки простой точности следования критериям. Необходимо стремиться к воспроизводимости и объяснимости оценок, а не только к достижению высоких числовых показателей. Особенно важным представляется исследование механизмов разрешения конфликтов между критериями — каковы внутренние «веса», которые модель приписывает различным аспектам оценки, и насколько эти веса соответствуют человеческому восприятию?

В конечном итоге, задача состоит не в создании идеального «судьи», а в углублении понимания того, как искусственный интеллект воспринимает и интерпретирует мир. Multi-Crit — лишь один шаг на этом пути, и его истинная ценность заключается в выявлении ограничений существующих моделей и стимулировании поиска более глубоких и осмысленных методов оценки.


Оригинал статьи: https://arxiv.org/pdf/2511.21662.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-28 09:33