Автор: Денис Аветисян
Новый бенчмарк Multi-Crit позволяет оценить, насколько хорошо мультимодальные модели искусственного интеллекта справляются с одновременным учетом множества критериев при оценке контента.

Исследование представляет Multi-Crit, комплексный инструмент для оценки мультимодальных моделей, способных выносить решения на основе множества, зачастую противоречивых, критериев.
Несмотря на растущую популярность больших мультимодальных моделей в качестве судей в системах оценки, их способность последовательно следовать разнообразным и детализированным критериям остаётся малоизученной. В данной работе представлена новая методика оценки, ‘Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following’, позволяющая всесторонне протестировать мультимодальные модели на предмет способности следовать множественным критериям и разрешать возникающие конфликты. Анализ 25 моделей показал, что даже проприетарные модели испытывают трудности с поддержанием согласованности при оценке по нескольким критериям, а открытые модели демонстрируют ещё более низкую гибкость. Какие новые подходы к обучению и оценке необходимы для создания надежных и управляемых систем мультимодальной оценки на основе искусственного интеллекта?
Вызов Надежного Искусственного Суждения
По мере все более глубокого внедрения систем искусственного интеллекта в процессы принятия решений, возрастает критическая потребность в надежных и понятных суждениях. ИИ уже не просто выполняет рутинные задачи, но и участвует в формировании важных выводов, влияющих на различные аспекты жизни — от здравоохранения и финансов до правосудия и безопасности. Это предъявляет новые требования к алгоритмам: недостаточно просто выдавать правильный ответ, необходимо, чтобы логика, лежащая в основе этого ответа, была прозрачной и объяснимой. В противном случае, отсутствие доверия к решениям ИИ может стать серьезным препятствием для его дальнейшего развития и широкого применения, а также повлечь за собой непредсказуемые последствия.
Традиционные метрики оценки, такие как точность и полнота, часто оказываются недостаточными для выявления тонкостей рассуждений и учета сложных критериев при работе с системами искусственного интеллекта. Эти показатели склонны упрощать процесс принятия решений, не учитывая контекст, этические соображения или потенциальные непредвиденные последствия. В результате, даже системы с высокими показателями по стандартным метрикам могут выдавать ошибочные или предвзятые результаты в реальных сценариях, особенно когда требуется учитывать множество взаимосвязанных факторов. Это несоответствие между формальной оценкой и фактической надежностью подчёркивает необходимость разработки более совершенных методов оценки, способных отражать сложность и многогранность человеческого мышления и обеспечивать действительно надёжные решения на основе искусственного интеллекта.

Multi-Crit: Эталон для Плюралистического Суждения
Бенчмарк Multi-Crit разработан для оценки способности ИИ-судьи следовать разнообразным критериям оценки и выдавать надежные, критериально-ориентированные суждения. В отличие от традиционных подходов, фокусирующихся на едином показателе, Multi-Crit требует от модели анализа и оценки по множеству заданных параметров. Это подразумевает не только вынесение общей оценки, но и предоставление обоснования, соответствующего каждому отдельному критерию, что позволяет детально оценить процесс принятия решений ИИ и выявить потенциальные смещения или несоответствия. Надежность критериальных суждений проверяется посредством специально разработанных наборов данных и метрик, обеспечивающих количественную оценку точности и согласованности ответов ИИ.
Бенчмарк Multi-Crit специально предназначен для оценки способности ИИ-судьи следовать разнообразным критериям оценки и выдавать надежные суждения на уровне каждого критерия. Ключевым аспектом является тестирование “следования множественным критериям” (Pluralistic Criteria Following), при котором оценивается, насколько хорошо судья справляется с ситуациями, когда различные критерии противоречат друг другу. Это особенно важно для практических приложений, где часто необходимо учитывать конкурирующие факторы и принимать взвешенные решения на их основе, например, при оценке эссе, определении приоритетов в задачах или разрешении споров.
Традиционные методы оценки моделей искусственного интеллекта часто ограничиваются проверкой соответствия единственному критерию, что не отражает сложность реальных сценариев. Переход к многокритериальной оценке, как это реализовано в Multi-Crit, позволяет более полно оценить способность ИИ к рассуждениям. Такой подход учитывает взаимодействие между различными критериями и позволяет выявить, насколько эффективно модель справляется с конфликтами между ними. Это обеспечивает более точную и всестороннюю оценку, приближающуюся к человеческому суждению и необходимую для развертывания ИИ в сложных, многоаспектных задачах.

Большие Мультимодальные Модели в Роли Судей: Производительность и Валидация
Для оценки возможностей больших мультимодальных моделей (LMM) в качестве ИИ-судей был проведен анализ производительности GPT-4o, Claude-3.7-Sonnet, InternVL3.5 и Qwen2.5-VL на базе эталонного набора данных Multi-Crit. Выбор данных Multi-Crit обусловлен его способностью оценивать модели по нескольким критериям одновременно, что необходимо для имитации процесса принятия решений человеком. Использование нескольких моделей позволило провести сравнительный анализ и выявить сильные и слабые стороны каждой из них в контексте задачи оценки и суждения.
В ходе оценки производительности больших мультимодальных моделей (LMM) в качестве судей на базе эталона Multi-Crit, было установлено, что наиболее эффективные проприетарные модели демонстрируют среднюю совокупную точность (Pluralistic Accuracy) около 32.78% при решении задач с открытым ответом и 53.17% при решении задач, требующих логических рассуждений. В то же время, открытые модели значительно отстают по данному показателю, демонстрируя существенно более низкую точность в обеих категориях задач. Это указывает на превосходство проприетарных моделей в задачах, требующих сложного анализа и оценки.
Для всесторонней оценки судейских способностей больших мультимодальных моделей (LMM), проводилось тестирование по трем ключевым показателям. Критерий-уровень точности оценивал способность модели правильно оценивать отдельные критерии. Чувствительность к компромиссам, достигшая 84.40% для GPT-4o, измеряла способность модели учитывать взаимосвязь между различными критериями и находить оптимальные решения при наличии противоречий. Коэффициент разрешения конфликтов, зафиксированный на уровне 65.84% для o4-mini, показывал способность модели разрешать разногласия между отдельными оценками. Совместное использование этих трех метрик позволило получить комплексное представление о качестве суждений, производимых LMM.
Для обеспечения значимой оценки и валидации результатов, производительность больших мультимодальных моделей (LMM) была сопоставлена с базовым уровнем, установленным соглашением между людьми-аннотаторами (Human Inter-Annotator Agreement). Этот подход позволил определить, насколько оценки, предоставляемые LMM, соответствуют субъективным оценкам, данным экспертами-людьми. Сравнение с соглашением между аннотаторами является критически важным этапом, поскольку позволяет учесть неизбежный уровень разногласий между людьми при оценке сложных, открытых задач и обеспечить объективную интерпретацию результатов работы моделей.

Повышение Качества Суждений с Помощью Цепочек Рассуждений
Исследования показали, что применение методов “Рассуждение в процессе мышления” — получение от моделей цепочек рассуждений, объясняющих их выводы — значительно повышает качество и прозрачность их оценок. Вместо простого предоставления конечного результата, модели, использующие эти методы, демонстрируют ход своих мыслей, позволяя понять, какие факторы и соображения привели к конкретному суждению. Это не только повышает доверие к оценкам, но и облегчает выявление потенциальных ошибок или предвзятостей в логике модели. Полученные результаты подтверждают, что акцент на процессе рассуждения, а не только на конечном ответе, является ключевым фактором в создании надежных и понятных систем искусственного интеллекта, способных выполнять роль объективных судей.
Исследования показали, что применение метода прослеживания логических цепочек рассуждений значительно повышает согласованность и надёжность оценок, вне зависимости от подхода к суждению. Как в случае комплексной многокритериальной оценки, так и при использовании однокритериальной системы, модели, демонстрирующие ход своих мыслей, выдавали более стабильные и предсказуемые результаты. Это указывает на то, что ценность искусственного интеллекта как судьи заключается не только в конечном вердикте, но и в прозрачности процесса принятия решения, что позволяет лучше понимать и доверять его заключениям.
Исследования показывают, что для создания действительно надежных систем искусственного интеллекта, выполняющих роль судей или оценщиков, необходимо уделять первостепенное внимание не только конечному результату, но и самому процессу рассуждений. Вместо простого анализа ответа, важно понимать, как модель пришла к этому выводу — какие факторы были учтены, какие логические шаги предприняты. Оценивая ход мыслей ИИ, можно выявить потенциальные ошибки, предвзятости или нелогичности, что позволяет значительно повысить доверие к его решениям и обеспечить более обоснованные и прозрачные оценки. Подход, фокусирующийся на логической цепочке рассуждений, а не только на итоговом балле, является ключевым для построения искусственных судей, заслуживающих доверия и способных к объективной оценке.

Представленное исследование демонстрирует важность всесторонней оценки моделей, способных следовать множественным критериям. Как отмечал Дэвид Марр: «Цель познания — построение вычислительной теории, объясняющей, как работает разум». Аналогично, Multi-Crit стремится создать вычислительную основу для оценки способности моделей разрешать конфликты между критериями, что является ключевым аспектом в достижении подлинного соответствия предпочтениям. Данный бенчмарк, выявляя ограничения существующих моделей в оценке на уровне отдельных критериев, подчеркивает необходимость разработки более надежных и детализированных методов оценки, способных отразить сложность человеческих суждений.
Что дальше?
Представленный анализ, фокусируясь на оценке многомодальных моделей через призму множественных и часто противоречивых критериев, неизбежно наталкивается на фундаментальный вопрос: действительно ли мы измеряем понимание, или лишь способность к сложной имитации? Успешное прохождение тестов Multi-Crit, безусловно, демонстрирует прогресс в следовании инструкциям, но не гарантирует, что модель способна к истинной оценке, основанной на внутреннем, а не заданном внешне, понимании ценностей и приоритетов.
Очевидным направлением для будущих исследований является разработка метрик, выходящих за рамки простой точности следования критериям. Необходимо стремиться к воспроизводимости и объяснимости оценок, а не только к достижению высоких числовых показателей. Особенно важным представляется исследование механизмов разрешения конфликтов между критериями — каковы внутренние «веса», которые модель приписывает различным аспектам оценки, и насколько эти веса соответствуют человеческому восприятию?
В конечном итоге, задача состоит не в создании идеального «судьи», а в углублении понимания того, как искусственный интеллект воспринимает и интерпретирует мир. Multi-Crit — лишь один шаг на этом пути, и его истинная ценность заключается в выявлении ограничений существующих моделей и стимулировании поиска более глубоких и осмысленных методов оценки.
Оригинал статьи: https://arxiv.org/pdf/2511.21662.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Кандинский 5.0: Искусство генерации изображений и видео
- Волны под контролем: Ускорение моделирования материалов с дефектами
- Квантовые симуляторы: Преодолевая ограничения памяти
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- LLM: математика — предел возможностей.
- Пространственное мышление видео: новый подход к обучению ИИ
- Квантовые вычисления нового поколения: объединяя возможности аналоговых и цифровых систем
- Обуздать шум: Эффективная коррекция ошибок для квантовых вычислений
- Виртуальная примерка без границ: EVTAR учится у образов
- Восполняя пробелы в знаниях: Как языковые модели учатся делать выводы
2025-11-28 09:33