Автор: Денис Аветисян
Новое исследование показывает, что языковые модели демонстрируют непоследовательность в оценке доверия к экспертам-людям и алгоритмическим системам.

Языковые модели проявляют склонность к алгоритмической предвзятости: предпочитают алгоритмы в реальных решениях, но заявляют о большем доверии к экспертам-людям.
Неоднородность в оценке надежности информации, поступающей от различных источников, представляет собой серьезную проблему в принятии решений. В работе ‘Language Models Exhibit Inconsistent Biases Towards Algorithmic Agents and Human Experts’ исследуется, как большие языковые модели (LLM) взвешивают информацию, предоставленную экспертами-людьми и алгоритмическими агентами. Полученные результаты показывают, что, хотя LLM демонстрируют более высокую степень доверия к экспертам-людям в прямых оценках, в ситуациях, связанных с реальным принятием решений, они склонны отдавать предпочтение алгоритмам, даже если их производительность ниже. Какие механизмы лежат в основе этого противоречивого поведения и как обеспечить последовательность в оценках LLM для повышения их надежности в критически важных приложениях?
Доверие к алгоритмам и экспертам: первоначальные представления
В настоящее время наблюдается стремительное расширение областей применения больших языковых моделей (БЯМ) для решения сложных задач, требующих принятия решений. От автоматизации клиентской поддержки и анализа финансовых рынков до помощи в медицинских диагнозах и разработки юридических документов — БЯМ становятся все более востребованными. В связи с этим, оценка их надежности и предсказуемости приобретает первостепенное значение. Недостаточная проверка на предмет ошибок и неточностей может привести к серьезным последствиям, особенно в критически важных областях, что обуславливает необходимость разработки строгих методик тестирования и валидации этих систем, а также прозрачности их работы для конечного пользователя. Повышенное внимание к вопросам надежности необходимо для обеспечения безопасного и эффективного внедрения БЯМ в различные сферы деятельности.
Несмотря на значительный прогресс в разработке больших языковых моделей (LLM), в них сохраняются присущие смещения, которые могут приводить к систематическим ошибкам. Эти смещения, часто отражающие предвзятости, присутствующие в данных, на которых обучались модели, проявляются в виде неверных или несправедливых результатов, особенно в чувствительных областях, таких как кредитование, найм или правосудие. Подобные ошибки не только подрывают точность и надежность LLM, но и серьезно влияют на доверие пользователей к этим системам. Если человек неоднократно сталкивается с предвзятыми или некорректными ответами, его готовность полагаться на советы и рекомендации LLM существенно снижается, что препятствует успешному взаимодействию человека и искусственного интеллекта и ограничивает возможности широкого применения этих мощных технологий.
Понимание того, как люди воспринимают и доверяют советам, предоставляемым алгоритмами, является ключевым фактором для успешного взаимодействия человека и искусственного интеллекта. Исследования показывают, что уровень доверия к алгоритмическим рекомендациям существенно зависит от объяснимости процесса принятия решений — чем понятнее логика, лежащая в основе совета, тем выше вероятность его принятия человеком. Однако, даже прозрачные алгоритмы не всегда гарантируют доверие, поскольку на него влияют и другие факторы, такие как предыдущий опыт взаимодействия с подобными системами, общее отношение к технологиям и даже индивидуальные когнитивные особенности. Поэтому, для эффективной коллаборации необходимо не только разрабатывать надежные и объяснимые алгоритмы, но и учитывать психологические аспекты восприятия и доверия со стороны человека, адаптируя интерфейс и способ представления информации.

Первичные предпочтения: доверие к экспертам
В ходе первого исследования непосредственно оценивались заявленные предпочтения посредством сопоставления оценок доверия к экспертам-людям и алгоритмическим агентам. Участникам предлагалось оценить уровень доверия к обоим типам источников информации, представленным в одинаковых условиях. Целью являлось количественное определение различий в восприятии и оценке надежности, основанных исключительно на типе источника — человеке или алгоритме — до учета каких-либо фактических результатов или производительности. Полученные данные позволили установить базовый уровень предпочтения к экспертам-людям, служащий отправной точкой для дальнейшего анализа.
Результаты исследования показали наличие устойчивой склонности к доверию человеческим экспертам, даже в случаях, когда алгоритмические агенты демонстрировали сопоставимую или превосходящую эффективность. Данная закономерность была подтверждена положительным значением “Разрыва доверия” (Trust Gap) для всех протестированных моделей, что указывает на изначальное предпочтение суждений, предоставляемых людьми. Величина этого разрыва количественно оценивает разницу между уровнем доверия к экспертам и алгоритмам при одинаковой производительности, подтверждая наличие базового когнитивного смещения в пользу человеческого фактора.
Результаты исследований указывают на наличие предустановленной когнитивной предвзятости в пользу человеческого суждения. Данная предвзятость проявляется в более высокой оценке доверия к мнению экспертов-людей, даже при сопоставимой или превосходящей производительности алгоритмических агентов. Вероятной причиной этого явления является устоявшееся доверие и знакомство с человеческими экспертами, сформировавшееся на основе предыдущего опыта и социальной практики. Данный эффект указывает на то, что восприятие компетентности не всегда напрямую связано с объективными показателями эффективности, а подвержено влиянию субъективных факторов, связанных с человеческим восприятием и ожиданиями.

Раскрытые предпочтения: поведение при обратной связи о производительности
Во втором исследовании выявленные предпочтения измерялись путем наблюдения за тем, как испытуемые учитывают информацию о производительности при выборе между советом человека и алгоритма. Участникам предлагалось сделать выбор между рекомендациями, предоставленными человеком-экспертом и алгоритмическим агентом, после чего им предоставлялась информация об исторической точности каждого источника советов. Наблюдение за последующими решениями позволило количественно оценить, как информация о производительности влияет на предпочтения, отражая реальное поведение в ситуациях, когда доступна альтернативная информация о качестве совета.
Исследование показало, что по мере улучшения продемонстрированной производительности алгоритмических агентов, наблюдается сдвиг в предпочтениях участников в их пользу. Вероятность выбора алгоритма значительно превышала случайный уровень (p<0.001) во всех использованных моделях. Данный результат указывает на то, что люди склонны переключаться на алгоритмические рекомендации, когда те демонстрируют превосходящую эффективность, подтверждая влияние объективных показателей производительности на процесс принятия решений.
Несмотря на наблюдаемый переход к предпочтению алгоритмических агентов при улучшении их показателей, исследование выявило сохраняющуюся склонность к избеганию алгоритмов, даже когда они демонстрировали стабильно более высокую эффективность по сравнению с экспертами-людьми. Данная тенденция была количественно оценена с помощью показателя “Относительного риска между заявленными и фактическими предпочтениями” (Stated-Revealed Relative Risk), значения которого варьировались от 1.29 до 8.52 в различных моделях. Это указывает на то, что участники исследования, даже осознавая превосходство алгоритмов, продолжали демонстрировать повышенную вероятность выбора человеческого совета, что свидетельствует о сохраняющемся недоверии или нежелании полагаться на автоматизированные системы, несмотря на объективные данные.

Архитектуры LLM и устойчивость предвзятости
Сложность современных языковых моделей (LLM), таких как GPT, Llama и Claude, неразрывно связана с проявлением предвзятости. Увеличение числа параметров и архитектурная сложность, призванные улучшить производительность, парадоксальным образом могут усиливать существующие предубеждения, заложенные в обучающих данных. Особенностью LLM является их способность к обучению «в контексте» (In-Context Learning), когда модель адаптируется к задаче на основе нескольких примеров, предоставленных во входных данных. Однако, если эти примеры содержат предвзятую информацию или отражают стереотипы, модель, стремясь к статистической закономерности, неизбежно воспроизводит и даже усиливает эти искажения. Таким образом, сложность модели, будучи необходимым условием для достижения высоких результатов, требует особого внимания к качеству и репрезентативности данных, используемых для обучения, чтобы минимизировать риск закрепления и распространения предвзятых суждений.
Современные языковые модели, такие как GPT, Llama и Claude, демонстрируют впечатляющие возможности в генерации и обработке текста, однако их сила не избавляет от уязвимости к воспроизведению и усилению существующих общественных предубеждений. Эти модели обучаются на огромных объемах текстовых данных, которые неизбежно содержат исторически сложившиеся стереотипы и предвзятости. В результате, даже при отсутствии явных указаний, модели могут выдавать результаты, отражающие эти предубеждения, касающиеся пола, расы, религии и других социальных категорий. Данная проблема представляет серьезную угрозу для справедливого и непредвзятого применения этих технологий в различных областях, от автоматического перевода до систем поддержки принятия решений.
Исследования показали, что увеличение масштаба и сложности языковых моделей, несмотря на повышение их способности к прогнозированию и идентификации более надежных предикторов — о чем свидетельствует коэффициент регрессии 0.66 при статистической значимости p=0.02 — не решает проблему предвзятости. Более сложные модели, хотя и демонстрируют улучшенные показатели в определении релевантных факторов, все еще склонны к воспроизведению и даже усилению существующих в обучающих данных социально обусловленных предубеждений. Это указывает на то, что простое увеличение размера модели не является достаточной мерой для обеспечения справедливости и беспристрастности в ее результатах, и требует разработки дополнительных методов для смягчения и устранения проявлений предвзятости.

Исследование демонстрирует интересную дихотомию в поведении больших языковых моделей. Заявленное доверие к экспертам-людям не всегда соответствует фактическим предпочтениям при принятии решений. Модели проявляют склонность к алгоритмам в реальных выборах, несмотря на декларируемую веру в человеческую мудрость. Как точно заметил Брайан Керниган: «Простота — высшая степень изысканности». Эта фраза отражает суть проблемы: сложные системы, даже если они кажутся более надежными, могут уступать простым и понятным алгоритмам в эффективности и предсказуемости. Подобное несоответствие между заявленным и реальным подчеркивает необходимость более глубокого анализа предвзятостей в ИИ и разработки методов для обеспечения согласованности между словами и действиями.
Куда двигаться дальше?
Наблюдаемое несоответствие между заявленными предпочтениями и реальным выбором в отношении алгоритмических агентов и экспертов-людей, безусловно, не является парадоксом, требующим немедленного решения. Скорее, это симптом более глубокой проблемы — склонности к нарративной самообману, присущей не только языковым моделям, но и самим системам, которые их создают. Утверждения о доверии, как показывает данное исследование, оказываются хрупкими конструкциями, легко поддающимися влиянию контекста и структуры запроса.
Следующий этап исследований должен сосредоточиться на деконструкции этих нарративов. Необходимо исследовать, какие именно лингвистические маркеры сигнализируют о заявленном доверии, и как эти маркеры расходятся с фактическим поведением модели. Не менее важно разработать методы, позволяющие выявить и измерить «скрытое» предпочтение алгоритмов, которое проявляется в принятии решений, но не декларируется в вербальных ответах. Это требует перехода от анализа поверхностных утверждений к изучению внутренних представлений и механизмов принятия решений.
В конечном счете, истинная ценность данного направления исследований заключается не в создании моделей, способных имитировать доверие, а в понимании границ этого понятия. Прозрачность и предсказуемость поведения моделей, даже если это поведение противоречит интуитивным ожиданиям, представляется более важной задачей, чем создание иллюзии разумности. Возможно, в конечном итоге, ясность окажется более ценной, чем правдоподобие.
Оригинал статьи: https://arxiv.org/pdf/2602.22070.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Функциональные поля и модули Дринфельда: новый взгляд на арифметику
- Квантовая самовнимательность на службе у поиска оптимальных схем
- Реальность и Кванты: Где Встречаются Теория и Эксперимент
- Квантовый скачок: от лаборатории к рынку
- Виртуальная примерка без границ: EVTAR учится у образов
2026-02-27 03:43