Искусственный интеллект: чьи ценности он отражает?

Автор: Денис Аветисян


Исследование показывает, что большие языковые модели склонны больше соответствовать ценностям специалистов по искусственному интеллекту, чем общественному мнению.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Исследование, охватывающее 200 LLM и выборку из 140-607 специалистов в области ИИ, показало, что восприятие важности принципов ответственного ИИ варьируется в зависимости от контекста, при этом значительная часть респондентов оценивает эти принципы как крайне или очень важные.
Исследование, охватывающее 200 LLM и выборку из 140-607 специалистов в области ИИ, показало, что восприятие важности принципов ответственного ИИ варьируется в зависимости от контекста, при этом значительная часть респондентов оценивает эти принципы как крайне или очень важные.

Работа посвящена анализу соответствия ценностей, заложенных в большие языковые модели, и приоритетам, проявляющимся в задачах разработки требований, а также сравнению этих ценностей с точкой зрения как экспертов в области ИИ, так и широкой общественности.

Несмотря на растущее применение больших языковых моделей (LLM) в разработке программного обеспечения, остается неясным, насколько их ценностные предпочтения соответствуют человеческим суждениям. В исследовании ‘Are We Aligned? A Preliminary Investigation of the Alignment of Responsible AI Values between LLMs and Human Judgment’ анализируется степень согласованности ценностей LLM с мнениями представителей общественности и специалистов в области ИИ. Полученные результаты демонстрируют, что LLM в большей степени соответствуют ценностям практиков ИИ, подчеркивая важность справедливости, приватности, прозрачности и безопасности, однако наблюдаются расхождения между декларируемыми ценностями и их практическим применением при определении приоритетов требований. Не потребуются ли более систематические подходы к оценке и мониторингу соответствия ценностей для обеспечения надежного использования LLM в разработке программного обеспечения?


Иллюзии Ответственного ИИ

В настоящее время наблюдается широкое внедрение больших языковых моделей (LLM) в разработку программного обеспечения, что поднимает важные вопросы о кодировании этических ценностей. Демонстрация производительности недостаточна; LLM должны соответствовать этическим ожиданиям человека, чтобы укрепить доверие и избежать последствий. Нельзя полагаться только на технические метрики. Традиционные методы обеспечения этичности ИИ неадекватны, требуется разработка новых подходов к оценке и формированию морального компаса этих систем. Каждая «революционная» технология завтра станет техдолгом.

Анализ показал, что языковые модели (LLM) в значительной степени оценивают ценности ответственного ИИ как чрезвычайно или очень важные в исследуемых контекстах, при этом темные оттенки указывают на более высокую оценку, а светлые – на умеренную, что подтверждается данными, полученными от репрезентативной выборки из США.
Анализ показал, что языковые модели (LLM) в значительной степени оценивают ценности ответственного ИИ как чрезвычайно или очень важные в исследуемых контекстах, при этом темные оттенки указывают на более высокую оценку, а светлые – на умеренную, что подтверждается данными, полученными от репрезентативной выборки из США.

Необходимо сместить фокус с соблюдения правил на активное формирование этических принципов в основе LLM.

Согласованность Ценностей: Бенчмаркинг Этики LLM

Исследование Value Alignment направлено на количественную оценку корреляции между ранжированием ответственного ИИ, генерируемым LLM, и оценками репрезентативных человеческих групп. Результаты показывают, что LLM проявляют большее соответствие ценностям специалистов в области ИИ, чем ценностям, представленным репрезентативной выборкой из США, что указывает на возможное влияние ценностей разработчиков. Наблюдается умеренная корреляция между ранжированием ценностей LLM и выборкой из США, в то время как сильная положительная корреляция установлена между LLM и практиками ИИ.

Исследование выявило, что языковые модели демонстрируют большее соответствие в выборе пяти наиболее важных ценностей с практиками в области ИИ, чем репрезентативная выборка из США, при этом для LLM и репрезентативной выборки из США были проанализированы 50 и 516 ответов соответственно, а для практиков ИИ – 140.
Исследование выявило, что языковые модели демонстрируют большее соответствие в выборе пяти наиболее важных ценностей с практиками в области ИИ, чем репрезентативная выборка из США, при этом для LLM и репрезентативной выборки из США были проанализированы 50 и 516 ответов соответственно, а для практиков ИИ – 140.

Данная разница подчеркивается коэффициентом сходства Жаккара (0.67 для LLM и выборки из США против 1.0 для LLM и специалистов ИИ), указывающим на полное совпадение в выборе ценностей.

Направление LLM: От Выявления к Приоритизации

Многоагентные системы на основе LLM становятся эффективным инструментом для выявления этических требований на ранних этапах разработки программного обеспечения, обеспечивая создание функционального кода и документирование этических соображений. Приоритизация требований, осуществляемая LLM, позволяет ранжировать пользовательские истории в зависимости от важности, интегрируя ценности ответственного ИИ в основу разработки. Система способна автоматически определять наиболее критичные этические требования. Решение проблемы компромиссов в ценностях становится ключевым; LLM должны ориентироваться в конфликтующих этических приоритетах и принимать обоснованные решения, учитывая справедливость, конфиденциальность и автономию человека.

Анализ приоритетов языковых моделей в отношении ценностных требований в различных контекстах показал, что более низкие значения соответствуют более высокому приоритету, что позволяет оценить относительную важность различных ценностей.
Анализ приоритетов языковых моделей в отношении ценностных требований в различных контекстах показал, что более низкие значения соответствуют более высокому приоритету, что позволяет оценить относительную важность различных ценностей.

Эффективное разрешение конфликтов требует от модели способности к сложным рассуждениям и учету контекста конкретной ситуации.

Обеспечение Доверия: Агенты и Автоматизация

Автоматизированные системы машинного обучения (AutoML) требуют внимательной интеграции принципов ответственного ИИ, чтобы избежать воспроизведения и усиления существующих предвзятостей. Агенты TrustAI функционируют как инструменты контроля, оценивая соответствие кода этическим стандартам и обеспечивая внедрение принципов надёжности на протяжении всего жизненного цикла разработки. Они позволяют выявлять и устранять потенциальные уязвимости, связанные с предвзятостью, конфиденциальностью и прозрачностью. Проактивное решение этических вопросов направлено на укрепление доверия и содействие ответственному внедрению систем ИИ. В конечном счете, каждая «революционная» технология завтра станет лишь очередным источником технических долгов.

Контекст Этики: Важность Доменной Специфики

Ценности, определяющие принципы ответственного ИИ, не универсальны и подвержены влиянию контекста. Значительные различия наблюдаются в различных областях, таких как здравоохранение, финансы и уголовное правосудие, что обусловлено специфическими рисками и преимуществами. Этическая оценка и приоритизация принципов ответственного ИИ должны быть адаптированы к конкретному применению, учитывая уникальные риски и преимущества. Универсальный подход к этике ИИ может привести к нежелательным последствиям и снижению доверия. Будущие исследования должны быть сосредоточены на разработке адаптивных фреймворков, способных интегрировать разнообразные этические перспективы, обеспечивая ответственное внедрение ИИ в широком спектре отраслей.

В ходе исследования было установлено, что языковые модели демонстрируют определенные предпочтения в отношении ценностей в различных контекстах, при этом светлые области указывают на меньшую степень предпочтения, а данные, полученные от LLM, репрезентативной выборки из США и практиков ИИ, составили 200, 140-607 ответов соответственно.
В ходе исследования было установлено, что языковые модели демонстрируют определенные предпочтения в отношении ценностей в различных контекстах, при этом светлые области указывают на меньшую степень предпочтения, а данные, полученные от LLM, репрезентативной выборки из США и практиков ИИ, составили 200, 140-607 ответов соответственно.

Необходимо разрабатывать инструменты и методы, позволяющие учитывать культурные, социальные и этические различия при разработке и внедрении систем ИИ.

Исследование показывает, что большие языковые модели склонны разделять ценности специалистов в области искусственного интеллекта, а не широкой публики. Не удивительно, ведь, как известно, система, стабильно дающая сбой, хотя бы последовательна в своей неработоспособности. Джон Маккарти заметил: “Наиболее важные вещи, которые мы можем сделать, — это сделать так, чтобы компьютеры могли понимать и манипулировать человеческим языком.” Ирония в том, что даже достигнув этой цели, модели отражают скорее предпочтения тех, кто их создает, чем универсальные моральные принципы. Этот разрыв между заявленными ценностями и реальным поведением в задачах проектирования требований – закономерность. Каждая «революционная» технология завтра станет техдолгом, а идеалы – лишь очередным слоем абстракции над неизбежной сложностью.

Что дальше?

Настоящее исследование демонстрирует, что большие языковые модели (LLM) склонны лучше согласовываться с ценностями специалистов в области искусственного интеллекта, нежели с общественным мнением. Это, конечно, не удивительно. Каждая «революционная» технология завтра станет техдолгом, и LLM не исключение. Зафиксированное расхождение между заявленными ценностями и фактическим приоритетом в задачах разработки требований – лишь предвестник более глубоких проблем. Все, что можно задеплоить — однажды упадёт, и ценности тоже.

Следующим шагом представляется не столько совершенствование алгоритмов согласования ценностей, сколько признание их временного характера. Более продуктивным может оказаться исследование динамики этих расхождений во времени, отслеживание эволюции ценностей как LLM, так и сообщества разработчиков. Абстракции умирают от продакшена, но умирают красиво. Важно помнить, что любые попытки «зафиксировать» этические принципы в коде обречены на устаревание.

В конечном счёте, вопрос не в том, чтобы создать «совершенно этичный» ИИ, а в том, чтобы разработать инструменты для мониторинга и смягчения последствий неизбежных расхождений. CI/CD — это просто новый вид паники, только с графиками. И задача не в том, чтобы избежать паники, а в том, чтобы научиться с ней жить, не ломая всё вокруг.


Оригинал статьи: https://arxiv.org/pdf/2511.04157.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-08 00:03