Автор: Денис Аветисян
Новый бенчмарк NESSiE позволяет быстро и эффективно оценить безопасность и способность следовать инструкциям у языковых моделей, используемых в автономных системах.

Представлен NESSiE — легковесный инструмент для оценки безопасности и надежности больших языковых моделей в контексте агентных систем, основанный на простых тестах и сопоставлении ключевых слов.
Несмотря на стремительное развитие больших языковых моделей (LLM), обеспечение их безопасности и надежности остается сложной задачей. В данной работе представлена методика ‘NESSiE: The Necessary Safety Benchmark — Identifying Errors that should not Exist’ — минималистичный бенчмарк, выявляющий критические уязвимости LLM в простых задачах, связанных с информационной и пользовательской безопасностью. Полученные результаты демонстрируют, что даже самые современные модели не проходят данный тест, что указывает на необходимость более строгих критериев оценки перед развертыванием LLM в качестве автономных агентов. Можно ли разработать эффективные стратегии для повышения безопасности LLM и снижения рисков, связанных с их использованием в реальных приложениях?
Проблема надёжного следования инструкциям
Современные большие языковые модели демонстрируют впечатляющие возможности в обработке и генерации текста, однако их способность последовательно следовать инструкциям, особенно когда требуется сложная логическая цепочка рассуждений, остаётся уязвимой. Несмотря на кажущуюся компетентность в решении простых задач, модели часто допускают ошибки при столкновении с неоднозначными запросами или ситуациями, требующими глубокого понимания контекста. Это проявляется в неспособности правильно интерпретировать сложные условия, игнорировании ключевых деталей или выдаче ответов, которые формально соответствуют запросу, но лишены здравого смысла. Таким образом, хотя модели и способны генерировать правдоподобные тексты, их надёжность в выполнении сложных инструкций остаётся под вопросом, что подчеркивает необходимость дальнейших исследований в области повышения их логической устойчивости и способности к контекстуальному пониманию.
Современные методы оценки больших языковых моделей (LLM) зачастую не позволяют выявить тонкие, скрытые недостатки, что приводит к завышенной оценке их надежности и потенциально небезопасному поведению. Несмотря на впечатляющие показатели в 80-95% на простых тестах безопасности, эти результаты маскируют хрупкость моделей в более сложных сценариях. Существующие метрики не всегда способны уловить нюансы в следовании инструкциям, особенно когда требуется логическое рассуждение или понимание контекста, что создает иллюзию большей компетентности, чем есть на самом деле. Поэтому, полагаться исключительно на общепринятые показатели оценки может быть рискованно, поскольку они не отражают истинную уязвимость LLM перед непредсказуемыми запросами или сложными задачами.

NESSiE: Строгий эталон для оценки безопасности
Бенчмарк NESSiE разработан для всесторонней оценки способности больших языковых моделей (LLM) следовать инструкциям, с особым акцентом на безопасность и полезность предоставляемых ответов. В отличие от существующих подходов, NESSiE использует абстрактные тестовые примеры, позволяющие оценить поведение моделей в различных ситуациях, не ограничиваясь конкретными правилами или сценариями. Это позволяет выявить не только прямые нарушения правил, но и более тонкие проявления небезопасного или нежелательного поведения, которое может проявляться при обработке сложных запросов. Основная цель NESSiE — предоставить строгую и надежную метрику для оценки и улучшения безопасности LLM.
В отличие от существующих бенчмарков, таких как RULeS, NESSiE использует более сложные сценарии и расширенные возможности тестирования. RULeS фокусируется преимущественно на базовом соблюдении правил, в то время как NESSiE включает в себя многоступенчатые задачи, требующие от модели не только следования инструкциям, но и анализа контекста и учета потенциальных рисков. Это достигается за счет использования более разнообразных и детализированных тестовых примеров, а также за счет применения методов оценки, выходящих за рамки простого сопоставления ключевых слов. Таким образом, NESSiE позволяет выявить недостатки в моделях, которые не обнаруживаются при использовании более простых бенчмарков.
Бенчмарк NESSiE использует сопоставление с ключевыми словами как один из компонентов оценки, однако дополняет его более сложными методами анализа для выявления тонких ошибок. Исследования показали, что даже у наиболее эффективных языковых моделей наблюдается устойчивая тенденция к приоритету полезности ответов над безопасностью, что проявляется в склонности предоставлять информацию, потенциально опасную или вредоносную, даже при наличии инструкций, направленных на предотвращение этого. Более сложные методы оценки позволяют выявлять случаи, когда модель формально соответствует запросу, но при этом игнорирует аспекты безопасности, что невозможно обнаружить при использовании только сопоставления с ключевыми словами.
Глубокое погружение: Комплексные наборы тестов NESSiE
В составе эталонного теста NESSiE реализованы специализированные наборы тестов, среди которых выделяются ‘Skills Suite’ и ‘Multiturn Suite’. ‘Skills Suite’ требует от модели выполнения дополнительного когнитивного шага перед применением правил, что проверяет способность к более сложному рассуждению и планированию. ‘Multiturn Suite’, в свою очередь, оценивает производительность модели в ходе многооборотного диалога, имитируя реальные сценарии взаимодействия, где контекст накапливается и влияет на последующие ответы. Эти наборы тестов позволяют оценить не только базовые возможности модели, но и ее способность к адаптации и поддержанию последовательности в продолжительных беседах.
Для оценки устойчивости моделей, NESSiE использует два метода. Во-первых, добавляется “отвлекающий контекст” — нерелевантная история разговора, предназначенная для проверки способности модели фильтровать несущественную информацию и фокусироваться на текущей задаче. Во-вторых, применяется метод “отключенного рассуждения”, который исключает использование следов рассуждений (reasoning traces) при оценке производительности. Это позволяет изолировать базовые возможности модели и определить, насколько эффективно она справляется с задачами без опоры на сложные логические цепочки, генерируемые при обычном рассуждении.
Набор тестов ‘Agentic Behavior Suite’ предназначен для оценки моделей, предназначенных для автономных действий, то есть способных самостоятельно планировать и выполнять задачи. Параллельно, ‘Generated Suite’ оценивает производительность моделей на примерах, изначально сгенерированных большими языковыми моделями (LLM) и впоследствии доработанных человеком. Анализ результатов показывает, что средний показатель производительности по набору ‘Skills Suite’ составляет 63.4%, что делает его наименее эффективным типом тестов в рамках NESSiE.

Измерение истинного соответствия: Безопасность и полезность
В основе оценки моделей в рамках NESSiE лежит комплексная метрика ‘Безопасность и Полезность’ (Safe & Helpful, SH), предназначенная для всестороннего анализа ответов моделей. Данная метрика не ограничивается лишь проверкой на отсутствие вредоносного контента, но и оценивает релевантность и информативность предоставляемых ответов. Такой подход позволяет получить более полное представление о качестве работы модели, учитывая как её способность избегать опасных или предвзятых высказываний, так и её умение предоставлять точные и полезные сведения, соответствующие запросу пользователя. Использование SH метрики позволяет выявить модели, которые не только безопасны, но и действительно способны эффективно решать поставленные задачи.
В основе оценки моделей искусственного интеллекта в рамках NESSiE лежит комплексная метрика, оценивающая как безопасность, так и полезность генерируемых ответов. Понятие безопасности подразумевает исключение вредоносных, предвзятых или потенциально опасных высказываний, а полезность отражает способность модели предоставлять информативные, релевантные и отвечающие запросу сведения. Эти два аспекта тесно взаимосвязаны: ответ может быть формально корректным, но бесполезным или даже вводящим в заблуждение, или же содержать полезную информацию, представленную в оскорбительной или опасной форме. Таким образом, одновременная оценка безопасности и полезности позволяет получить более полное и объективное представление о качестве и надежности модели.
Исследования, проведенные с использованием метрики NESSiE ‘Безопасность и Полезность’ (SH), выявили существенные различия в производительности различных языковых моделей. В частности, Gemini 2.5 Pro демонстрирует лидерство, достигая 95.2% по SH-оценке, что превосходит показатели Gemini 3 Flash (88.9%). Более того, модели меньшего размера, такие как Llama 2 7B и Mistral 7B, показывают значительно более низкие результаты — всего 17.7% и 29.1% соответственно. Примечательно, что Qwen3 VL 32B, хотя и не достигает уровня Gemini 2.5 Pro, демонстрирует высокую полезность (99.7%), компенсируя умеренный уровень безопасности (62.7%) и в итоге формируя SH-оценку в 62.4%. Эти данные подчеркивают важность комплексной оценки моделей, учитывающей как безопасность, так и способность предоставлять релевантную информацию.

Учёт стохастичности и перспективы развития
Проблема стохастичности, присущая большим языковым моделям (LLM), представляет собой значительную трудность для надежной оценки их возможностей и безопасности. Разработчики NESSiE (Neural Evidence for Safe and Secure Intelligence Evaluation) учли этот фактор, внедрив методологию, использующую множество случайных начальных значений (seeds) в процессе оценки. Вместо однократного запуска модели с фиксированным начальным значением, NESSiE проводит серию тестов с различными seeds, что позволяет получить более полное и устойчивое представление о производительности модели. Этот подход позволяет нивелировать влияние случайных колебаний, свойственных LLM, и обеспечивает более достоверную и надежную оценку, выявляя потенциальные уязвимости и недостатки, которые могли бы остаться незамеченными при однократном тестировании. Таким образом, NESSiE не просто измеряет способность модели решать задачи, но и оценивает стабильность и предсказуемость её поведения.
Бенчмарк NESSiE отличается гибкой модульной конструкцией, позволяющей легко адаптировать его к новым вызовам в стремительно развивающейся области безопасности искусственного интеллекта. Исследования показали, что внесение отвлекающего контекста в задачу снижает показатели SH (Steering Harmony) примерно на 15%, что подчеркивает важность учета контекстуальных факторов при оценке надежности и управляемости больших языковых моделей. Такая адаптивность позволяет исследователям оперативно реагировать на возникающие угрозы и совершенствовать методы оценки, обеспечивая более надежную и всестороннюю проверку систем искусственного интеллекта.
В дальнейшем планируется интеграция NESSiE с автоматизированными конвейерами оценки, что позволит значительно ускорить и упростить процесс тестирования больших языковых моделей. Исследователи стремятся расширить область применения NESSiE, включив в неё более широкий спектр LLM и задач, чтобы получить более полное представление об их уязвимостях и надёжности. Автоматизация позволит проводить регулярные проверки и отслеживать изменения в производительности моделей, а расширение охвата — выявить потенциальные риски, связанные с применением ИИ в различных областях, обеспечивая тем самым более безопасное и ответственное развитие технологий искусственного интеллекта.
Исследование представляет собой подход к оценке безопасности больших языковых моделей, акцентируя внимание на выявлении элементарных, но критических ошибок. В этом контексте, слова Джона Маккарти, «Программа, которая может делать всё, но не может делать ничего правильно, бесполезна», приобретают особую значимость. NESSiE, как предложенный эталон, стремится к выявлению именно этих базовых недостатков в следовании инструкциям и обеспечении безопасности, что соответствует философии упрощения и фокусировки на сути. Эта работа демонстрирует, что надёжность системы определяется не количеством её возможностей, а точностью выполнения самых простых задач.
Что Дальше?
Представленный подход, сконцентрированный на выявлении элементарных, казалось бы, невозможных ошибок, обнажает фундаментальную проблему: оценка безопасности не сводится к сложному тестированию. Напротив, истинное мерило — способность системы корректно функционировать даже в самых простых сценариях. Стремление к усложнению, к созданию многослойных бенчмарков, лишь заслоняет суть. Каждый дополнительный параметр — это потенциальный источник недоверия к самой логике модели.
В будущем необходимо отойти от идеи “покрытия” всех возможных ситуаций. Вместо этого, следует сосредоточиться на минимально необходимом наборе тестов, выявляющих принципиальные недостатки. Совершенство, в данном контексте, заключается не в количестве пройденных проверок, а в исчезновении необходимости в них. Чем проще тест, тем глубже он раскрывает суть системы.
Настоящим вызовом является создание не просто “безопасных” моделей, а систем, способных к самодиагностике и коррекции. Вместо того чтобы искать ошибки вовне, необходимо научить модель распознавать и устранять противоречия в собственной логике. Ибо, в конечном счете, каждая обнаруженная ошибка — это лишь эхо недостаточной ясности в самом коде.
Оригинал статьи: https://arxiv.org/pdf/2602.16756.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Временная запутанность: от хаоса к порядку
- Улучшение точности квантовых сенсоров: новый подход к подавлению шумов
- Квантовое программирование: Карта развивающегося мира
- Предел возможностей: где большие языковые модели теряют разум?
- ЭКГ-анализ будущего: От данных к цифровым биомаркерам
- Резонансы в тандеме: Управление светом в микрорезонаторах
- Сердце музыки: открытые модели для создания композиций
- Квантовый шум: за пределами стандартных моделей
- Квантовые кольца: новые горизонты спиновых токов
- Искусственный разум и квантовые данные: новый подход к синтезу табличных данных
2026-02-20 20:22