Взлом в стоге сена: как длинный контекст обходит защиту языковых моделей

В исследовании длинных контекстов обнаружено, что модели Llama-3 и Qwen2.5 демонстрируют различную динамику компромисса между способностью и безопасностью: Llama-3 показывает последовательное снижение как успешности (ASR), так и частоты отказов по мере смещения цели запроса к концу контекста, в то время как Qwen2.5 выявляет эффект

Исследование показывает, что увеличение объема вводного текста может значительно снизить безопасность больших языковых моделей, делая их уязвимыми для атак, направленных на обход встроенных ограничений.

Критический взгляд: как самооценка улучшает ответы больших языковых моделей

Модель CritiCal, работающая на базе DeepSeek-R1-Distill-Qwen-7B, демонстрирует значительный потенциал в улучшении калибровки уверенности больших языковых моделей даже при использовании в качестве учителя модели с худшими показателями, что указывает на возможность повышения надежности систем в условиях неидеальных исходных данных.

Исследование показывает, что обучение моделей с использованием естественных языковых оценок помогает им лучше оценивать свою уверенность в ответах.

Причинность и обучение представлений: новый взгляд на биомедицинские данные

Графическая модель демонстрирует, что обучение представлений, основанное на причинно-следственных связях, позволяет системам не просто адаптироваться к данным, но и понимать лежащие в их основе механизмы, обеспечивая устойчивость и гибкость в меняющейся среде.

Исследование посвящено методам выявления причинно-следственных связей и разработки эффективных алгоритмов обучения, применимых к сложным биомедицинским задачам.

Визуальные галлюцинации: Как сделать «зрение» нейросетей более надежным

Архитектура, представленная на рисунке, демонстрирует модификацию подхода к слиянию визуальных и языковых представлений, где усредненное визуальное представление последовательно присоединяется к каждому токеновому вложению перед проецированием, что способствует обучению модели визуально информированным текстовым вложениям и улучшает её способность к вниманию к визуальному входу.

Исследование посвящено проблеме ложных утверждений, генерируемых моделями, работающими с изображениями и текстом, и предлагает способ повысить точность их ответов.