Разумные машины: когда точность не гарантирует надежность
![Несмотря на общую тенденцию к незначительным улучшениям надёжности, метрики предсказуемости и безопасности на [latex]\tau\tau[/latex]-бенчмарке, а также устойчивость на GAIA, демонстрируют заметный прогресс, указывая на потенциальные области для дальнейшей оптимизации и углублённого анализа.](https://arxiv.org/html/2602.16666v1/x9.png)
По мере роста возможностей искусственного интеллекта, его предсказуемость и устойчивость к ошибкам отстают, требуя нового подхода к оценке и разработке.
![Несмотря на общую тенденцию к незначительным улучшениям надёжности, метрики предсказуемости и безопасности на [latex]\tau\tau[/latex]-бенчмарке, а также устойчивость на GAIA, демонстрируют заметный прогресс, указывая на потенциальные области для дальнейшей оптимизации и углублённого анализа.](https://arxiv.org/html/2602.16666v1/x9.png)
По мере роста возможностей искусственного интеллекта, его предсказуемость и устойчивость к ошибкам отстают, требуя нового подхода к оценке и разработке.

В статье представлена инновационная система, способная оценивать достоверность своих знаний и избегать ложных ответов в сложных, длительных диалогах.

Исследователи предлагают стандартизированный способ интеграции человека в экосистему агентов, обеспечивая бесшовное сотрудничество и устраняя неоднозначность в коммуникации.

Новое исследование демонстрирует, как можно незаметно манипулировать ответами больших мультимодальных моделей, используя визуальные «якоря» в ходе продолжительных бесед.
Исследование показывает, как вовлечение учителей информатики в разработку уроков по аудиту ИИ формирует более осознанное и деятельное понимание алгоритмической справедливости.

Новое исследование показывает, как агенты могут научиться сотрудничать, предсказывая действия других игроков в многоагентной среде.
В статье представлена формальная категория-теоретическая основа для объединения различных подходов к причинной абстракции и композиционному моделированию.
Исследователи представили модель SAM 3D Body, позволяющую с высокой точностью восстанавливать трехмерную модель человека по заданным подсказкам.

Исследователи предлагают инновационный метод, использующий мощь больших языковых моделей для выявления причинно-следственных связей в данных.

Новая модель DreamZero позволяет роботам осваивать сложные задачи, используя лишь видеоданные и демонстрируя впечатляющую адаптивность к различным платформам.