Смартфоны под контролем: новый тест для ИИ-агентов

Исследователи представили комплексную платформу для оценки способности искусственного интеллекта взаимодействовать со смартфонами, используя звук, видео и изображения одновременно.

Исследователи представили комплексную платформу для оценки способности искусственного интеллекта взаимодействовать со смартфонами, используя звук, видео и изображения одновременно.

Новая система AutoResearchClaw объединяет возможности искусственного интеллекта и человеческого опыта для автоматизации научных исследований и получения воспроизводимых результатов.
Новые технологии искусственного интеллекта стремительно меняют научные исследования, ставя вопрос о будущем роли ученых в этом процессе.

Новое исследование показывает, что системы искусственного интеллекта, используемые для анализа медицинских тестов, склонны избегать крайних оценок, что может повлиять на точность диагностики.
![В рамках оценки AgentKernelArena используется конвейер, в котором агент итеративно оптимизирует исходный код ядра, стремясь к повышению производительности, при этом процесс включает в себя этапы компиляции, проверки корректности по сравнению с эталонным кодом и измерения скорости, причём ускорение вычисляется как отношение времени выполнения эталонного ядра к времени выполнения оптимизированного, а итоговая оценка формируется на основе баллов за компиляцию, корректность и производительность, умноженную на коэффициент [latex]s_k[/latex].](https://arxiv.org/html/2605.16819v1/figures/pipeline.png)
Новый бенчмарк AgentKernelArena выявил, что ИИ-агенты, успешно оптимизирующие графические ядра для известных конфигураций, часто терпят неудачу при работе с незнакомыми параметрами.

Новый подход позволяет ученым автоматизировать научные исследования, используя простые текстовые команды и интеллектуального агента.

Исследователи предлагают инновационный подход к декодированию больших языковых моделей, позволяющий динамически адаптировать процесс к возможностям конкретного оборудования.

Статья призывает сместить фокус в машинном обучении с гонки за лучшими показателями на бенчмарках на ясные, проверяемые идеи и наблюдаемые признаки их реализации в моделях.

Новая модель ReactiveGWM позволяет создавать неигровых персонажей, поведение которых гибко адаптируется к изменяющимся условиям игрового мира и переносится между разными играми.
Новое исследование показывает, что вдохновленные биологией механизмы повышения надежности агентов могут превосходить более простые подходы, если реализованы как структурные гарантии.