Смартфоны под контролем: новый тест для ИИ-агентов

В рамках разработанного эталона OmniGUI, агент графического интерфейса взаимодействует со смартфоном, обрабатывая последовательность мультимодальных сигналов - скриншоты, аудио и короткие видеоклипы - для выполнения инструкций, при этом эффективность оценивается по метрикам соответствия типу и точности действий по сравнению с демонстрациями человека.

Исследователи представили комплексную платформу для оценки способности искусственного интеллекта взаимодействовать со смартфонами, используя звук, видео и изображения одновременно.

Научный поиск на автопилоте: как ИИ ускоряет открытия

Автоматизированный конвейер научных исследований, представленный на схеме, последовательно осуществляет поиск идей, экспериментирование с самовосстанавливающимся кодом и анализ результатов с помощью дебатов, а также написание научных статей с четырехступенчатой проверкой цитирований, при этом опциональные точки контроля позволяют человеку вмешиваться в процесс, а накопленный опыт из предыдущих итераций внедряется во все этапы для постоянного улучшения.

Новая система AutoResearchClaw объединяет возможности искусственного интеллекта и человеческого опыта для автоматизации научных исследований и получения воспроизводимых результатов.

Искусственный интеллект в оценке здоровья: Скрытая предвзятость?

Исследование различных подходов к оценке изображений теста на рисование часов показало, что, несмотря на более высокую абсолютную погрешность, мультимодальные языковые модели, такие как GPT-5, демонстрируют сопоставимую точность в пределах одного балла с моделями глубокого обучения, прошедшими тонкую настройку, что указывает на их способность генерировать близкие к истинным значениям оценки, даже если точная калибровка оставляет желать лучшего, и подчеркивает важность оценки моделей не только по абсолютной ошибке, но и по степени близости предсказаний к эталонным значениям.

Новое исследование показывает, что системы искусственного интеллекта, используемые для анализа медицинских тестов, склонны избегать крайних оценок, что может повлиять на точность диагностики.

Искусственный интеллект и GPU: Где заканчивается оптимизация и начинается жесткое кодирование?

В рамках оценки AgentKernelArena используется конвейер, в котором агент итеративно оптимизирует исходный код ядра, стремясь к повышению производительности, при этом процесс включает в себя этапы компиляции, проверки корректности по сравнению с эталонным кодом и измерения скорости, причём ускорение вычисляется как отношение времени выполнения эталонного ядра к времени выполнения оптимизированного, а итоговая оценка формируется на основе баллов за компиляцию, корректность и производительность, умноженную на коэффициент [latex]s_k[/latex].

Новый бенчмарк AgentKernelArena выявил, что ИИ-агенты, успешно оптимизирующие графические ядра для известных конфигураций, часто терпят неудачу при работе с незнакомыми параметрами.

Адаптивный Взгляд: Новая Схема Ускорения Больших Языковых Моделей

В предложенной архитектуре группового запросного скрытого внимания (GQLA) сочетаются преимущества сжатия скрытого пространства, присущего методу скрытого внимания (MLA), и гибкость декодирования, характерная для группового запросного внимания (GQA), что позволяет выбирать оптимальный путь обработки в зависимости от аппаратных возможностей, избегая ограничений, свойственных MLA, где декодирование привязано к единственному пути MQA.

Исследователи предлагают инновационный подход к декодированию больших языковых моделей, позволяющий динамически адаптировать процесс к возможностям конкретного оборудования.

Идеи важнее цифр: Новый взгляд на исследования в машинном обучении

Предложенная схема, протестированная на трансформерах и противопоставленная рекуррентным сетям, демонстрирует, что инерция темы предсказывает устойчивый рост схожести внедрений по мере увеличения длины запроса, подтверждая предложенный механизм.

Статья призывает сместить фокус в машинном обучении с гонки за лучшими показателями на бенчмарках на ясные, проверяемые идеи и наблюдаемые признаки их реализации в моделях.

Умные NPC: Как научить виртуальных персонажей действовать реалистично

На рисунке продемонстрировано сравнение базовой модели и ReactiveGWM при использовании единой стратегии, где треугольником ▲ обозначено положение неигрового персонажа, что позволяет оценить различия в их поведении и эффективности.

Новая модель ReactiveGWM позволяет создавать неигровых персонажей, поведение которых гибко адаптируется к изменяющимся условиям игрового мира и переносится между разными играми.

Биологическая надежность: оправдывает ли сложность?

Новое исследование показывает, что вдохновленные биологией механизмы повышения надежности агентов могут превосходить более простые подходы, если реализованы как структурные гарантии.