Визуальный интеллект: обучение моделей сложным задачам с инструментами

Непосредственное расширение визуально-языковых моделей инструментами значительно снижает точность, в то время как внутренние рассуждения дают ограниченный прирост в решении сложных задач визуального вопросно-ответного типа; однако, предоставление предварительных знаний о выборе инструментов и чередование рассуждений с выполнением действий позволяет улучшить результаты, причём прирост зависит от конкретной задачи и масштаба модели - коммерческие модели демонстрируют переменный успех, а небольшие модели с открытым исходным кодом остаются особенно уязвимыми.

Новая платформа VISTA-Gym позволяет обучать мультимодальные модели рассуждать и действовать в сложных визуальных сценариях, используя внешние инструменты.

Аналогии в машинном разуме: как большие языковые модели учатся сопоставлять

Большие языковые модели эффективно кодируют и применяют реляционные связи при аналоговом мышлении, однако успешное применение этих связей зачастую сталкивается с теми же ограничениями, что и их первоначальное кодирование, при этом выявление аналогичных ситуаций тесно связано со структурным выравниванием, количественно оцениваемым с помощью показателя взаимного выравнивания (MAS).

Новое исследование проливает свет на внутренние механизмы, позволяющие современным нейросетям решать задачи, требующие понимания аналогий и установления связей между концепциями.

Fara-7B: Искусственный интеллект, осваивающий компьютер

Несмотря на сопоставимую стоимость, модель Fara-7B демонстрирует вдвое более высокую точность - 38% против 19.5% у UI-TARS-1.5-7B - при выполнении задач, связанных с взаимодействием с веб-приложениями, что указывает на её превосходство в эффективности.

Новая модель демонстрирует, что даже небольшие нейросети способны к эффективной автоматизации работы с компьютером при использовании качественных синтетических данных.

Моделирование адаптивных систем: от данных к управляемым решениям

Новый подход объединяет агентное моделирование и структурные причинные модели для повышения прозрачности и эффективности разработки политик в сложных социально-технических системах.

HunyuanOCR: Зрение и язык для точного распознавания текста

Производительность системы распознавания текста HunyuanOCR демонстрирует высокую точность, позволяя эффективно преобразовывать изображения в текст.

Новая модель HunyuanOCR объединяет возможности компьютерного зрения и обработки естественного языка для достижения передовых результатов в задачах оптического распознавания символов.

Искусственный интеллект на службе материаловедению: новый подход к ускорению открытий

Траектории активного обучения, спроецированные на первые две главные компоненты стандартизированного пространства признаков, демонстрируют, как модели исследуют пространство, начиная с начальной точки и завершаясь наиболее эффективным образцом, при этом цветовое кодирование указывает на наблюдаемое целевое значение и позволяет сравнить стратегии исследования для различных подходов - от запросов, основанных на параметрах или отчётах, до традиционных методов машинного обучения и случайного блуждания.

Исследование демонстрирует, как современные языковые модели могут эффективно управлять экспериментами в материаловедении, предлагая гибкую альтернативу традиционным методам машинного обучения.

Интернет, рожденный искусственным интеллектом: новый взгляд на архитектуру сети

Архитектура сети, изначально спроектированная для искусственного интеллекта, обеспечивает бесшовную интеграцию вычислительных ресурсов, хранения данных и сетевой инфраструктуры, оптимизированную для выполнения сложных алгоритмов и обработки больших объемов информации, необходимых для функционирования интеллектуальных приложений и сервисов.

В статье рассматривается концепция принципиально новой архитектуры интернета, ориентированной на семантический поиск и эффективную работу с данными для приложений искусственного интеллекта.

Динамика в кадре: Как научить ИИ понимать физику видео

Разработанная система MASS значительно расширяет возможности видео-вопросно-ответных моделей за счет интеграции модуля, явно кодирующего пространственно-временные характеристики движения объектов и динамику сцены в языковое пространство, что позволяет достичь превосходных результатов в понимании физических процессов, выявлении аномалий и превосходит современные модели, такие как GPT-4o и Gemini-2.5-Flash, благодаря более глубокому осмыслению видеоинформации и способности к логическим умозаключениям.

Новый подход позволяет моделям искусственного интеллекта лучше интерпретировать видео, учитывая движение объектов и их взаимодействие в пространстве и времени.