Визуальное мышление: новый тест для искусственного интеллекта

Разработанный TIR-Bench состоит из тринадцати задач, призванных всесторонне оценить способность систем к сложному анализу и интерпретации визуальной информации.

Исследователи представили комплексный бенчмарк для оценки способности моделей с искусственным интеллектом активно рассуждать с использованием изображений.

Когда зрение становится разумом: как научить ИИ долгосрочному планированию с помощью инструментов

Инструмент ToolScope структурирован как триединая система: глобальный навигатор определяет подмножество инструментов и задает общее направление, агентский исполнитель итеративно обдумывает, применяет инструменты и продолжает рассуждения на их основе, а синтезатор ответов консолидирует логическую цепочку в удобный для пользователя результат.

Как новая архитектура позволяет большим языковым моделям понимать визуальный мир, планировать сложные действия и эффективно использовать инструменты для достижения целей.

Когда видео становится реальностью: симуляция мира для физического ИИ

Как новые модели, основанные на генерации видео и обучении с подкреплением, создают высокоточные и управляемые симуляции для развития искусственного интеллекта, способного взаимодействовать с физическим миром.

Как знания взаимодействуют в нейросетях: новый взгляд на проблему галлюцинаций

Разнообразие типов взаимодействия со знаниями в исследуемом наборе данных демонстрирует сложную структуру, где различные формы обмена информацией не просто сосуществуют, но и формируют основу для понимания и, возможно, манипулирования самой реальностью.

Исследование показывает, что понимание того, как большие языковые модели интегрируют внутренние и внешние знания, требует анализа более сложного взаимодействия, чем простое включение/выключение.

Когда граф становится изображением: как модели компьютерного зрения превосходят нейросети в понимании структуры графов

Визуальные модели, в отличие от объяснителей графовых нейронных сетей, демонстрируют способность выделять и использовать дискриминативные паттерны в графовых структурах – ключевые признаки, определяющие класс графа в более чем 90% случаев, – фокусируясь на критических точках, таких как вершины и рёбра, что указывает на использование надёжных упрощений для классификации, в то время как объяснители ГНС распределяют внимание более равномерно, не акцентируя эти значимые области.

Как применение моделей компьютерного зрения к представлениям графов позволяет лучше понимать глобальную структуру и масштабируемость графов, приближаясь к человеческому восприятию.

Когда данные оживают: как LongCat-Flash-Omni объединяет текст, звук и видео в реальном времени

LongCat-Flash-Omni демонстрирует превосходную производительность в бенчмарках, устанавливая новый стандарт для данной категории моделей.

Как новая модель позволяет создавать интеллектуальные системы, способные понимать и реагировать на мультимедийный контент в режиме реального времени.

Когда каждый нейрон важен: как масштабирование до триллиона параметров улучшает рассуждения языковых моделей

Как новая архитектура с разреженной активацией и оптимизированное обучение позволяют создавать языковые модели с триллионом параметров, сочетающие высокую точность рассуждений и эффективность вычислений.

Когда данные говорят: как UME-R1 обучает модели понимать взаимосвязи

Модель UME-R1 обучается в два этапа: сначала с использованием размеченных пар

Новый фреймворк UME-R1 объединяет генеративные и дискриминативные подходы к мультимодальным эмбеддингам, используя обучение с подкреплением для улучшения рассуждений и повышения производительности.