Визуальные цепочки инструментов: проверка на прочность современных ИИ

В основе VTC-Bench лежит иерархическая таксономия задач и управляемый большой языковой моделью (MLLM) инструментарий, обеспечивающие многоступенчатую траекторию рассуждений - от улучшения визуального восприятия до композиционного анализа - для решения сложных задач.

Новый бенчмарк VTC-Bench позволяет оценить способность мультимодальных моделей к сложному визуальному анализу и последовательному использованию инструментов.

Зелёные решения в машинном обучении: как сделать AI экологичнее

Новое исследование анализирует тысячи проектов с открытым исходным кодом, чтобы выявить эффективные методы снижения энергопотребления и повышения устойчивости систем машинного обучения.

Диалог в движении: Как заставить виртуального слушателя реагировать на речь

Генеративная модель, получив на вход речевое высказывание - транскрипт и/или аудиозапись, возможно, с эмоциональной окраской - способна синтезировать соответствующую последовательность движений тела слушателя, имитируя реакцию на услышанное.

Новое исследование предлагает способ реалистично моделировать невербальные реакции слушателя на высказывания говорящего, делая взаимодействие с искусственным интеллектом более естественным.

Квантовая Модальность: Решена Задача Оценочной Полноты

Новое исследование демонстрирует, что квантовая модальная логика (КМЛ) является разрешимой, открывая путь к автоматизированному логическому выводу в квантовых системах.

Личность из осколков: как языковые модели восстанавливают данные из анонимных источников

Агент, оперируя фрагментированной информацией из анонимизированных источников, таких как логи чат-ботов и поисковые запросы, в сочетании с сопоставимыми данными из открытых источников, способен реконструировать конкретную личность, выстраивая связную гипотезу на основе слабо выраженных сигналов и подтверждающих данных.

Новое исследование показывает, что современные языковые модели способны реконструировать личные данные, используя разрозненные подсказки, даже если исходные данные были анонимизированы.

Пространственное мышление нейросетей: как генеративные модели «видят» мир

Модель генерации демонстрирует устойчивую геометрическую согласованность при изменении угла обзора, что подтверждается высокой степенью соответствия и стабильными представлениями главных компонент, позволяя VEGA-3D преодолевать пространственную неоднозначность и точно определять области внимания на целевом объекте в соответствии с инструкцией.

Новое исследование демонстрирует, что модели, способные генерировать видео, обладают скрытым пониманием трехмерного пространства, которое можно использовать для улучшения работы систем искусственного интеллекта.

Спектроскопия и разумное объяснение: новый взгляд на данные

Предлагаемый спектроскопический пайплайн, демонстрируя поэтапную обработку данных, обеспечивает интерпретируемость на каждом шаге, позволяя выявить взаимосвязи между спектральными характеристиками и наблюдаемыми явлениями.

Исследователи предлагают новый подход к интерпретации моделей машинного обучения, работающих со спектроскопическими данными, обеспечивающий стабильность и понятность результатов.