Рисуя по словам: как оценить интеллект языковых моделей?

Оценка, произведённая GPT-4.1, демонстрирует существенное соответствие результатам, полученным в ходе человеческой оценки, что указывает на потенциал автоматизированных систем в качестве надёжного инструмента для задач, традиционно требующих субъективного анализа.

Новый тест LTD-Bench проверяет способность больших языковых моделей преобразовывать текст в изображения и наоборот, выявляя пробелы в их пространственном мышлении.

Разумный диагноз: Как искусственный интеллект помогает выявить болезнь Альцгеймера

Архитектура BRAINS использует поиск похожих нейрокогнитивных записей и их последующее объединение с исходными данными для формирования контекста, предоставляемого большой языковой модели, что позволяет не только диагностировать болезнь Альцгеймера, но и получать объяснения, основанные на релевантных клинических прецедентах.

Новая система сочетает возможности больших языковых моделей и анализа медицинских данных для повышения точности диагностики болезни Альцгеймера.

Робот-манипулятор iFlyBot: Обучение сложным действиям с помощью языка и зрения

iFlyBot-VLA демонстрирует сопоставимые, а в ряде случаев и превосходящие результаты в симуляторе LIBERO, подтверждая эффективность подхода к моделированию поведения в сложных условиях, сравнимых с другими передовыми моделями VLA.

Новая модель iFlyBot-VLA демонстрирует значительный прогресс в обучении роботов сложным манипуляциям с использованием комбинации визуальной информации, языковых команд и передовых методов обучения с подкреплением.

Изображения под контролем разума: новый эталон для редактирования

Таблица 2 представляет количественное сравнение производительности в пределах домена на наборе UniREditBench, где оценка осуществляется моделью GPT-4.1, а лучшие результаты выделены полужирным шрифтом, демонстрируя чёткую метрику для сравнительного анализа.

Представлен UniREditBench — комплексный инструмент для оценки способности моделей понимать и выполнять сложные инструкции по редактированию изображений.

Визуальное понимание интерфейсов: новый подход к привязке элементов

Интерфейс GUI-AIMA демонстрирует возможность двухэтапной привязки к изображениям высокого разрешения, что позволяет достичь большей точности и гибкости при взаимодействии с визуальными данными.

Исследование предлагает эффективный метод для точного определения элементов графического интерфейса пользователя без использования координат.

Рассуждения между модальностями: новый взгляд на генерацию контента

Система оценки UMM демонстрирует способность к взаимному кросс-модальному рассуждению, требуя генерации изображений на основе лингвистических подсказок и текстовых ответов, основанных на визуальной информации.

Исследование выявляет пробелы в способности современных моделей понимать и комбинировать информацию из разных источников, таких как текст и изображения.