Рисуя по словам: как оценить интеллект языковых моделей?

Новый тест LTD-Bench проверяет способность больших языковых моделей преобразовывать текст в изображения и наоборот, выявляя пробелы в их пространственном мышлении.

Новый тест LTD-Bench проверяет способность больших языковых моделей преобразовывать текст в изображения и наоборот, выявляя пробелы в их пространственном мышлении.

Новая система сочетает возможности больших языковых моделей и анализа медицинских данных для повышения точности диагностики болезни Альцгеймера.

Новая модель iFlyBot-VLA демонстрирует значительный прогресс в обучении роботов сложным манипуляциям с использованием комбинации визуальной информации, языковых команд и передовых методов обучения с подкреплением.

Разработана система, способная самостоятельно осваивать математическое мышление, генерируя и решая задачи без участия человека.

Представлен UniREditBench — комплексный инструмент для оценки способности моделей понимать и выполнять сложные инструкции по редактированию изображений.

Исследование предлагает эффективный метод для точного определения элементов графического интерфейса пользователя без использования координат.

Исследователи предлагают новый метод обучения моделей, позволяющий им эффективно искать видео по различным запросам и в разных областях.

Новый бенчмарк NaviTrace позволяет оценить способность моделей, сочетающих зрение и язык, к планированию маршрутов и пониманию окружающего пространства.

Превращение замороженных моделей, понимающих и видео, и текст, в эффективные системы ранжирования без дополнительного обучения.

Исследование выявляет пробелы в способности современных моделей понимать и комбинировать информацию из разных источников, таких как текст и изображения.