Автор: Денис Аветисян
Новый бенчмарк PokeGym позволяет оценить возможности моделей, объединяющих зрение и язык, в сложных задачах долгосрочного планирования и визуального понимания.

Представлен комплексный 3D-окружающий бенчмарк для оценки Vision-Language Models в задачах, требующих долгосрочное планирование и визуальное обоснование действий.
Несмотря на значительный прогресс в понимании статических изображений, современные модели «зрение-язык» испытывают трудности при работе в сложных трехмерных интерактивных средах. В данной работе представлена новая платформа ‘PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models’, предназначенная для оценки возможностей таких моделей в открытом игровом мире Pokemon Legends: Z-A, с акцентом на долгосрочное планирование и визуальное восприятие. Ключевым результатом стало выявление того, что основной проблемой для существующих моделей является не высокоуровневое планирование, а способность восстанавливаться после ситуаций, когда агент оказывается в тупике. Не приведет ли интеграция явного понимания пространственных отношений в архитектуру моделей «зрение-язык» к более надежным и автономным системам?
Преодолевая Ограничения Воплощенного ИИ: От Зрения к Пониманию
Существующие эталоны оценки для воплощенного искусственного интеллекта (embodied AI) зачастую чрезмерно фокусируются на базовом зрительном восприятии, игнорируя способность агента к сложному, долгосрочному планированию и действиям. Это приводит к тому, что системы, демонстрирующие впечатляющие результаты в распознавании объектов или навигации в простых средах, терпят неудачу при столкновении с более реалистичными и динамичными задачами, требующими последовательного принятия решений на протяжении длительного периода времени. Подобный акцент на низкоуровневых навыках создает иллюзию прогресса, не отражая истинный уровень интеллекта, необходимого для автономной работы в реальном мире. Необходимо разрабатывать новые критерии оценки, которые будут проверять способность агента не просто «видеть», но и «понимать» контекст, предвидеть последствия своих действий и адаптироваться к изменяющимся обстоятельствам.
Визуально-языковые модели (ВЯМ) демонстрируют впечатляющие возможности в лабораторных условиях, однако их истинный потенциал раскрывается лишь при тестировании в реалистичных трехмерных средах. Традиционные двухмерные изображения не позволяют в полной мере оценить способность агента к пространственному рассуждению, пониманию физических взаимодействий и адаптации к динамически меняющимся условиям. Поэтому, для объективной оценки ВЯМ требуется создание сложных, интерактивных 3D-симуляций, где агент должен не просто распознавать объекты, но и планировать последовательность действий для достижения поставленной цели, учитывая ограничения и неопределенности реального мира. Такой подход позволяет выявить узкие места в архитектуре моделей и стимулирует разработку более надежных и универсальных систем искусственного интеллекта, способных эффективно функционировать в сложных и непредсказуемых условиях.
Крайне важно разработать эталонные тесты, способные оценивать способность агентов к планированию и действиям в течение длительных промежутков времени. Существующие методы часто концентрируются на мгновенном восприятии, упуская из виду ключевой аспект — способность к последовательному выполнению задач, требующих многошагового планирования и адаптации к изменяющимся условиям. Такие тесты должны моделировать реальные сценарии, где успех зависит не только от идентификации объектов, но и от умения предвидеть последствия действий и корректировать стратегию. Оценка долгосрочного планирования позволит выявить истинный потенциал интеллектуальных агентов и продвинуться в создании систем, способных к автономной деятельности в сложных и динамичных средах.

PokeGym: Новая Среда для Оценки Рассуждений Воплощенного ИИ
PokeGym — это визуальный бенчмарк, разработанный на базе 3D-игры с открытым миром Pokémon Legends: Z-A. Эта платформа предоставляет реалистичную и сложную среду для оценки моделей искусственного интеллекта, требующих обработки визуальной информации и принятия решений в динамичном игровом окружении. В отличие от существующих бенчмарков, фокусирующихся на отдельных задачах, PokeGym предназначен для оценки способностей к продолжительному взаимодействию и планированию действий в сложных условиях, приближенных к реальным сценариям.
PokeGym разработан как расширение существующих бенчмарков, таких как Text-Arena и ScreenSpot-Pro, однако в отличие от них, делает акцент на задачах, требующих длительного взаимодействия с окружением и планирования последовательности действий. В то время как Text-Arena и ScreenSpot-Pro оценивают способность модели к разовым ответам на текстовые запросы или идентификации объектов на экране, PokeGym требует от агента не только восприятия визуальной информации, но и разработки стратегии для достижения целей в динамичной 3D-среде, что подразумевает решение задач, требующих памяти и способности к прогнозированию.
Результаты проведенной оценки показывают, что на текущий момент модель Gemini-3-Pro демонстрирует наивысший процент успешного выполнения заданий в PokeGym — 58.70%. Среди моделей с открытым исходным кодом, лидирующую позицию занимает Qwen3-VL-30B, достигшая показателя успешности в 52.04%. Данные результаты отражают текущий уровень производительности различных моделей в сложной среде, требующей устойчивого взаимодействия и планирования.

Автоматизированная Оценка: Сканирование Памяти для Объективного Анализа
PokeGym использует сканирование памяти по массиву байтов (AOB) для автоматической верификации успешности выполнения задач, напрямую считывая значения игровых переменных из оперативной памяти. Этот метод позволяет определить состояние игры, например, наличие определенного предмета в инвентаре или текущее здоровье персонажа, без необходимости визуального анализа или ручного ввода данных. В ходе сканирования, система ищет определенные шаблоны байтов, соответствующие конкретным значениям переменных, тем самым определяя, выполнена ли задача успешно или нет. Данный подход обеспечивает высокую точность и скорость оценки, исключая субъективность, присущую ручной проверке.
Автоматизированная оценка, используемая в PokeGym, обеспечивает объективность и эффективность анализа результатов, превосходя традиционные методы ручной проверки. В отличие от субъективных оценок, основанных на визуальном наблюдении или интерпретации действий, автоматизированный подход непосредственно считывает игровые переменные состояния, предоставляя точные и воспроизводимые данные о выполнении задачи. Это позволяет исключить человеческий фактор и связанные с ним ошибки, а также значительно сократить время, необходимое для оценки большого количества экспериментов. В результате, становится возможным более быстрое и надежное сравнение различных архитектур агентов и оптимизация их производительности.
Автоматизированная оценка, реализованная в PokeGym посредством сканирования памяти, позволяет проводить широкомасштабное тестирование и сравнительный анализ различных архитектур агентов. В ходе экспериментов было установлено, что модель Gemini-3-Pro демонстрирует наивысший процент успешного выполнения задач, однако характеризуется и наибольшей стоимостью — $1.246 за один запуск, а также потребляет 388 тысяч токенов. Данные показатели позволяют оценить компромисс между производительностью и ресурсоемкостью при выборе оптимальной архитектуры агента для конкретных задач.

Диагностика Слабых Мест Агентов: Тупики и Неполная Наблюдаемость
Исследования выявили распространенную проблему, получившую название “осознанного тупика”, когда агенты способны идентифицировать препятствия, блокирующие дальнейшее продвижение, но демонстрируют недостаток пространственного мышления, необходимого для поиска обходного пути или выхода из сложившейся ситуации. Несмотря на то, что агент осознает наличие преграды, он не может эффективно оценить доступные альтернативы или спланировать последовательность действий, позволяющую преодолеть её. Это указывает на то, что способность распознавать препятствия сама по себе недостаточна для успешной навигации в сложных средах; критически важным является также умение применять пространственные знания для решения проблем и адаптации к изменяющимся условиям.
Исследования выявили проблему “неосознанных блокировок”, когда агенты оказываются в тупике, не осознавая препятствия или невозможность дальнейшего продвижения. Данный феномен указывает на несовершенство систем оценки проходимости и недостаточную осведомленность об окружающей среде. Агенты, сталкиваясь с такими ситуациями, не способны адекватно оценить геометрию пространства и доступные пути, что приводит к их застреванию. Анализ показал, что данная проблема особенно актуальна в сложных, динамически меняющихся условиях, где требуется постоянная переоценка возможностей перемещения и адаптация к новым препятствиям. Неспособность агентов адекватно оценивать проходимость существенно ограничивает их автономность и эффективность в реальных сценариях применения.
Исследования выявили критическую важность учета неполной наблюдаемости и развитого пространственного мышления для воплощенных агентов. Анализ данных демонстрирует сильную положительную корреляцию (0.77) между успехом в задачах, требующих взаимодействия с окружением, и результатами тестов ScreenSpot-Pro, что указывает на взаимосвязь между способностью агента понимать визуальную информацию и его способностью эффективно взаимодействовать с миром. Однако, для задач навигации наблюдается отрицательная корреляция, что свидетельствует об ограниченной переносимости навыков, приобретенных при решении одних задач, на другие, и подчеркивает необходимость разработки специализированных подходов к обучению агентов для различных типов задач. Эта закономерность указывает на то, что способность к эффективной навигации требует отличных от взаимодействия навыков, таких как точная оценка проходимости и построение оптимальных маршрутов в условиях неполной информации.

Представленный труд демонстрирует стремление к элегантности в области искусственного интеллекта, создавая комплексную среду PokeGym для оценки моделей, способных к долгосрочному планированию и визуальному восприятию. Это не просто набор алгоритмов, а тщательно продуманная система, где каждый элемент подчинен общей цели — достижению гармонии между возможностями модели и сложностью задачи. Как заметил Ян Лекун: «Машинное обучение — это программирование с данными, а не с инструкциями». В данном исследовании данные представлены в виде визуально насыщенного игрового мира, требующего от моделей не просто обработки информации, а глубокого понимания контекста и способности к адаптации. Эта работа подчеркивает важность последовательности в проектировании систем искусственного интеллекта, ведь именно она является ключом к созданию надежных и эффективных решений.
Что дальше?
Введение PokeGym, как представляется, лишь аккуратно обозначило границы существующей проблемы. Создание бенчмарка, требующего не просто распознавания объектов, но и долгосрочного планирования в визуально богатой среде, — это шаг в правильном направлении, однако он не устраняет фундаментальной незрелости существующих моделей. Элегантность решения, как ни парадоксально, проявляется не в количестве параметров, а в способности к лаконичному, осмысленному действию. Пока что большинство подходов напоминают скорее суетливые попытки, чем осознанные стратегии.
Следующим логичным шагом видится отказ от упрощенных представлений о «понимании» и переход к системам, способным к истинному визуальному рассуждению. Недостаточно просто «видеть» объекты; необходимо понимать их взаимосвязь, предвидеть последствия действий и адаптироваться к изменяющимся условиям. Требуется разработка новых метрик, оценивающих не просто точность распознавания, но и качество планирования, способность к импровизации и, что самое важное, — устойчивость к непредсказуемости.
В конечном итоге, истинный прогресс будет достигнут не за счет увеличения вычислительных мощностей, а за счет углубления нашего понимания принципов когнитивной архитектуры. Создание искусственного интеллекта, способного к долгосрочному планированию в сложных визуальных средах, — это не просто техническая задача, это — вопрос философии, эстетики и, возможно, даже — скромного уважения к сложности окружающего мира.
Оригинал статьи: https://arxiv.org/pdf/2604.08340.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Искусственный интеллект, планирующий путешествия: новый подход к сложным задачам
- Знаем, чего не знаем: Моделирование вероятностных рассуждений на основе множественных доказательств
- Квантовый импульс для нейросетей: новый подход к распознаванию изображений
- Взрыв скорости: Оптимизация внимания для современных GPU
- Большие языковые модели как судьи перевода: бюджет на размышления и калибровка реальности.
- Искусственный интеллект в действии: как расширяется сфера возможностей?
- Искусственный интеллект и квантовая физика: кто кого?
- Учимся с интересом: как создать AI-репетитора, вдохновлённого лучшими учителями
- Таблицы оживают: Искусственный интеллект осваивает структурированные данные
- Языковые модели и границы возможного: что делает язык человеческим?
2026-04-11 08:25