Автор: Денис Аветисян
Новая модель позволяет создавать универсальных агентов, способных к долгосрочному планированию и адаптации в сложных трехмерных средах, таких как Genshin Impact.

Представлена методика и прототип Lumine для создания универсальных агентов, объединяющих возможности больших языковых моделей и обучения с подкреплением в открытых 3D-мирах.
Несмотря на значительный прогресс в области искусственного интеллекта, создание универсальных агентов, способных к длительным и сложным задачам в открытых трехмерных мирах, остается сложной задачей. В настоящей работе представлена система Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds, предлагающая открытый рецепт и прототип модели для создания таких агентов, способных успешно выполнять многочасовые миссии, например, полную сюжетную линию Мондштадта в Genshin Impact. Lumine демонстрирует впечатляющую способность к обобщению, успешно выполняя задания в других играх, таких как Wuthering Waves и Honkai: Star Rail, без дополнительной настройки. Сможет ли подобный подход приблизить нас к созданию действительно автономных и адаптивных агентов, способных взаимодействовать с реальным миром?
Искусство Простоты: Вызовы в Создании Универсального ИИ
Современные агенты искусственного интеллекта испытывают трудности в непредсказуемых средах, демонстрируя недостаточную адаптивность и слабые возможности логического вывода. Традиционные подходы часто не способны к обобщению, требуя значительного переобучения даже при незначительных изменениях контекста. Проблема заключается в неспособности эффективно интегрировать информацию и формировать целостное представление о мире, затрудняя понимание причинно-следственных связей и прогнозирование последствий. Создание агента, способного к взаимодействию в сложных мирах, требует новой архитектурной парадигмы, позволяющей не только воспринимать информацию, но и активно строить модель мира, планировать действия и учиться на опыте. Истинное познание – в умении отбросить всё лишнее, чтобы увидеть суть.

Lumine: Рецепт Универсального Агента
Lumine использует большие языковые модели, в частности Qwen2-VL-7B-Base, для восприятия и рассуждений. Это позволяет агенту понимать визуальную информацию и генерировать действия на основе текстовых инструкций. Обучение происходит в два этапа: предварительное обучение на масштабных данных изображений и действий для освоения базовых примитивов, и последующая тренировка, основанная на следование инструкциям, для языкового заземления. Ключевым аспектом является ‘Гибридное Мышление’ – адаптивное включение преднамеренных рассуждений перед выполнением действий, позволяющее анализировать ситуацию, планировать действия и повышать надежность принимаемых решений.

Проверка Lumine: Производительность в Сложном Мире
Для оценки возможностей агента Lumine был разработан комплексный бенчмарк из 141 задачи, охватывающих сбор, бой, взаимодействие с NPC и головоломки. Агент эффективно использует кратковременную память для поддержания контекста и долговременную – для сохранения этапов рассуждений, обеспечивая связное исследование мира. Благодаря Action Chunking, Lumine достигает частоты взаимодействия 30 Гц, обеспечивая отзывчивость в реальном времени и снижая задержку в 25.3 раза. Оптимизация скорости взаимодействия критична для реалистичного взаимодействия с виртуальным миром.

Lumine и Будущее ИИ Агентов: Гармония Знаний и Действий
Исследование демонстрирует, что объединение больших языковых моделей со структурированным рассуждением и эффективным выполнением действий открывает новый уровень обобщения агентов. Lumine способен к автономной игре в сложные игровые среды, демонстрируя адаптацию и решение задач без предварительного обучения для каждой игры. Агент успешно завершил сюжетную линию Мондштадта в Genshin Impact примерно за 1 час, что сопоставимо с результатом опытных игроков. Также Lumine демонстрирует высокую точность классификации видео, превышающую 80% в среднем. Агент демонстрирует сильное обобщение в незнакомых играх, хотя производительность снижается по мере увеличения различий. Полученные результаты указывают на потенциал создания универсальных игровых агентов, способных адаптироваться к различным игровым средам и задачам. Истинный интеллект – не в количестве знаний, а в способности видеть порядок в хаосе.

Исследование, представленное в данной работе, стремится к созданию универсальных агентов, способных к длительному планированию и адаптации в сложных трехмерных средах. Подобный подход к искусственному интеллекту требует не усложнения систем, а, напротив, их упрощения и большей ясности. В этом контексте уместно вспомнить слова Дональда Дэвиса: «Простота — высшая форма изысканности». Эта фраза отражает суть разработки Lumine — стремление к созданию эффективных агентов не за счет увеличения сложности, а благодаря элегантности и четкости структуры, позволяющей им успешно ориентироваться и действовать в разнообразных открытых мирах. Акцент на ясности структуры способствует повышению надежности и предсказуемости поведения агента, что особенно важно для долгосрочного планирования и адаптации к новым условиям.
Что Дальше?
Представленная работа, хоть и демонстрирует заметный шаг в создании универсальных агентов для открытых трёхмерных миров, лишь подчёркивает глубину нерешенных вопросов. Успех, измеренный способностью агента к выполнению задач, часто оказывается хрупким. Перенос навыков между различными средами, даже кажущимися схожими, требует не просто адаптации, но и переосмысления самой сути действия. Сложность не в увеличении количества параметров модели, а в поиске минимального набора принципов, достаточного для проявления разумного поведения.
Очевидным направлением дальнейших исследований представляется отказ от прямого обучения агента конкретным действиям. Более продуктивным может оказаться сосредоточение на формировании внутренней модели мира – не детальной симуляции, но скорее абстрактной карты возможностей и ограничений. Такой подход потребует разработки новых метрик оценки, не связанных с непосредственным успехом в выполнении задачи, а отражающих способность агента к предвидению и планированию.
И, пожалуй, самое важное – признать, что универсальность – это иллюзия. Истинная сила заключается не в способности агента подражать человеческому разуму, а в принятии своей собственной, принципиально иной природы. Упрощение – вот ключ к прогрессу. Убрать лишнее – и смысл станет очевиден.
Оригинал статьи: https://arxiv.org/pdf/2511.08892.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Виртуальная примерка без границ: EVTAR учится у образов
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Почему ваш Steam — патологический лжец, и как мы научили компьютер читать между строк
- LLM: математика — предел возможностей.
- Квантовый прыжок: сможем ли мы наконец разгадать тайну сворачивания белков?
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- Восполняя пробелы в знаниях: Как языковые модели учатся делать выводы
- Память как основа разума: новый подход к генерации ответов
- Квантовый скачок из Андхра-Прадеш: что это значит?
- Разделяй и властвуй: Новый подход к классификации текстов
2025-11-13 21:53