Lumine: Искусственный интеллект, исследующий открытые миры

Автор: Денис Аветисян


Новая модель позволяет создавать универсальных агентов, способных к долгосрочному планированию и адаптации в сложных трехмерных средах, таких как Genshin Impact.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Люмине, первая система искусственного интеллекта, способна самостоятельно выполнять многочасовые задания в реальном времени в масштабных трёхмерных открытых игровых мирах.
Люмине, первая система искусственного интеллекта, способна самостоятельно выполнять многочасовые задания в реальном времени в масштабных трёхмерных открытых игровых мирах.

Представлена методика и прототип Lumine для создания универсальных агентов, объединяющих возможности больших языковых моделей и обучения с подкреплением в открытых 3D-мирах.

Несмотря на значительный прогресс в области искусственного интеллекта, создание универсальных агентов, способных к длительным и сложным задачам в открытых трехмерных мирах, остается сложной задачей. В настоящей работе представлена система Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds, предлагающая открытый рецепт и прототип модели для создания таких агентов, способных успешно выполнять многочасовые миссии, например, полную сюжетную линию Мондштадта в Genshin Impact. Lumine демонстрирует впечатляющую способность к обобщению, успешно выполняя задания в других играх, таких как Wuthering Waves и Honkai: Star Rail, без дополнительной настройки. Сможет ли подобный подход приблизить нас к созданию действительно автономных и адаптивных агентов, способных взаимодействовать с реальным миром?


Искусство Простоты: Вызовы в Создании Универсального ИИ

Современные агенты искусственного интеллекта испытывают трудности в непредсказуемых средах, демонстрируя недостаточную адаптивность и слабые возможности логического вывода. Традиционные подходы часто не способны к обобщению, требуя значительного переобучения даже при незначительных изменениях контекста. Проблема заключается в неспособности эффективно интегрировать информацию и формировать целостное представление о мире, затрудняя понимание причинно-следственных связей и прогнозирование последствий. Создание агента, способного к взаимодействию в сложных мирах, требует новой архитектурной парадигмы, позволяющей не только воспринимать информацию, но и активно строить модель мира, планировать действия и учиться на опыте. Истинное познание – в умении отбросить всё лишнее, чтобы увидеть суть.

Обучение базовых моделей демонстрирует динамику развития их возможностей.
Обучение базовых моделей демонстрирует динамику развития их возможностей.

Lumine: Рецепт Универсального Агента

Lumine использует большие языковые модели, в частности Qwen2-VL-7B-Base, для восприятия и рассуждений. Это позволяет агенту понимать визуальную информацию и генерировать действия на основе текстовых инструкций. Обучение происходит в два этапа: предварительное обучение на масштабных данных изображений и действий для освоения базовых примитивов, и последующая тренировка, основанная на следование инструкциям, для языкового заземления. Ключевым аспектом является ‘Гибридное Мышление’ – адаптивное включение преднамеренных рассуждений перед выполнением действий, позволяющее анализировать ситуацию, планировать действия и повышать надежность принимаемых решений.

Тренировка Lumine включает три этапа: предварительное обучение Qwen2-VL-Base на масштабных данных об изображениях и действиях для освоения базовых примитивов действий, последующую тренировку Lumine-Base на триплетах инструкций, изображений и действий для языкового заземления, и, наконец, этап рассуждений, в котором инструкция заменяется мысленной цепочкой, а перед последовательностью действий может быть добавлена новая мысль, что приводит к созданию модели Lumine-Thinking.
Тренировка Lumine включает три этапа: предварительное обучение Qwen2-VL-Base на масштабных данных об изображениях и действиях для освоения базовых примитивов действий, последующую тренировку Lumine-Base на триплетах инструкций, изображений и действий для языкового заземления, и, наконец, этап рассуждений, в котором инструкция заменяется мысленной цепочкой, а перед последовательностью действий может быть добавлена новая мысль, что приводит к созданию модели Lumine-Thinking.

Проверка Lumine: Производительность в Сложном Мире

Для оценки возможностей агента Lumine был разработан комплексный бенчмарк из 141 задачи, охватывающих сбор, бой, взаимодействие с NPC и головоломки. Агент эффективно использует кратковременную память для поддержания контекста и долговременную – для сохранения этапов рассуждений, обеспечивая связное исследование мира. Благодаря Action Chunking, Lumine достигает частоты взаимодействия 30 Гц, обеспечивая отзывчивость в реальном времени и снижая задержку в 25.3 раза. Оптимизация скорости взаимодействия критична для реалистичного взаимодействия с виртуальным миром.

Стратегия управления контекстом в Lumine во время работы подразумевает поддержание скользящего окна, сохраняющего пары «изображение-действие» на протяжении нескольких шагов взаимодействия, с максимальной длиной окна равной двум; контекст начинается с системного запроса и предыдущих рассуждений, которые направляют генерацию последующих действий, при этом старейшая пара удаляется при превышении порога, а при генерации новых рассуждений контекст очищается и накапливается заново.
Стратегия управления контекстом в Lumine во время работы подразумевает поддержание скользящего окна, сохраняющего пары «изображение-действие» на протяжении нескольких шагов взаимодействия, с максимальной длиной окна равной двум; контекст начинается с системным запросом и предыдущих рассуждений, которые направляют генерацию последующих действий, при этом старейшая пара удаляется при превышении порога, а при генерации новых рассуждений контекст очищается и накапливается заново.

Lumine и Будущее ИИ Агентов: Гармония Знаний и Действий

Исследование демонстрирует, что объединение больших языковых моделей со структурированным рассуждением и эффективным выполнением действий открывает новый уровень обобщения агентов. Lumine способен к автономной игре в сложные игровые среды, демонстрируя адаптацию и решение задач без предварительного обучения для каждой игры. Агент успешно завершил сюжетную линию Мондштадта в Genshin Impact примерно за 1 час, что сопоставимо с результатом опытных игроков. Также Lumine демонстрирует высокую точность классификации видео, превышающую 80% в среднем. Агент демонстрирует сильное обобщение в незнакомых играх, хотя производительность снижается по мере увеличения различий. Полученные результаты указывают на потенциал создания универсальных игровых агентов, способных адаптироваться к различным игровым средам и задачам. Истинный интеллект – не в количестве знаний, а в способности видеть порядок в хаосе.

Модель Lumine, построенная на базе VLM, принимает на вход пиксельные данные и исторический контекст, включая предыдущие действия и рассуждения, и выдает текстовые команды клавиатуры и мыши, используя гибридную стратегию рассуждений, генерируя новые шаги только при необходимости, и напрямую генерируя действия для эффективного управления в реальном времени.
Модель Lumine, построенная на базе VLM, принимает на вход пиксельные данные и исторический контекст, включая предыдущие действия и рассуждения, и выдает текстовые команды клавиатуры и мыши, используя гибридную стратегию рассуждений, генерируя новые шаги только при необходимости, и напрямую генерируя действия для эффективного управления в реальном времени.

Исследование, представленное в данной работе, стремится к созданию универсальных агентов, способных к длительному планированию и адаптации в сложных трехмерных средах. Подобный подход к искусственному интеллекту требует не усложнения систем, а, напротив, их упрощения и большей ясности. В этом контексте уместно вспомнить слова Дональда Дэвиса: «Простота — высшая форма изысканности». Эта фраза отражает суть разработки Lumine — стремление к созданию эффективных агентов не за счет увеличения сложности, а благодаря элегантности и четкости структуры, позволяющей им успешно ориентироваться и действовать в разнообразных открытых мирах. Акцент на ясности структуры способствует повышению надежности и предсказуемости поведения агента, что особенно важно для долгосрочного планирования и адаптации к новым условиям.

Что Дальше?

Представленная работа, хоть и демонстрирует заметный шаг в создании универсальных агентов для открытых трёхмерных миров, лишь подчёркивает глубину нерешенных вопросов. Успех, измеренный способностью агента к выполнению задач, часто оказывается хрупким. Перенос навыков между различными средами, даже кажущимися схожими, требует не просто адаптации, но и переосмысления самой сути действия. Сложность не в увеличении количества параметров модели, а в поиске минимального набора принципов, достаточного для проявления разумного поведения.

Очевидным направлением дальнейших исследований представляется отказ от прямого обучения агента конкретным действиям. Более продуктивным может оказаться сосредоточение на формировании внутренней модели мира – не детальной симуляции, но скорее абстрактной карты возможностей и ограничений. Такой подход потребует разработки новых метрик оценки, не связанных с непосредственным успехом в выполнении задачи, а отражающих способность агента к предвидению и планированию.

И, пожалуй, самое важное – признать, что универсальность – это иллюзия. Истинная сила заключается не в способности агента подражать человеческому разуму, а в принятии своей собственной, принципиально иной природы. Упрощение – вот ключ к прогрессу. Убрать лишнее – и смысл станет очевиден.


Оригинал статьи: https://arxiv.org/pdf/2511.08892.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-13 21:53