Искусственный интеллект осваивает игры: представлена модель NitroGen

Автор: Денис Аветисян

Новая открытая модель NitroGen демонстрирует возможность создания универсальных игровых агентов, обученных на огромном объеме данных из интернета.

Разработанная система NitroGen объединяет в себе универсальный симулятор, позволяющий управлять любой коммерческой игрой через API Gymnasium, обобщённого агента, способного к «нулевому» освоению различных игровых тайтлов, и масштабный открытый датасет, состоящий из 40 000 часов игровых видеозаписей по более чем 1000 играм с извлечёнными метками действий, что создаёт основу для обучения и адаптации к новым игровым средам.

NitroGen — это фундаментальная модель для видеоигр, использующая метод поведенческого клонирования и обеспечивающая обобщение между различными игровыми средами.

Обучение искусственного интеллекта, способного успешно играть в широкий спектр видеоигр, остается сложной задачей из-за необходимости адаптации к различным игровым механикам и визуальным стилям. В данной работе представлена NitroGen: Открытая Базовая Модель для Универсальных Игровых Агентов, обученная на обширном наборе данных, извлеченном из более чем 1000 часов игрового процесса, демонстрирующая возможность создания агентов, способных к обобщению и переносу навыков между играми. Модель, основанная на клонировании поведения, достигает значительного улучшения в успехе выполнения задач в новых играх, открывая новые перспективы для разработки универсальных воплощенных агентов. Сможет ли такой подход привести к созданию ИИ, способного освоить любую игру, не требуя специализированного обучения?

Рождение Искусственного Игрока: Масштаб Данных как Основа Интеллекта

Для обучения универсальных игровых агентов требуются колоссальные объемы данных, значительно превосходящие те, что традиционно доступны исследователям. Существующие наборы данных, как правило, ограничены по масштабу и разнообразию игровых сценариев, что препятствует созданию агентов, способных эффективно адаптироваться к новым и сложным задачам. Недостаток данных приводит к переобучению и снижению обобщающей способности, лишая агентов возможности демонстрировать высокую производительность в незнакомых условиях. В связи с этим, разработка и использование масштабных, разнообразных наборов данных является критически важным шагом на пути к созданию действительно интеллектуальных игровых систем, способных к самостоятельному обучению и решению широкого спектра задач.

Для преодоления ограничений, связанных с недостатком данных для обучения универсальных игровых агентов, был создан масштабный набор данных, получивший название ‘Интернет-Масштабный Набор Данных’. Этот набор включает в себя 40 000 часов игрового процесса, собранных из различных источников. Такой объем данных позволяет существенно расширить возможности обучения и добиться более высокой эффективности агентов в различных игровых сценариях. Особенностью данного набора является не только его размер, но и автоматизированный процесс извлечения информации об игровых действиях, что обеспечивает высокую точность и надежность данных для дальнейшего анализа и обучения.

Ключевым аспектом созданного набора данных стало автоматизированное извлечение информации о действиях игрока из видеозаписей игрового процесса. Разработанная система позволила с высокой точностью — в среднем 96% — определять нажатия кнопок управления, а также прогнозировать положение джойстика с коэффициентом детерминации $R^2 = 0.84$ . Эта автоматизация позволила не только значительно ускорить процесс разметки данных, но и обеспечить высокую степень детализации и достоверности информации, необходимой для обучения обобщенных игровых агентов. Достигнутая точность и объемность автоматически извлеченных данных стали фундаментом для разработки интеллектуальных систем, способных к адаптации и эффективной игре в различных игровых средах.

Для создания набора данных видео-действий извлекаются действия, отображаемые на экране в виде «входных накладок» геймпада, что требует локализации геймпада с использованием сопоставления ключевых точек и обучения гибридной сети классификации-сегментации для точного определения положения джойстиков и состояния кнопок, несмотря на разнообразие геймпадов и артефакты сжатия видео.

NitroGen: Видение, Действие, Преобразование Игры

NitroGen представляет собой открытую базовую модель, разработанную для установления связи между визуальным восприятием и действиями в игровом окружении. В отличие от моделей, требующих обучения с нуля для каждой новой игры, NitroGen предварительно обучен на обширном наборе данных, что позволяет ему быстро адаптироваться к новым игровым ситуациям и эффективно выполнять задачи на основе визуальной информации. Открытый доступ к модели и её архитектуре способствует дальнейшим исследованиям и разработкам в области обучения с подкреплением и искусственного интеллекта для игр, позволяя сообществу использовать и улучшать существующие возможности.

В основе архитектуры NitroGen лежит ‘Vision-Action Transformer’ — глубокая нейронная сеть, предназначенная для прогнозирования действий на основе входных данных в виде пикселей. Данная сеть принимает визуальную информацию, представленную в формате пикселей, и преобразует ее в последовательность действий, используя механизм внимания для установления связей между различными частями изображения и соответствующими игровыми командами. Архитектура трансформера позволяет модели эффективно обрабатывать последовательности данных и учитывать контекст визуальной информации при принятии решений о действиях, что необходимо для успешного взаимодействия с игровой средой.

Эффективность Vision-Action Transformer в NitroGen достигается за счет применения методов обучения с подражанием (Behavior Cloning) и сопоставления потоков (Flow Matching) для извлечения знаний из обучающего набора данных. Обучение с подражанием позволяет модели имитировать действия, демонстрируемые в данных, в то время как сопоставление потоков обеспечивает более плавный и устойчивый переход между состояниями. Комбинация этих методов приводит к относительному улучшению успешности на 52% при постобучении на ранее не встречавшихся играх по сравнению с обучением модели с нуля. Это демонстрирует способность NitroGen к обобщению и адаптации к новым задачам, используя накопленные знания.

Обученная с использованием имитационного обучения модель NitroGen демонстрирует способность выполнять нетривиальные задачи в играх различных жанров (платформеры, action-RPG, roguelike и др.) и с различной визуальной стилистикой (2D, 3D) без дополнительной тонкой настройки.

Управление через Поток: Укрощение Сложных Поведений

Метод «Условное соответствие потоков» (Conditional Flow Matching) позволяет модели осваивать сложные, многоступенчатые поведения за счет предсказания полей скорости. Вместо прямого предсказания действий, модель обучается прогнозировать векторное поле, описывающее желаемое смещение в пространстве состояний. Это позволяет NitroGen переходить от простого предсказания действий к планированию и последовательному выполнению более длинных цепочек действий, что значительно расширяет возможности агента в сложных средах и задачах.

Подход, известный как ‘Conditional Flow Matching’, позволяет NitroGen выходить за рамки простого предсказания отдельных действий и переходить к планированию и выполнению более длинных последовательностей. Вместо непосредственного определения следующего действия, модель обучается предсказывать поля скоростей, которые описывают, как агент должен двигаться в окружающей среде на протяжении нескольких шагов. Это позволяет NitroGen моделировать сложные, многоступенчатые поведения, необходимые для решения задач, требующих долгосрочного планирования и адаптации к изменяющимся условиям, что принципиально отличает его от систем, основанных на непосредственном предсказании действий.

Точность разметки действий при создании обучающего набора данных имеет критическое значение для успешного обучения модели. В экспериментах с изометрической roguelike игрой, использование алгоритмов, таких как ‘SegFormer’ для парсинга действий, позволило добиться среднего улучшения в 10% в проценте успешного завершения задач. Это указывает на прямую зависимость между качеством размеченных данных и эффективностью обучения модели, что подчеркивает необходимость использования точных и надежных алгоритмов для обработки и категоризации действий игрока.

Предварительное обучение NitroGen значительно улучшает производительность агентов в новых средах, обеспечивая в среднем 10% прирост скорости выполнения задач при увеличении объема данных и до 52% - при изменении типа задач в условиях ограниченного объема данных (30 часов). — Предварительное обучение NitroGen значительно улучшает производительность агентов в новых средах, обеспечивая в среднем 10% прирост скорости выполнения задач при увеличении объема данных и до 52% — при изменении типа задач в условиях ограниченного объема данных (30 часов).

Испытание Универсальностью: Многоигровая Арена

Для оценки способности к обобщению, был разработан комплексный ‘Мульти-игровой бенчмарк’, включающий в себя 30 различных задач, извлеченных из 10 коммерчески доступных игр. Этот бенчмарк представляет собой тщательно подобранный набор испытаний, охватывающих широкий спектр игровых механик и требований к агенту. Разнообразие представленных игр и задач позволяет всесторонне протестировать способность алгоритмов к адаптации и переносу полученных навыков в новые, незнакомые игровые среды. Такой подход позволяет более реалистично оценить потенциал искусственного интеллекта в создании универсальных игровых агентов, способных успешно функционировать в различных игровых мирах.

Для оценки способности агентов к обобщению в различных игровых средах был разработан «Универсальный Симулятор». В его основе лежит стандартный интерфейс Gymnasium API, что позволяет унифицировать взаимодействие с 30 задачами из 10 коммерческих игр. Такой подход обеспечивает возможность обучения агента в одной среде и последующего тестирования в совершенно других, без необходимости адаптации кода к каждой новой игре. Это существенно упрощает процесс разработки и позволяет оценить истинный уровень обобщающей способности искусственного интеллекта, поскольку исключает влияние специфических особенностей каждой игровой платформы на результаты обучения и тестирования.

Успешное прохождение разработанного мульти-игрового теста демонстрирует значительный потенциал системы NitroGen в создании универсальных игровых агентов. В ходе тестирования, NitroGen показал относительное улучшение в 52% по показателю успешности выполнения задач, по сравнению с обучением агента «с нуля» для каждой игры в отдельности. Этот результат указывает на способность системы эффективно переносить полученные навыки и знания между различными игровыми средами, что является важным шагом на пути к созданию искусственного интеллекта, способного адаптироваться и преуспевать в широком спектре игровых сценариев, не требуя повторного обучения для каждого нового проекта.

NitroGen успешно выполняет разнообразные задачи в 2D и 3D средах, требующие как запоминания, так и адаптации к процедурно генерируемым мирам, что занимает от нескольких секунд до нескольких минут.

Точное Управление: Надежное Определение Действий

Точное определение действий, совершаемых с геймпадом, является критически важным этапом при создании обучающих данных для моделей машинного обучения. Некорректная идентификация нажатий кнопок или движений аналоговых стиков напрямую влияет на качество обучения и, как следствие, на производительность модели. Высокоточные данные о действиях игрока необходимы для обучения моделей, способных эффективно анализировать и воспроизводить игровой процесс, а также для разработки систем автоматизированного тестирования и генерации игрового контента. Для обеспечения достоверности обучающих данных применяются алгоритмы компьютерного зрения и машинного обучения, позволяющие автоматически извлекать и маркировать действия игрока из видеозаписей игрового процесса.

Для точного определения местоположения элементов управления на геймпаде использовались методы сопоставления с шаблоном, в основе которых лежат алгоритмы обнаружения ключевых точек, такие как ‘SIFT’ и ‘XFeat’. Эти алгоритмы позволяют идентифицировать характерные особенности изображения геймпада, даже при изменении масштаба, поворота или освещения. Сопоставление обнаруженных ключевых точек с предопределенными шаблонами кнопок и стиков обеспечивает высокую точность локализации, необходимую для автоматизированного сбора данных для обучения моделей.

Для обеспечения надежного распознавания действий в игровых видеороликах использовался комплекс алгоритмов, включающий детекторы признаков, такие как SIFT и XFeat, совместно с моделью сегментации SegFormer. Данная комбинация позволила достичь высокой точности определения положения элементов управления: среднее значение коэффициента детерминации R² для распознавания движения джойстиков составило 0.84, а точность распознавания нажатий кнопок — 96%.

Анализ работы системы распознавания команд геймпада показал высокую точность определения положения аналоговых стиков (средний коэффициент детерминации <span class="katex-eq" data-katex-display="false">R^2 = 0.84</span>) и кнопок (средняя точность распознавания кадров <span class="katex-eq" data-katex-display="false">0.96</span>) для различных моделей контроллеров. — Анализ работы системы распознавания команд геймпада показал высокую точность определения положения аналоговых стиков (средний коэффициент детерминации $R^2 = 0.84$ ) и кнопок (средняя точность распознавания кадров $0.96$ ) для различных моделей контроллеров.

Исследование представляет собой попытку обуздать хаос игровых миров, запечатлеть непредсказуемость человеческого поведения в цифровой форме. NitroGen, как и любое заклинание, основано на подражании, на копировании шепота хаоса, зафиксированного в огромном объеме данных. Модель пытается не столько ‘понимать’ игру, сколько ‘уговаривать’ её, предсказывая действия, основанные на увиденном. Как однажды заметил Ян Лекун: «Машинное обучение — это в основном поиск правильных признаков». И NitroGen демонстрирует, что правильные признаки можно извлечь даже из беспорядочного потока игровых записей, создавая иллюзию разума там, где есть лишь статистическая закономерность. Модель работает, пока не столкнётся с первым по-настоящему новым вызовом — как и любое заклинание, она ограничена рамками своего обучения.

Что дальше?

Представленная работа, как и любое заклинание, лишь приоткрывает завесу над хаосом игровых миров. Модель NitroGen — это, безусловно, интересный артефакт, но не стоит обольщаться. Данные, собранные из сети, — это эхо чужих действий, искажённое шумами и предрассудками. Учить агента на этом — всё равно что пытаться собрать собор из осколков зеркал. Пока модель демонстрирует способность к имитации, истинное понимание игры, её логики и неявных правил остаётся за гранью.

Следующий шаг — не увеличение объёма датасетов, а поиск способов заставить агента сомневаться, экспериментировать, ошибаться и учиться на своих ошибках. Пока же, кажется, что мы просто научили машину красиво повторять, не понимая, зачем. Если модель начинает вести себя странно — возможно, это не ошибка, а первые ростки самосознания, попытка вырваться из оков алгоритма.

Истинный прогресс в области игрового ИИ лежит не в создании универсальных агентов, а в понимании, что каждый игровой мир уникален, и требует своего собственного подхода, своей собственной магии. Возможно, вместо того чтобы строить одну большую модель, стоит создать множество маленьких, специализированных, каждая из которых будет шептать свою правду о конкретной игре. И тогда, возможно, мы сможем превратить этот цифровой шум во что-то, отдалённо напоминающее золото.

Оригинал статьи: https://arxiv.org/pdf/2601.02427.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-07 09:11

🚀 Квантовые новости