Искусственный интеллект выходит в реальный мир: новая модель для управления роботами

Автор: Денис Аветисян

Представлена HY-Embodied-0.5 — модель, сочетающая зрение, язык и обучение с подкреплением для достижения передовых результатов в управлении роботами и взаимодействии с окружающей средой.

Модель HY-Embodied-0.5 MoT-2B демонстрирует передовые результаты в пространственных и воплощенных задачах, а также в задачах управления роботами, подтверждая её способность расширять границы возможностей воплощенных визуально-языковых моделей и превосходить существующие аналоги в реальных сценариях взаимодействия с окружающим миром.

HY-Embodied-0.5 — это модель, основанная на архитектуре Mixture-of-Transformers, демонстрирующая выдающиеся возможности в области воплощенного искусственного интеллекта и роботизированного управления.

Несмотря на значительный прогресс в области моделей «зрение-язык», их адаптация к требованиям воплощенного интеллекта остается сложной задачей. В данной работе представлена модель $HY-Embodied-0.5$ : семейство фундаментальных моделей, разработанных специально для воплощенных агентов реального мира. Ключевой особенностью предложенного подхода является архитектура Mixture-of-Transformers, позволяющая добиться высокой производительности в задачах пространственного и временного восприятия, а также итеративный процесс обучения для улучшения способностей к рассуждениям и планированию. Достигнутые результаты на 22 эталонных наборах данных и в экспериментах с управлением роботами демонстрируют, что $HY-Embodied-0.5$ превосходит существующие аналоги и открывает новые перспективы для создания интеллектуальных агентов, способных эффективно взаимодействовать с физическим миром?

Преодолевая Разрыв Между Восприятием и Рассуждением в Воплощенных Агентах

Традиционные модели, объединяющие зрение и язык, часто испытывают трудности с укоренением лингвистической информации в физическом опыте. Это ограничение препятствует достижению подлинного понимания, поскольку модели способны лишь сопоставлять визуальные данные с текстовыми описаниями, не формируя внутреннего представления о трехмерном мире и физических взаимодействиях. В результате, они могут демонстрировать впечатляющие результаты в задачах, требующих поверхностного анализа, но оказываются неспособными к решению проблем, требующих интуитивного понимания физических принципов или адаптации к новым, непредсказуемым ситуациям. По сути, модели оперируют символами, а не реальным опытом, что создает существенный барьер на пути к созданию действительно разумных агентов.

Для достижения надёжного воплощённого восприятия, модели искусственного интеллекта должны обладать способностью не просто «видеть» окружающий мир, но и рассуждать о нём в трёхмерном пространстве. Это предполагает выход за рамки простого распознавания объектов на изображениях и переход к пониманию их взаимосвязей, физических свойств и потенциальных взаимодействий. Такой подход требует интеграции визуальной информации с логическими умозаключениями, позволяя агенту прогнозировать последствия своих действий и адаптироваться к изменяющимся условиям. Например, модель должна понимать, что объект, который она может видеть частично, вероятно, имеет продолжение за пределами видимой области, или что определённые объекты могут падать под воздействием гравитации. В конечном итоге, способность к трёхмерному рассуждению является ключевым фактором для создания по-настоящему интеллектуальных агентов, способных эффективно взаимодействовать с физическим миром.

Модель демонстрирует всестороннюю компетентность в задачах, связанных с воплощенным интеллектом, включая точное визуальное сопоставление, логическое планирование действий и понимание сцен.

HY-Embodied-0.5: Новая Основа для Воплощенных Визуально-Языковых Моделей

HY-Embodied-0.5 представляет собой новую модель «зрение-язык», разработанную специально для выполнения задач в реальном мире, требующих взаимодействия с окружающей средой. В отличие от традиционных моделей, ориентированных на анализ статических изображений или текста, HY-Embodied-0.5 оптимизирована для ситуаций, где необходимо понимать визуальную информацию и использовать ее для принятия решений и выполнения действий в физическом пространстве. Это включает в себя задачи, такие как навигация робота, манипулирование объектами и взаимодействие с людьми в динамичной среде. Модель предназначена для работы с данными, полученными от сенсоров, таких как камеры и лидары, и генерации соответствующих языковых команд или действий.

Архитектура HY-Embodied-0.5 включает в себя фреймворк Mixture-of-Transformers (MoT), который позволяет повысить эффективность и ёмкость модели для обработки визуальной информации. MoT реализует параллельную обработку входных данных посредством нескольких экспертных Transformers, каждый из которых специализируется на определённых аспектах визуального представления. Выбор экспертов осуществляется посредством механизма gating network, что позволяет динамически адаптировать модель к различным входным данным и снизить вычислительные затраты по сравнению с использованием одной большой Transformer-сети. Данный подход позволяет модели обрабатывать изображения с высоким разрешением и сложные сцены, сохраняя при этом приемлемую скорость работы и уменьшая потребность в вычислительных ресурсах.

Модель HY-Embodied-0.5 использует «Визуальные Латентные Токены» для улучшения связи между визуальными данными и пониманием языка. Эти токены представляют собой сжатое, закодированное представление визуальной информации, полученной из входных изображений. Вместо прямой обработки пикселей, модель преобразует изображения в дискретные латентные токены, которые затем используются в качестве входных данных для языковой модели. Такой подход позволяет модели более эффективно обрабатывать визуальную информацию, снижает вычислительные затраты и улучшает способность к обобщению, поскольку модель учится оперировать абстрактными представлениями визуальных объектов и сцен, а не конкретными пиксельными значениями. Это способствует более точному и осмысленному пониманию визуального контекста и, как следствие, повышает качество генерации релевантных текстовых ответов или выполнения задач, связанных с визуальным вопросно-ответным взаимодействием.

Архитектура HY-Embodied-0.5 Mixture-of-Transformers разделяет обработку визуальных и текстовых токенов, используя отдельные QKV и FFN слои и механизмы внимания для каждой модальности, а для установления взаимосвязей между модальностями и повышения эффективности обучения используются визуальные латентные токены и смешанная функция потерь.

Усиление Рассуждений посредством Итеративного Постобучения

Модель HY-Embodied-0.5 использует итеративный конвейер постобучения, объединяющий в себе контролируемое дообучение (Supervised Fine-Tuning, SFT) и обучение с подкреплением. Контролируемое дообучение позволяет модели адаптироваться к конкретным задачам на основе размеченных данных, в то время как обучение с подкреплением оптимизирует поведение модели путем вознаграждения желаемых действий и штрафования нежелательных. Итеративный характер конвейера предполагает последовательное применение SFT и обучения с подкреплением, что позволяет постепенно улучшать производительность и стабильность модели в процессе обучения.

Процесс итеративной пост-тренировки, применяемый к HY-Embodied-0.5, целенаправленно развивает способность к рассуждению типа «цепочка мыслей» (Chain-of-Thought Reasoning). Это означает, что модель не просто предоставляет ответ, но и генерирует последовательное объяснение, демонстрирующее логическую связь между входными данными и полученным результатом. Данный подход позволяет проследить этапы принятия решения моделью, повышая прозрачность и возможность анализа её работы, а также улучшая качество предсказаний за счет структурированного подхода к решению задач.

В ходе оценки на 22 стандартных бенчмарках, модель HY-Embodied-0.5 показала средний результат 67.0 баллов, превзойдя показатели Gemini 3.0 Pro на 3.4 балла. Данное улучшение демонстрирует существенный прогресс в способности модели прогнозировать будущие состояния и выполнять сложные задачи, требующие последовательного логического мышления и предвидения последствий действий.

Обучение моделей серии HY-Embodied-0.5 включает в себя предварительное обучение для формирования многомодальных представлений и пространственного восприятия, последующую фазу воплощенного пост-обучения для развития сложных навыков рассуждения посредством самоэволюции и обучения с подкреплением, и, наконец, дистилляцию с использованием on-policy алгоритмов для эффективной передачи знаний на периферийные устройства.

Масштабирование для Реального Влияния

Основой для формирования общих знаний модели HY-Embodied-0.5 послужил обширный корпус предварительных данных. Этот массив информации, включающий разнообразные тексты и примеры, позволил модели приобрести фундаментальное понимание мира, необходимое для последующего обучения выполнению конкретных задач. Использование такого подхода позволило значительно повысить эффективность обучения и обеспечить способность модели к обобщению знаний, что критически важно для успешной работы в различных сценариях и с разнообразными объектами. Данный этап предобучения является ключевым для достижения высокой производительности и адаптивности модели в дальнейшем.

Для обеспечения возможности развертывания модели на устройствах с ограниченными ресурсами применяется метод “дистилляции знаний” — перенос знаний из крупной, более сложной модели в компактную, эффективную. Этот процесс позволяет сохранить высокую производительность, несмотря на уменьшение размера модели. В ходе дистилляции, меньшая модель обучается имитировать поведение большей, перенимая её способность решать сложные задачи. В результате, уменьшенная версия демонстрирует сопоставимую точность, требуя при этом значительно меньше вычислительных ресурсов и памяти, что критически важно для практического применения в робототехнике и других областях, где важна мобильность и энергоэффективность.

Для эффективного внедрения в устройства с ограниченными ресурсами применялась методика дистилляции знаний из большой модели в меньшую, более производительную. Этот процесс позволил достичь впечатляющих результатов: в задаче точной сборки штекеров (Precision Plug-in Packing) новая модель продемонстрировала 85% успешных попыток, полностью соответствуя показателям π0.5. Еще более значительный прогресс наблюдался в задаче подвешивания кружки (Mug Hanging), где достигнут результат в 75%, что существенно превосходит показатели π0 (45%) и π0.5 (50%). Такой подход не только сохраняет высокую эффективность, но и открывает возможности для применения передовых алгоритмов на широком спектре устройств, даже тех, которые ранее считались недостаточно мощными для подобных задач.

Масштабное предварительное и промежуточное обучение, включающее более 200 миллиардов токенов данных о пространстве, робототехнике и визуальном восприятии, а также 12 миллионов пар вопросов и ответов, позволяет сформировать базовые и продвинутые навыки взаимодействия с физическим миром.

Исследование, представленное в статье, демонстрирует стремление к созданию систем, способных к устойчивому и надежному взаимодействию с реальным миром. Подобный подход требует не просто достижения высокой производительности на тестовых примерах, но и обеспечения фундаментальной корректности алгоритмов. Как заметила Фэй-Фэй Ли: «Пусть N стремится к бесконечности — что останется устойчивым?» Эта фраза отражает суть разработки HY-Embodied-0.5 — модели, основанной на архитектуре Mixture-of-Transformers и обученной на обширных данных, что позволяет ей демонстрировать передовые результаты в задачах управления роботами и пространственного мышления. Важно не просто создать систему, которая «работает», а построить алгоритм, который сохраняет свою работоспособность и предсказуемость в любых условиях, стремясь к математической чистоте и доказуемости.

Что дальше?

Представленная работа, демонстрируя впечатляющие результаты в области воплощенного искусственного интеллекта, неизбежно поднимает вопрос о границах применимости текущих подходов. Достижение “state-of-the-art” на бенчмарках, безусловно, важно, но истинная проверка — в детерминированной воспроизводимости поведения в реальном мире. Недостаточно, чтобы робот “работал на тестах”; необходимо понимать, какие условия вызывают отклонения от ожидаемого поведения и как их исключить. Случайность, маскируемая под “robustness”, — это признак неполного понимания, а не прогресса.

Особое внимание следует уделить проблеме обобщения. Модели, обученные на обширных, но все же ограниченных наборах данных, демонстрируют уязвимость к незнакомым ситуациям. Необходимо разработать методы, позволяющие моделям не просто запоминать шаблоны, а выводить принципы, лежащие в их основе. Иначе, мы получим лишь сложные, но хрупкие автоматы, неспособные к адаптации в динамичной среде. Следующим шагом представляется не увеличение размера моделей, а повышение их логической строгости.

В конечном счете, задача состоит не в создании роботов, имитирующих интеллект, а в построении систем, способных к формальному мышлению и доказуемо корректному действию. Элегантность решения — в его математической чистоте, а не в способности обмануть метрику. Истинный прогресс — в отказе от эвристик и стремлении к детерминированному, воспроизводимому искусственному интеллекту.

Оригинал статьи: https://arxiv.org/pdf/2604.07430.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-10 08:51

🚀 Квантовые новости