Автор: Денис Аветисян
Новая разработка позволяет обучать хирургических роботов сложным манипуляциям, используя синтетические данные и моделирование реального мира.

Представлена платформа SurgWorld, использующая моделирование мира для генерации данных и улучшения политики управления хирургическим роботом в условиях ограниченного объема реальных данных.
Недостаток размеченных данных является серьезным препятствием на пути к созданию полностью автономных хирургических роботов. В данной работе, представленной под названием ‘SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling’, предлагается подход к обучению политик управления хирургическим роботом на основе мира моделирования и синтетических данных. Разработанная платформа SurgWorld, в сочетании с набором данных Surgical Action Text Alignment (SATA) и моделью обратной динамики, позволяет генерировать реалистичные хирургические видео и, тем самым, расширять объем обучающих данных. Сможет ли подобный подход существенно ускорить разработку и внедрение автономных хирургических систем, эффективно используя существующие неразмеченные видеозаписи?
Преодоление Разрыва между Реальностью и Симуляцией в Хирургическом ИИ
Современные системы искусственного интеллекта, предназначенные для хирургической помощи, сталкиваются с серьезной проблемой: их обучение во многом зависит от ограниченного количества реальных хирургических данных, которые часто содержат неточности и искажения. Этот недостаток качественных данных существенно ограничивает способность ИИ к обобщению и адаптации к новым, ранее не встречавшимся ситуациям в операционной. В результате, модели, успешно работающие на ограниченном наборе данных, могут демонстрировать значительное снижение эффективности при столкновении с реальными клиническими случаями, отличающимися по сложности и специфике. Недостаток репрезентативных данных приводит к тому, что ИИ может не распознавать важные анатомические особенности, игнорировать критические сигналы или принимать неверные решения в условиях неопределенности, что ставит под вопрос надежность и безопасность использования таких систем в реальной хирургической практике.
Создание реалистичных хирургических симуляторов представляет собой сложную задачу, обусловленную необходимостью точного воспроизведения тактильных ощущений, визуальной информации и динамики тканей. Несмотря на значительный прогресс в области компьютерной графики и физического моделирования, существующие симуляторы зачастую не способны в полной мере имитировать сложность реальной хирургической среды. Это несоответствие, известное как “разрыв между реальностью и симуляцией”, приводит к тому, что алгоритмы искусственного интеллекта, обученные в виртуальной среде, могут демонстрировать неудовлетворительные результаты при применении в реальных операциях. Особенно сложной задачей является моделирование поведения мягких тканей, кровотечений и индивидуальных анатомических особенностей пациента, что требует разработки новых методов и алгоритмов для достижения высокой степени реалистичности и надежности.
Устранение разрыва между симулированной и реальной хирургической средой имеет решающее значение для создания надежных и эффективных хирургических роботов, способных оказывать поддержку при выполнении сложных операций. Недостаточная реалистичность симуляторов приводит к тому, что алгоритмы, успешно работающие в виртуальной среде, демонстрируют снижение производительности при столкновении с непредсказуемостью реальной операционной обстановки. Разработка систем искусственного интеллекта, способных к адаптации и корректной работе в условиях неполной информации и вариативности тканей, напрямую зависит от преодоления этого разрыва. Успешное решение данной задачи позволит создать роботов-ассистентов, способных повысить точность и безопасность хирургических вмешательств, снизить нагрузку на хирургов и, в конечном итоге, улучшить результаты лечения пациентов.

SurgWorld: Фундамент Прогностического Моделирования
Платформа SurgWorld использует в своей основе масштабную видео-модель мира, Cosmos-Predict2.5, для генерации реалистичных хирургических симуляций. Cosmos-Predict2.5 представляет собой расширение концепции общей видео-модели мира и обеспечивает надежные априорные знания о динамике видео, что позволяет достичь высокой степени достоверности в симулируемых хирургических сценариях. Данная модель позволяет прогнозировать последовательность кадров видео, основываясь на обучении на большом объеме данных, что критически важно для создания правдоподобных визуализаций и физических взаимодействий в хирургической среде. Использование Cosmos-Predict2.5 в качестве основы SurgWorld обеспечивает возможность генерации симуляций с высоким уровнем детализации и реалистичности, необходимых для обучения и планирования хирургических вмешательств.
В основе SurgWorld лежит модель, развивающая концепцию общей видео-модели мира, что позволяет ей предоставлять надежные априорные знания о динамике видеопоследовательностей. Это достигается за счет предварительного обучения на обширном наборе видеоданных, формируя понимание общих закономерностей движения, физики объектов и визуальных изменений. Такие априорные знания значительно повышают реалистичность генерируемых хирургических симуляций, позволяя модели более эффективно предсказывать и воссоздавать сложные взаимодействия и деформации тканей, даже при ограниченном количестве обучающих данных, специфичных для хирургических процедур. Использование сильных априорных знаний существенно снижает потребность в огромных объемах размеченных хирургических видео для достижения высокой точности симуляции.
Адаптация крупномасштабной модели Cosmos-Predict2.5 для специализированного обучения в области хирургических симуляций осуществляется посредством Low-Rank Adaptation (LoRA). LoRA позволяет обучать модель, изменяя лишь небольшое количество параметров, что значительно снижает вычислительные затраты и требования к памяти. Вместо обновления всех весов модели, LoRA вводит низкоранговые матрицы, которые добавляются к исходным весам. Это позволяет достичь сравнимой производительности с полной перенастройкой модели, но с существенно меньшими ресурсами, делая возможным быстрое создание и адаптацию хирургических моделей на основе Cosmos-Predict2.5.
В SurgWorld для обучения модели используются методы Flow Matching (FM), обеспечивающие стабильность процесса оптимизации и высокое качество генерируемых симуляций. FM представляет собой вероятностный подход к обучению генеративных моделей, основанный на преобразовании данных в непрерывный поток. В отличие от традиционных генеративно-состязательных сетей (GAN), FM не требует сложной настройки баланса между генератором и дискриминатором, что упрощает процесс обучения и повышает его устойчивость. Оптимизация происходит путем минимизации расхождения между распределением данных и распределением, генерируемым моделью, что позволяет получать более реалистичные и достоверные симуляции хирургических сценариев.

Обучение Хирургических Стратегий с Использованием Масштабируемых Данных
SurgWorld использует модель обратной динамики (IDM), инициализированную с помощью DreamGen, для генерации парных данных «видео-действие» из симулированных сред. DreamGen обеспечивает реалистичную визуализацию, а IDM позволяет определить, какое действие привело к наблюдаемому изменению в видеоряде. Этот процесс позволяет создавать большие объемы синтетических данных, которые затем используются для обучения и валидации хирургических политик, дополняя и расширяя возможности обучения на реальных данных.
Для обучения надежных хирургических политик используется модель GR00T N1.5, которая опирается на комбинацию синтетических данных, полученных с помощью Inverse Dynamics Model (IDM), и реальных данных из набора SATA. Набор SATA состоит из 2447 экспертно-аннотированных видеоклипов, содержащих более 300 тысяч кадров, что обеспечивает обширный объем размеченных данных для обучения модели. Комбинирование синтетических и реальных данных позволяет повысить обобщающую способность GR00T N1.5 и улучшить ее производительность в различных хирургических сценариях.
Использование многокамерного видеовхода значительно расширяет возможности восприятия модели GR00T N1.5 и способствует повышению ее производительности. Внедрение данных с нескольких камер позволяет модели формировать более полное и точное представление о хирургической среде, учитывая перспективные искажения и взаимное перекрытие объектов. Это, в свою очередь, улучшает точность определения положения инструментов, распознавание действий и общую надежность выполнения задач в симулированных и реальных хирургических сценариях. Дополнительная информация, получаемая из различных углов обзора, снижает зависимость от единой точки зрения и повышает устойчивость модели к окклюзиям и изменениям освещения.
Для уточнения понимания хирургических задач в рамках создаваемой модели мира применяется промптинг по категориям действий. Данный метод предполагает предоставление модели конкретных категорий хирургических действий, что позволяет ей более точно интерпретировать визуальную информацию и предсказывать соответствующие действия. Использование промптинга по категориям действий способствует повышению точности и надежности модели в задачах планирования и выполнения хирургических манипуляций, а также улучшает ее способность к обобщению на новые, ранее не встречавшиеся сценарии.

Подтверждение и Расширение Хирургического Интеллекта
Для подтверждения эффективности SurgWorld и интерактивной модели демонстраций (IDM) проводилось сравнение с другими моделями, объединяющими визуальную информацию, язык и действия, в частности, с 𝝅0.5. Эти сравнительные исследования показали, что SurgWorld превосходит альтернативные подходы в задачах, требующих понимания и воспроизведения сложных хирургических манипуляций. Анализ результатов продемонстрировал, что разработанная платформа способна не только успешно выполнять заданные действия, но и адаптироваться к различным сценариям, что подтверждает ее способность к обобщению полученных знаний и повышению точности выполнения операций. Такое сравнение позволило выявить ключевые преимущества SurgWorld в контексте автоматизации и поддержки хирургических процедур.
Исследования демонстрируют способность разработанной системы к обучению и обобщению хирургических навыков, используя комбинацию симулированных и реальных данных. Этот подход позволил значительно снизить показатель Trajectory MSE — метрику, отражающую точность траектории движения хирургического инструмента. Сочетание данных из виртуальной среды и реальных операций позволило модели эффективнее адаптироваться к различным сценариям и повысить прецизионность выполнения задач, что является критически важным для успешного исхода хирургического вмешательства. Снижение Trajectory MSE указывает на улучшение способности системы прогнозировать и воспроизводить оптимальные траектории инструментов, приближая ее к уровню опытного хирурга.
Исследования показали, что SurgWorld демонстрирует значительно более реалистичные видеоролики хирургических процедур, что подтверждается более низкими значениями метрики Video Quality (FVD) по сравнению с базовыми моделями. Этот показатель, оценивающий соответствие генерируемого видео визуальному восприятию человека, указывает на то, что SurgWorld способна создавать более правдоподобные и детализированные симуляции. Более низкий FVD свидетельствует о более высокой степени реализма, что критически важно для обучения хирургов и разработки систем автоматизированной хирургической помощи, поскольку позволяет создавать более эффективные и правдоподобные тренировочные среды и моделировать сложные сценарии с большей точностью.
Оценка экспертов-хирургов подтвердила превосходство SurgWorld по ключевым показателям, таким как соответствие текста и видео, согласованность используемых инструментов и точность отображения анатомических структур. Данные результаты свидетельствуют о том, что система не просто генерирует визуально правдоподобные видеоролики хирургических процедур, но и демонстрирует глубокое понимание взаимосвязи между текстовым описанием операции, действиями хирурга и анатомией пациента. Высокие оценки по согласованности инструментов указывают на реалистичность и логичность движений, а точное воспроизведение анатомических структур подтверждает способность системы к моделированию сложных биологических объектов. Такое сочетание факторов является критически важным для разработки надежных и безопасных систем помощи хирургу.
Разработанная платформа открывает перспективы для масштабируемого обучения с подкреплением в области хирургической робототехники. Возможность обучения сложных стратегий управления роботами на основе комбинации симуляций и реальных данных позволяет создавать системы, способные к автоматизации отдельных этапов операций или оказанию помощи хирургу в выполнении наиболее сложных манипуляций. Это не только повышает точность и эффективность хирургических вмешательств, но и потенциально снижает нагрузку на врачей, позволяя им сосредоточиться на принятии ключевых решений и стратегическом планировании. Перспективы включают в себя создание интеллектуальных ассистентов, способных адаптироваться к различным хирургическим сценариям и обеспечивать повышенную безопасность пациентов.

Исследование, представленное в данной работе, демонстрирует стремление к созданию надежных и предсказуемых систем управления хирургическими роботами. В основе подхода лежит построение «миров», в которых алгоритмы могут обучаться и совершенствоваться, используя синтетические данные для преодоления дефицита реальных хирургических записей. Это напоминает слова Алана Тьюринга: «Можно только надеяться, что компьютеры в конечном итоге научатся думать». Подобно тому, как Тьюринг предвидел возможности машин, SurgWorld предлагает метод обучения роботов через моделирование реальности, что позволяет им приобретать навыки и адаптироваться к сложным хирургическим задачам, подобно человеческому разуму. Создание такого «мира» позволяет верифицировать алгоритмы, гарантируя их корректность и надежность в критических ситуациях.
Что Дальше?
Представленная работа, безусловно, является шагом вперед в области обучения хирургических роботов. Однако, пусть N стремится к бесконечности — что останется устойчивым? Создание “миров”, пусть и синтетических, не решает фундаментальную проблему: точность моделирования сложной физики тканей и непредсказуемости биологических систем. Успех, измеренный на синтетических данных, — лишь предварительное условие, а не гарантия производительности в реальной операционной. Очевидно, что необходимо сосредоточиться на методах, позволяющих верифицировать и корректировать модель мира на основе ограниченного количества реальных данных, избегая катастрофического накопления ошибок.
Следующим этапом представляется не просто увеличение объема синтетических данных, а разработка более элегантных алгоритмов, способных к обучению “из немногих примеров” (few-shot learning). Модель, требующая терабайты данных для достижения приемлемой производительности, в конечном счете, обречена на непрактичность. Необходимо стремиться к алгоритмам, способным к обобщению на основе принципиально меньшего объема информации, подобно тому, как опытный хирург адаптируется к новым условиям во время операции.
В конечном итоге, истинный прогресс будет достигнут не за счет увеличения сложности модели мира, а за счет ее математической чистоты и доказательной силы. Алгоритм, который можно формально доказать как устойчивый к возмущениям и неопределенности, предпочтительнее того, который просто “хорошо работает” на тестовом наборе данных. Пусть приоритетом станет не имитация реальности, а ее формальное представление.
Оригинал статьи: https://arxiv.org/pdf/2512.23162.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Квантовый Монте-Карло: Моделирование рождения электрон-позитронных пар
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- Виртуальная примерка без границ: EVTAR учится у образов
- Насколько важна полнота при оценке поиска?
- Переключение намагниченности в квантовых антиферромагнетиках: новые горизонты для терагерцовой спинтроники
- Геометрия на пределе: как алгоритмы оптимизации превосходят языковые модели
- Оптимизация партийных запросов: Метод имитации отжига против градиентных подходов
2025-12-31 05:23