Автор: Денис Аветисян
Разработана модель SAM2S, способная выделять любые объекты на хирургических видео, значительно превосходя существующие решения.

Представлен масштабный бенчмарк SA-SV и модель SAM2S, улучшающая сегментацию хирургических видео за счет долгосрочного отслеживания и семантического понимания.
Сегментация хирургических видео является критически важной задачей для компьютерно-ассистированной хирургии, однако существующие модели интерактивной сегментации видео (iVOS) испытывают трудности в адаптации к специфике хирургических сценариев и поддержании отслеживания объектов в течение длительного времени. В данной работе, посвященной ‘SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking’, предложен новый подход, включающий в себя масштабный бенчмарк SA-SV с аннотациями на уровне экземпляров и модель SAM2S, улучшающую производительность SAM2 за счет механизмов долгосрочного отслеживания, семантического понимания и устойчивости к несоответствиям в аннотациях. Эксперименты демонстрируют, что SAM2S значительно превосходит существующие модели сегментации хирургических видео, достигая впечатляющих результатов и поддерживая высокую скорость обработки. Какие перспективы открывает данный подход для разработки автоматизированных систем поддержки хирургов и повышения точности операций?
Вызов Хирургического Видеоанализа
Точная и надёжная сегментация хирургических инструментов является основополагающим требованием для систем компьютерной помощи при операциях, однако существующие методы сталкиваются с серьёзными трудностями в сложных сценах и при перекрытии инструментов. Проблема усугубляется из-за динамичности операционного поля и постоянного изменения взаимного расположения инструментов, что приводит к ошибкам в идентификации и отслеживании. Неспособность корректно выделить и отследить инструменты может привести к неточностям в навигации, роботизированной помощи и анализе действий хирурга, что снижает общую эффективность и безопасность хирургического вмешательства. Разработка алгоритмов, способных преодолеть эти ограничения, является ключевой задачей в области медицинской робототехники и визуализации.
Традиционные методы сегментации видеообъектов, разработанные для стандартных условий, зачастую оказываются неэффективными при анализе хирургических видеозаписей. Сложность заключается в высокой динамичности операционного поля, постоянном изменении освещения и возникновении перекрытий инструментов, что приводит к ошибкам в распознавании и выделении объектов. В отличие от статичных сцен, хирургическое видео характеризуется быстрым движением рук хирурга, появлением и исчезновением различных инструментов, а также наличием большого количества визуального шума, создаваемого кровью и другими биологическими жидкостями. Эти факторы существенно усложняют задачу точной сегментации, требуя разработки специализированных алгоритмов, способных адаптироваться к быстро меняющимся условиям и эффективно обрабатывать сложные визуальные данные, чтобы обеспечить надежную поддержку компьютерно-ассистированной хирургии.
Анализ продолжительных хирургических видеозаписей представляет собой серьезную проблему из-за временной непоследовательности и необходимости устойчивого отслеживания инструментов и тканей. В отличие от анализа коротких, статичных сцен, хирургические видео характеризуются постоянными изменениями освещения, перспективы и конфигурации операционного поля. Это требует от алгоритмов не только идентификации объектов в каждом кадре, но и поддержания непрерывности отслеживания на протяжении всего вмешательства, которое может длиться несколько часов. Потеря отслеживания даже на короткий промежуток времени может привести к существенным ошибкам в анализе и, потенциально, к неправильной интерпретации действий хирурга. Разработка надежных методов, способных справляться с этими вызовами, является ключевым шагом на пути к созданию эффективных систем компьютерной поддержки хирургических операций.

SAM2S: Фундаментальная Модель для Хирургии
SAM2S использует базовую архитектуру SAM2 — фреймворка для сегментации, управляемого подсказками (promptable segmentation), в качестве надежной основы для интерактивной хирургической сегментации видео (iVOS). SAM2 позволяет пользователю указывать объекты интереса с помощью подсказок, таких как точки или ограничивающие рамки, и генерировать соответствующие маски сегментации. SAM2S наследует эту функциональность, обеспечивая возможность точного выделения хирургических инструментов и анатомических структур непосредственно в видеопотоке. В отличие от традиционных методов сегментации, SAM2S позволяет оператору интерактивно корректировать сегментацию в режиме реального времени, что особенно важно в динамичной хирургической среде.
Для повышения точности отслеживания хирургических инструментов в видео SAM2S использует специализированные адаптации, учитывающие специфику хирургических изображений. Эти адаптации включают в себя модификацию архитектуры сети для улучшения обработки динамичных сцен и низкого контраста, часто встречающихся в операционных видео. Кроме того, применяются методы повышения робастности к изменениям освещения и перспективы, а также к частичной видимости инструментов. Эти усовершенствования позволяют SAM2S более эффективно сегментировать и отслеживать хирургические инструменты в сложных хирургических видеопотоках, обеспечивая стабильную и точную работу в различных хирургических сценариях.
Метод обучения, устойчивого к неоднозначности (Ambiguity-Resilient Learning, ARL), предназначен для смягчения влияния непоследовательных аннотаций в данных для обучения. ARL использует равномерное смягчение меток ($uniform$ label softening), что позволяет модели менее чувствительно реагировать на ошибки или неточности в разметке. Этот подход повышает точность сегментации, поскольку модель усредняет вероятности для различных классов, уменьшая влияние отдельных ошибочных аннотаций и обеспечивая более надежное обучение даже при наличии несогласованности в данных.

Долгосрочное Отслеживание с Временным Моделированием
Механизм DiveMem, предназначенный для долгосрочного отслеживания объектов, использует гибридную выборку по времени и отбор кадров на основе разнообразия. Данный подход позволяет поддерживать точную идентификацию хирургических инструментов на протяжении длительных периодов времени. Гибридная выборка комбинирует равномерный отбор кадров с адаптивным, ориентированным на ключевые моменты движения инструмента. Отбор кадров на основе разнообразия гарантирует, что в анализ включаются кадры, представляющие различные состояния и углы обзора инструмента, что повышает устойчивость отслеживания к окклюзиям и изменениям освещения. Сочетание этих двух стратегий позволяет DiveMem эффективно справляться с задачами долгосрочного отслеживания, где традиционные методы могут испытывать трудности из-за накопления ошибок с течением времени.
Временное семантическое обучение (TSL) использует семантические категории хирургических инструментов для повышения стабильности отслеживания. Метод опирается на обучение с контрастированием «зрение-язык», что позволяет модели сопоставлять визуальные представления инструментов с их текстовыми описаниями. Это сопоставление позволяет TSL учитывать контекст и взаимосвязи между различными инструментами, снижая вероятность потери отслеживания при сложных манипуляциях и изменениях в поле зрения. Эффективность подхода заключается в использовании семантической информации для улучшения временной согласованности и точности идентификации инструментов на протяжении всей хирургической процедуры.
SAM2S использует представление объектов, называемое «Masklets», для построения согласованной модели движения хирургических инструментов в видеопоследовательности. Masklets представляют собой компактные признаки, полученные из масок сегментации объектов, что позволяет эффективно кодировать информацию о форме и положении инструментов. В рамках временного моделирования, последовательность Masklets используется для предсказания будущих положений инструментов, учитывая их предыдущую траекторию и взаимосвязи. Этот подход позволяет SAM2S поддерживать непрерывность отслеживания даже при частичных окклюзиях или быстрых движениях инструментов, обеспечивая более надежное и точное отслеживание в течение длительного времени.

Валидация и Широкая Применимость
Для всесторонней оценки эффективности разработанной модели SAM2S, проводилось тщательное тестирование на SA-SV Benchmark — масштабном наборе данных для оценки систем инструментального отслеживания в хирургических видео с использованием масок. Этот бенчмарк включает в себя разнообразные хирургические процедуры, что позволяет оценить устойчивость и обобщающую способность модели в различных клинических сценариях. Акцент на SA-SV Benchmark гарантирует, что результаты оценки отражают реальную производительность SAM2S в условиях, приближенных к практическому применению, и позволяют объективно сравнить ее с другими существующими решениями в области хирургической визуализации и автоматизированного анализа видео.
Для оценки надежности системы отслеживания в сложных хирургических сценариях, проводилось тестирование на специализированных наборах данных, включающих EndoVis17, CholecSeg8k, CIS-Test, RARP50 и Hyst-YT. Эти наборы данных представляют собой видеозаписи продолжительных хирургических вмешательств, характеризующиеся значительной продолжительностью и сложными манипуляциями с инструментами. Результаты показали, что система обеспечивает стабильное и точное отслеживание хирургических инструментов на протяжении всей продолжительности операции, даже в условиях меняющейся освещенности и сложных визуальных помех. Такая устойчивость особенно важна для помощи хирургам в продолжительных процедурах, требующих постоянного контроля над инструментами и анатомическими структурами.
Модель демонстрирует выдающиеся способности к обобщению без дополнительного обучения, успешно справляясь с данными, которые ранее не встречались в процессе тренировки. Это подтверждается результатами тестирования на SA-SV Benchmark, где достигнут передовой показатель средней оценки J&F в 80.42. Отсутствие необходимости в адаптации к конкретным хирургическим процедурам делает данное решение особенно ценным в условиях, когда получение размеченных данных для каждой операции затруднено или невозможно, обеспечивая высокую эффективность и универсальность применения в различных клинических сценариях.
Результаты всестороннего тестирования демонстрируют значительное превосходство модели SAM2S над базовой версией SAM2, выраженное в увеличении среднего показателя J&F на 24.31 пункта. Особенно примечательно, что SAM2S не только превосходит исходную модель, но и показывает улучшение на 5.38 пункта по сравнению с версией SAM2, подвергнутой тонкой настройке для конкретных задач. Данное достижение подчеркивает эффективность архитектуры SAM2S и ее способность к обобщению, позволяя добиться более высокой точности отслеживания объектов в хирургических видео без необходимости в трудоемких процедурах адаптации к каждому отдельному типу операций.
Компонент DiveMem, разработанный для улучшения удержания информации в процессе отслеживания, демонстрирует значительное повышение точности. В среднем, показатель J&F (Intersection over Union and False Positives) увеличивается на 2.94 пункта благодаря его интеграции. Особенно заметен прогресс при долгосрочном отслеживании на датасете CIS-Test, где прирост показателя J&F достигает впечатляющих 9.56 пунктов. Это указывает на то, что DiveMem эффективно справляется с поддержанием последовательности отслеживания объектов в течение длительных хирургических процедур, что критически важно для обеспечения надежности и точности инструментов iVOS (intelligent Video Operation System).

Представленная работа демонстрирует стремление к математической чистоте в области компьютерного зрения. Модель SAM2S, расширяющая возможности SAM за счет долгосрочного отслеживания и семантического понимания, подчеркивает важность доказуемости алгоритмов. Как однажды заметил Джеффри Хинтон: «Искусственный интеллект — это просто способ автоматизировать задачи, которые мы не хотим делать сами». Разработка SA-SV benchmark и SAM2S — это не просто повышение производительности сегментации хирургических видео, но и шаг к созданию систем, способных надежно и предсказуемо выполнять сложные задачи, опираясь на четкую логику и доказанные принципы. Устойчивость к неточностям в аннотациях — важный аспект, подтверждающий стремление к алгоритмической строгости, а не к простому достижению результатов на тестовых данных.
Куда же дальше?
Представленная работа, несомненно, представляет собой шаг вперед в области сегментации хирургических видео, однако истинная элегантность алгоритма проявляется не в достижении нового рекорда на бенчмарке, а в его способности к обобщению. Бенчмарк SA-SV, как и любой набор данных, отражает лишь ограниченный срез реальности. Вопрос заключается не в том, насколько хорошо модель работает на этих видео, а в том, как быстро ее производительность деградирует при столкновении с данными, отличающимися по освещению, хирургической технике или даже анатомическим особенностям пациента.
Очевидным направлением для будущих исследований является разработка методов, позволяющих модели не просто отслеживать маски, но и понимать происходящее на видео. Недостаточно просто выделить инструмент; необходимо понимать его назначение, предвидеть его движение и адаптироваться к непредвиденным ситуациям. Это потребует интеграции методов рассуждения и планирования, а также более глубокого понимания семантики хирургических действий.
В конечном счете, успех в этой области будет определяться не количеством аннотаций, а качеством алгоритма. Истинная цель — создать модель, которая сможет самостоятельно обучаться на небольшом количестве данных, используя принципы причинности и инвариантности. Лишь тогда можно будет говорить о подлинном прогрессе в области автоматической сегментации хирургических видео.
Оригинал статьи: https://arxiv.org/pdf/2511.16618.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Квантовые симуляторы: Преодолевая ограничения памяти
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- LLM: математика — предел возможностей.
- Кандинский 5.0: Искусство генерации изображений и видео
- Волны под контролем: Ускорение моделирования материалов с дефектами
- Восполняя пробелы в знаниях: Как языковые модели учатся делать выводы
- Скрытые закономерности: как сложность влияет на квантовый алгоритм
- Квантовая связь на больших расстояниях: новый гибридный подход
- Квантовое обучение: новый взгляд на фазовые переходы
- Маленький шаг в скрытом пространстве — огромный скачок для изображения
2025-11-22 03:06