Пинг-понг под прицелом ИИ: Точное отслеживание траектории и вращения

Автор: Денис Аветисян


Новая методика позволяет с высокой точностью анализировать траекторию и вращение мяча для настольного тенниса, используя обычное видео.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Сеть, представленная на рисунке, формирует трёхмерные траектории и спиновые векторы, используя последовательность обучаемых маркеров спина и местоположения, обрабатываемые каскадом из трансформаторных блоков - сначала $L-4$ для траектории, затем ещё $4$ для начального спина, после чего оба результата объединяются посредством небольшой многослойной перцептронной сети для получения финального трёхмерного выхода.
Сеть, представленная на рисунке, формирует трёхмерные траектории и спиновые векторы, используя последовательность обучаемых маркеров спина и местоположения, обрабатываемые каскадом из трансформаторных блоков — сначала $L-4$ для траектории, затем ещё $4$ для начального спина, после чего оба результата объединяются посредством небольшой многослойной перцептронной сети для получения финального трёхмерного выхода.

Разработан полный конвейер оценки трехмерной траектории и вращения мяча для настольного тенниса, основанный на глубоком обучении и включающий новый высококачественный набор данных.

Несмотря на значительный прогресс в области компьютерного зрения, точное определение трехмерной траектории и вращения мяча для настольного тенниса по стандартному монокулярному видео остается сложной задачей. В данной работе, ‘Uplifting Table Tennis: A Robust, Real-World Application for 3D Trajectory and Spin Estimation’, предложен новый двухэтапный подход, разделяющий задачу на восприятие и реконструкцию, что позволяет преодолеть отсутствие размеченных данных для реальных видеозаписей. Ключевым результатом является создание надежного и высокопроизводительного алгоритма, использующего новый датасет TTHQ и устойчивого к типичным артефактам реального мира, таким как пропущенные детекции и переменная частота кадров. Сможет ли предложенный подход стать основой для автоматизированного анализа техники игры в настольный теннис и повышения эффективности тренировочного процесса?


Раскрывая Динамику: Вызов Точного Анализа

Точный анализ динамики настольного тенниса требует определения трехмерной траектории и вращения мяча с высокой скоростью и точностью. Эта задача представляется сложной из-за быстроты перемещения мяча и необходимости учитывать малейшие изменения в его траектории, обусловленные вращением. Для успешного решения необходимо использование высокоскоростных камер и алгоритмов обработки изображений, способных с высокой точностью определять положение мяча в пространстве и вычислять параметры его вращения. Полученные данные критически важны для понимания физики игры, анализа техники спортсменов и разработки эффективных стратегий тренировок, а также для создания реалистичных симуляций и систем автоматического анализа матчей.

Традиционные методы анализа траектории теннисного мяча сталкиваются с существенными трудностями при использовании данных с одной камеры. Определение трехмерной траектории и вращения мяча по изображению с одной камеры — сложная задача, требующая точного восстановления информации о глубине и скорости. Сохранение временной согласованности — еще одна серьезная проблема: незначительные ошибки в оценке положения мяча в одном кадре могут быстро накапливаться и приводить к значительным отклонениям в последующих кадрах. Это особенно критично для быстрого и динамичного вида спорта, как настольный теннис, где даже малейшая погрешность может существенно исказить реальную траекторию полета мяча и затруднить анализ игровых ситуаций. Разработка алгоритмов, способных эффективно решать эти задачи, требует новых подходов и инновационных решений в области компьютерного зрения и обработки видеоданных.

Существующие наборы данных для анализа траектории мяча в настольном теннисе часто оказываются недостаточно детализированными и точными для обучения надежных моделей. Низкое разрешение и недостаточная глубина информации в этих данных приводят к сложностям в адекватном распознавании спина и точной реконструкции трехмерной траектории полета мяча. Это особенно критично, учитывая высокую скорость движения и незначительные изменения в параметрах вращения, которые существенно влияют на конечный результат. Отсутствие достаточной точности в исходных данных препятствует созданию алгоритмов, способных надежно предсказывать поведение мяча и, как следствие, ограничивает возможности автоматизированного анализа и совершенствования техники игры в настольный теннис.

Предлагаемый конвейер обрабатывает последовательность кадров для определения трехмерной траектории мяча и начального вращения, используя обнаружение мяча и ключевых точек стола, фильтрацию, кодирование координат во временные токены и последующую обработку нейронной сетью.
Предлагаемый конвейер обрабатывает последовательность кадров для определения трехмерной траектории мяча и начального вращения, используя обнаружение мяча и ключевых точек стола, фильтрацию, кодирование координат во временные токены и последующую обработку нейронной сетью.

Двухэтапный Подход к Надежному Восприятию

Предлагаемый нами подход к решению задачи разделяет процесс на два этапа: восприятие (front-end) и улучшение данных (back-end). Такое разделение позволяет проводить независимую оптимизацию каждого этапа, что способствует повышению общей точности системы. Модульная структура упрощает внесение изменений и улучшений в отдельные компоненты, не затрагивая всю систему в целом. Разделение ответственности между этапами также облегчает отладку и анализ ошибок, поскольку позволяет локализовать проблемы на конкретном этапе обработки данных. Использование модульного подхода способствует более эффективной разработке и поддержке системы в долгосрочной перспективе.

В качестве фронтенда системы используется архитектура обнаружения Segformer++, предназначенная для точного определения местоположения мяча и ключевых точек игровой поверхности. Segformer++ представляет собой модель сегментации изображений, основанную на трансформерах, что позволяет ей эффективно выделять объекты на изображении и определять их координаты с высокой точностью. Данная архитектура обеспечивает надежное определение ключевых точек, необходимых для последующего анализа и принятия решений, благодаря своей способности к обработке сложных сцен и различным условиям освещения. Использование Segformer++ позволяет достичь высокой производительности и точности определения координат мяча и ключевых точек стола.

Для повышения надежности анализа данных о ключевых точках стола используется алгоритм DBSCAN (Density-Based Spatial Clustering of Applications with Noise). DBSCAN выполняет кластеризацию на основе плотности точек, эффективно отфильтровывая шумовые и выбросы, которые могут возникать при обнаружении ключевых точек. Алгоритм определяет кластеры как области высокой плотности, отделенные областями низкой плотности, что позволяет автоматически исключить ложные детекции и обеспечить более точное определение положения стола и мяча. Параметры алгоритма, такие как радиус окрестности ($\epsilon$) и минимальное количество точек в окрестности ($MinPts$), подбираются эмпирически для достижения оптимальной производительности в конкретных условиях съемки.

Модуль встраивания проецирует обнаруженную позицию мяча и ключевые точки стола в многомерное пространство с помощью двуслойной MLP и четырехблочного трансформера, после чего сохраняется только токен, соответствующий позиции мяча.
Модуль встраивания проецирует обнаруженную позицию мяча и ключевые точки стола в многомерное пространство с помощью двуслойной MLP и четырехблочного трансформера, после чего сохраняется только токен, соответствующий позиции мяча.

Восстановление Траектории и Точная Оценка

Стадия восстановления траектории выполняет оценку трехмерной траектории и угловой скорости объекта, используя данные обнаружений, полученные на фронтенде. Процесс опирается на временную информацию, позволяющую связать последовательные наблюдения во времени и сформировать непрерывную оценку движения. Определение трехмерных координат и угловой скорости осуществляется путем анализа изменений положения объекта в последовательности кадров, что требует учета временных меток обнаружений и их соответствия различным моментам времени. Использование временной информации критически важно для повышения точности и устойчивости оценки траектории, особенно в условиях неполных или зашумленных данных.

Для обеспечения временной согласованности при оценке траектории и компенсации проблем, связанных с нерегулярными временными метками и пропущенными детекциями, используется RoPE (Reparameterized Position Encoding). RoPE позволяет эффективно кодировать позиционную информацию во временной последовательности, что особенно важно при обработке данных с неравномерным интервалом времени. В частности, RoPE применяет вращение векторов в пространстве признаков на основе их временной позиции, что позволяет модели учитывать временные зависимости между детекциями и снижать влияние неточностей во временных метках. Применение RoPE позволяет более точно восстанавливать трехмерную траекторию объекта, даже при наличии пропусков в данных, и повышает устойчивость системы к шумам и погрешностям измерений.

Калибровка играет ключевую роль в обеспечении точности трехмерной реконструкции, поскольку устанавливает математическую связь между координатами точек на двумерном изображении и соответствующими координатами в трехмерном пространстве. Этот процесс включает в себя определение внутренних параметров камеры (например, фокусное расстояние, главный пункт) и внешних параметров (положение и ориентация камеры в мировых координатах). Неточности в калибровке приводят к систематическим ошибкам в вычислении трехмерных координат, что напрямую влияет на качество реконструкции. Для достижения высокой точности используются различные методы калибровки, включая алгоритмы на основе известных шаблонов или самокалибровку, основанную на движении камеры и обнаружении признаков на объектах сцены. Точные параметры калибровки позволяют корректно проецировать трехмерные точки на плоскость изображения и, наоборот, восстанавливать трехмерные координаты по двумерным наблюдениям.

Оценка предложенной системы проводилась на наборе данных TTST, где эффективность измерялась с использованием метрики $2D$ Reprojection Error ($2DRE$). Несмотря на использование данных, полученных с фронтенда, система демонстрирует низкие значения $2DRE$, что подтверждает её способность к точной реконструкции траектории. Низкий показатель $2DRE$ указывает на небольшое расхождение между спроецированными в $2D$ координатах реконструированных $3D$ точек и их фактическим положением на изображениях, подтверждая надежность алгоритма даже при наличии шумов и неточностей во входных данных.

Система успешно определяет положение мяча и ключевые точки стола в 2D (зеленые точки), реконструирует геометрию стола и калибровку камеры (красные точки) и предсказывает трехмерную траекторию мяча (синие точки).
Система успешно определяет положение мяча и ключевые точки стола в 2D (зеленые точки), реконструирует геометрию стола и калибровку камеры (красные точки) и предсказывает трехмерную траекторию мяча (синие точки).

Усиление Обобщающей Способности: Предобучение и Данные

Для существенного повышения эффективности и обобщающей способности моделей обнаружения мяча, была использована предварительная тренировка на уникальном наборе данных Blurball. Этот подход позволил значительно улучшить способность моделей к адаптации к новым, ранее не встречавшимся условиям и изображениям. Предварительная тренировка на Blurball позволила моделям выучить общие признаки мяча и движения, что существенно облегчило последующую тонкую настройку на конкретных задачах, обеспечивая более надежные и точные результаты в различных сценариях, включая обнаружение мяча в сложных условиях освещения и при различных углах обзора. Использование этого подхода продемонстрировало значительное улучшение обобщающей способности по сравнению с моделями, обученными только на целевых данных.

Для дальнейшего развития исследований в области анализа видео с настольным теннисом был создан уникальный набор данных TTHQ. Этот высококачественный датасет отличается высоким разрешением изображений, что позволяет более детально изучать траектории мяча и технику игроков. Наличие TTHQ предоставляет исследователям возможность обучать и тестировать новые алгоритмы обнаружения и отслеживания мяча, а также проводить более точный анализ движений спортсменов. Датасет открыт для использования научным сообществом и призван стать ценным ресурсом для разработки передовых систем компьютерного зрения, применяемых в спортивном анализе и автоматизированном судействе.

Исследование продемонстрировало превосходство разработанного подхода Segformer++ над существующими архитектурами, такими как HRNet и VitPose. В ходе сравнительного анализа было установлено, что Segformer++ обеспечивает значительное улучшение метрики ACC@5px по сравнению с передовыми методами в данной области. При этом, точность классификации вращения и показатель $F_1$-score, демонстрируемые Segformer++, остаются на сопоставимом уровне с результатами, полученными с использованием альтернативных архитектур. Данные результаты подтверждают эффективность предложенного подхода в задачах обнаружения и анализа траекторий движения объектов, открывая перспективы для дальнейшего совершенствования систем компьютерного зрения.

Система успешно предсказывает трехмерную траекторию подачи мяча (обозначена пурпурными точками) на основе данных о положении мяча и ключевых точках стола, полученных на фронтенде (зеленые точки).
Система успешно предсказывает трехмерную траекторию подачи мяча (обозначена пурпурными точками) на основе данных о положении мяча и ключевых точках стола, полученных на фронтенде (зеленые точки).

Исследование траекторий теннисного мяча, представленное в статье, подтверждает давнюю убежденность: любая попытка моделирования — это всегда упрощение реальности. Авторы столкнулись с отсутствием достоверных трехмерных данных, что заставило их разбить задачу на этапы восприятия и реконструкции. Это напоминает о том, как часто мы пытаемся обуздать хаос данных, создавая искусственные ограничения. Как говорил Дэвид Марр: «Вычислительная теория должна объяснять, как реализована функция, а не просто что она делает». В данном случае, разделение этапов — это и есть способ «уговорить» данные, заставив их соответствовать нашим представлениям о физике движения, даже если истинная траектория навсегда останется за пределами точного измерения.

Куда же дальше?

Представленный подход, безусловно, заманивает хаос в более предсказуемые рамки. Однако, стоит помнить: любая реконструкция траектории — это лишь тень реальности, а оценка вращения — заклинание, работающее лишь до первого неидеального кадра. Создание нового набора данных — шаг верный, но он лишь отодвигает проблему, а не решает её. Идеальные данные — это миф, а любая корреляция, близкая к единице, требует не празднования, а пристального поиска ошибки.

Будущие исследования, вероятно, будут сосредоточены на расширении области применения. Но истинный вызов заключается не в увеличении количества данных, а в понимании их природы. Как укротить шум, как отличить истинное вращение от иллюзии, вызванной дефектами оптики? Более того, если гипотеза о траектории подтвердилась, возможно, мы просто недостаточно глубоко копали, и истинная картина гораздо сложнее.

В конечном итоге, задача состоит не в том, чтобы создать идеальную модель, а в том, чтобы научиться жить с её несовершенством. Ведь всё, что можно посчитать, всегда немного не соответствует истине. И в этом — изящная трагедия любого научного поиска.


Оригинал статьи: https://arxiv.org/pdf/2511.20250.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-27 01:38