Автор: Денис Аветисян
Исследователи предлагают инновационный метод, позволяющий нейросетям лучше ориентироваться в пространстве и понимать визуальную информацию, используя специальные «токены» для описания расположения объектов.

В статье представлена архитектура GETok, использующая обучаемые пространственные токены (сетку и смещение) для повышения точности пространственного рассуждения и привязки к реальности в мультимодальных больших языковых моделях.
Несмотря на значительные успехи мультимодальных больших языковых моделей в понимании изображений, токенизация входных данных ограничивает их способность к точному определению местоположения объектов в двухмерном пространстве. В статье ‘Grounding Everything in Tokens for Multimodal Large Language Models’ предлагается новый подход GETok, интегрирующий специализированный обучаемый словарный запас токенов для улучшения пространственного рассуждения. GETok использует сетку токенов для структурированного определения пространственных привязок и смещения токенов для точной локализации, напрямую встраивая пространственные отношения в токенное представление. Способна ли данная методика значительно расширить возможности MLLM в задачах, требующих детального понимания и анализа визуальной информации?
Преодолевая Границы: Проблема 2D-Рассуждений в Мультимодальных Моделях
Мультимодальные большие языковые модели (MLLM) демонстрируют впечатляющие возможности в обработке как текстовой, так и визуальной информации, однако сталкиваются с трудностями при точном понимании пространственных отношений и определении местоположения объектов. Несмотря на способность идентифицировать предметы на изображении и связывать их с текстовыми описаниями, модели часто не способны корректно интерпретировать их взаимное расположение, размеры или ориентацию в пространстве. Эта неспособность к точному пространственному рассуждению ограничивает их эффективность в задачах, требующих детального понимания визуальной сцены, например, в навигации роботов или при ответах на вопросы, требующие анализа конкретного местоположения объекта на изображении. Таким образом, несмотря на общий прогресс в области мультимодального искусственного интеллекта, точное понимание и интерпретация пространственной информации остается серьезной проблемой для современных MLLM.
Существующие методы токенизации изображений, широко используемые в мультимодальных больших языковых моделях (MLLM), зачастую оказываются неэффективными при представлении и манипулировании пространственной информацией. Подходы, такие как кодирование изображений и методы, основанные на разбиении изображения на бины, склонны к потере точных данных о местоположении объектов и их взаимосвязи. Это связано с тем, что они преобразуют непрерывное пространственное поле в дискретные токены, что неизбежно приводит к упрощению и искажению информации. В результате, модели испытывают трудности в решении задач, требующих детального понимания 2D-пространства, например, при определении относительного положения объектов или навигации в визуальной среде. Неспособность адекватно кодировать пространственные отношения ограничивает возможности MLLM в решении сложных задач визуального рассуждения.
Ограничения в пространственном понимании существенно затрудняют выполнение мультимодальными большими языковыми моделями (MLLM) сложных задач, требующих точного двухмерного рассуждения. Например, в области робототехники, для успешной навигации необходимо не просто распознавать объекты, но и точно определять их положение относительно друг друга и окружающей среды. Аналогично, в задачах визуального вопрошания, MLLM испытывают трудности при ответах на вопросы, требующие анализа пространственных отношений между объектами на изображении. Данные недостатки ярко проявляются при тестировании моделей на специализированных бенчмарках, таких как RefCOCO (+/g), где оценивается способность к точному определению местоположения объектов, указанных в текстовом запросе. Низкие показатели на подобных тестах свидетельствуют о необходимости разработки более совершенных методов представления и обработки пространственной информации в MLLM.

GETok: Пространственный Словарь для Точного Обоснования
Метод GETok использует обучаемые пространственные токены — Grid Tokens и Offset Tokens — для точного определения 2D-позиций объектов в мультимодальных больших языковых моделях (MLLM). Grid Tokens дискретизируют плоскость изображения, создавая сетку, которая служит основой для определения местоположения. Для повышения точности используются Offset Tokens, представляющие собой векторы смещения, которые уточняют позицию объекта внутри ячейки сетки. Такое представление пространственной информации в виде дискретных токенов позволяет модели эффективно кодировать и использовать информацию о местоположении объектов, обеспечивая более точное пространственное рассуждение.
Метод GETok формирует структурированную пространственную топологию путем дискретизации плоскости изображения в сетку. Каждый элемент сетки представляет собой базовую пространственную единицу. Для повышения точности определения местоположения объектов, к координатам элементов сетки добавляются векторы смещения. Эти векторы смещения позволяют задать координаты объектов с точностью, превышающей разрешение базовой сетки. В результате формируется надежный пространственный словарь, состоящий из дискретных токенов, представляющих как положение в сетке, так и смещение от него, что позволяет модели эффективно кодировать и обрабатывать пространственную информацию.
В отличие от традиционных методов представления пространственной информации в MLLM, которые часто полагаются на непрерывные координаты или сложные дескрипторы, GETok кодирует пространственные данные в виде дискретных токенов. Этот подход позволяет модели выполнять более точное и эффективное 2D-рассуждение, поскольку дискретизация пространственного поля упрощает обработку и сравнение локаций. Экспериментальные результаты на бенчмарке RefCOCO (+/g) демонстрируют, что использование дискретных токенов для представления пространственной информации приводит к повышению производительности модели в задачах, требующих понимания и интерпретации пространственных отношений между объектами на изображении.

Обучение GETok: От Визуального Восприятия к Дискретному Пространственному Представлению
Для обучения GETok используется контролируемая тонкая настройка (SFT), в процессе которой генерируются обучающие данные посредством автоматической конвертации аннотаций и симуляции последовательностей. Этот подход позволяет создавать размеченный набор данных, необходимый для обучения модели без ручной разметки каждого изображения. Автоматическая конвертация преобразует существующие аннотации в формат, пригодный для обучения GETok, а симуляция последовательностей генерирует дополнительные данные, расширяя обучающую выборку и повышая обобщающую способность модели. Использование SFT позволяет эффективно обучать GETok, используя как существующие аннотации, так и сгенерированные данные.
В процессе обучения GETok модель SAM (Segment Anything Model) играет важную роль в конвейере контролируемого обучения (SFT). SAM преобразует предсказанные ограничивающие рамки (bounding boxes) и точки в пространственные запросы (spatial prompts), используемые для генерации масок сегментации. Данный подход позволяет создавать более качественные обучающие сигналы, поскольку SAM обеспечивает точное выделение объектов на изображениях, что критически важно для обучения модели дискретным пространственным представлениям. Использование SAM в качестве этапа предобработки данных повышает надежность и точность процесса обучения GETok.
Алгоритм преобразования масок в токены является жадным подходом, эффективно транслирующим плотные пиксельные маски в дискретные Grid Tokens. Этот процесс устанавливает связь между визуальными данными и пространственным словарем, что позволяет представить сложные сцены в виде последовательности токенов, представляющих дискретные области пространства. В результате применения данного алгоритма наблюдается улучшение метрики Intersection over Union (IoU), что свидетельствует о повышении точности определения границ объектов и, следовательно, об улучшении качества сегментации.

Уточнение Пространственной Динамики с Подкреплением
В рамках совершенствования способности к пространственному мышлению, в архитектуру GETok интегрировано обучение с подкреплением. Этот подход позволяет модели не только анализировать статические изображения, но и адаптироваться к изменяющимся условиям, моделируя динамичные сцены. Обучение с подкреплением предоставляет GETok возможность самостоятельно корректировать свои прогнозы, основываясь на обратной связи, что значительно повышает точность определения местоположения объектов и их границ. В результате, модель способна более эффективно решать задачи, требующие точного 2D-рассуждения, и демонстрирует улучшенные результаты в сложных сценариях, где важна адаптивность и понимание контекста.
В рамках обучения с подкреплением используется алгоритм GRPO — техника оптимизации предпочтений, направленная на повышение точности пространственных предсказаний. Данный алгоритм позволяет GETok не просто генерировать начальные ограничивающие рамки и маски, но и последовательно их уточнять, основываясь на обратной связи. В результате, наблюдается значительное улучшение метрики IoU (Intersection over Union) — от первоначальных, менее точных, предсказаний к окончательным, максимально соответствующим объектам на изображении. Это итеративное совершенствование позволяет модели адаптироваться и достигать более высокой производительности в задачах, требующих точного 2D-рассуждения, эффективно корректируя и улучшая свои пространственные оценки.
Самообучающийся цикл, реализованный в GETok, позволяет системе адаптироваться к новым, ранее не встречавшимся ситуациям и извлекать уроки из собственных ошибок. Этот процесс непрерывного улучшения приводит к значительному повышению точности при решении задач, требующих точного 2D-рассуждения. Подтверждением эффективности подхода является превосходство GETok над существующими решениями на стандартных бенчмарках, таких как RefCOCO (+/g), где система демонстрирует более высокую точность определения и локализации объектов на изображениях. Такая способность к самосовершенствованию открывает новые возможности для применения GETok в широком спектре приложений, связанных с компьютерным зрением и робототехникой.

Исследование, представленное в статье, демонстрирует стремление к математической чистоте в области многомодальных больших языковых моделей. В основе подхода GETok лежит идея токенизации пространственных отношений, что позволяет модели более точно понимать и генерировать выражения, связанные с 2D-пространством. Это соответствует принципу, сформулированному Дэвидом Марром: «Если вы не можете описать это математически, вы не понимаете его». В данном контексте, способность модели к точной токенизации пространственных данных и является математическим описанием её понимания визуальной информации, что позволяет ей превосходить существующие решения в задачах, требующих пространственного рассуждения. Внедрение grid и offset токенов — это шаг к созданию алгоритма, корректность которого можно доказать, а не полагаться лишь на эмпирические результаты.
Куда же дальше?
Представленная работа, безусловно, демонстрирует элегантность подхода к проблеме пространственного рассуждения посредством токенизации. Однако, истинная проверка любой модели — не в победах на узком наборе задач, а в её способности к обобщению. Необходимо помнить, что сетка и смещения — лишь один из способов кодирования пространственных отношений. Следующим шагом видится разработка более гибких и универсальных систем координат, способных адаптироваться к различным типам данных и задачам — от навигации робота в реальном мире до анализа сложных медицинских изображений. В конечном счете, простое увеличение числа токенов не является панацеей; требуется более глубокое понимание того, как модель действительно представляет пространство.
Особый интерес представляет возможность интеграции представленных пространственных токенов с другими модальностями — не только визуальной, но и, например, тактильной или аудиальной. Попытки создать единое, унифицированное представление мира, основанное на строгих математических принципах, кажутся особенно перспективными. Но не стоит забывать, что даже самая изящная модель — лишь приближение к реальности, и её точность всегда ограничена качеством входных данных и вычислительными ресурсами.
В хаосе данных спасает только математическая дисциплина. И всё же, необходимо помнить, что даже самая точная модель — лишь инструмент, и её ценность определяется не её способностью к имитации интеллекта, а её способностью решать реальные проблемы. Следует избегать соблазна бесконечной оптимизации на синтетических данных, и сосредоточиться на задачах, имеющих практическое значение.
Оригинал статьи: https://arxiv.org/pdf/2512.10554.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Когда данные оживают: как LongCat-Flash-Omni объединяет текст, звук и видео в реальном времени
- Голос без помех: Новый подход к шумоподавлению
- Модель Motif 2 12.7B: Новый взгляд на эффективные языковые модели
- Прогнозирование потока прямой осмоса: новый подход к точности и надежности
- Взгляд в будущее видео: ускорение генерации с помощью LiteAttention
- Сортировка чисел: Новый подход к алгоритму Шора
- Уменьшение глубины квантовых схем: новый путь к устойчивым алгоритмам
- Квантовая обработка сигналов: новый подход к умножению и свертке
- Видео-R4: Размышляя над видео, чтобы лучше понимать текст
- Квантовые схемы без лишних шагов: обучение с подкреплением для оптимизации вычислений
2025-12-15 00:24