Автор: Денис Аветисян
Новый подход к обнаружению ранее неизвестных категорий объектов использует возможности больших языковых моделей и анализа изображений.

Исследование представляет метод Novel Class Discovery, основанный на модели CLIP и больших языковых моделях, для улучшения различимости классов и преодоления смещения в распределении данных.
Несмотря на успехи в области классификации изображений, задача обнаружения новых классов в неразмеченных данных остается сложной из-за ограниченной различимости признаков и предвзятости распределений. В данной работе, ‘VLM-NCD:Novel Class Discovery with Vision-Based Large Language Models’, предложен новый мультимодальный подход, использующий возможности больших языковых моделей и визуально-текстового представления CLIP для повышения точности обнаружения неизвестных классов. Ключевым нововведением является совместная оптимизация визуальных и текстовых признаков известных классов и двухфазовый механизм обнаружения, позволяющий достичь значительного улучшения результатов, особенно в условиях неравномерного распределения данных. Открывает ли это путь к созданию более устойчивых и адаптивных систем открытого распознавания?
Преодолевая Границы: Вызовы Открытого Распознавания
Традиционные системы компьютерного зрения демонстрируют высокую эффективность в распознавании объектов, для которых они были предварительно обучены. Однако, в условиях реального мира, характеризующегося бесконечным разнообразием и непрерывным появлением новых категорий, эти системы сталкиваются с серьезными ограничениями. Обученные на фиксированном наборе классов, они испытывают трудности при идентификации объектов, не встречавшихся ранее в процессе обучения. Это требует разработки принципиально новых подходов, способных не только классифицировать известные объекты, но и эффективно обобщать знания для распознавания совершенно незнакомых классов, что является ключевой задачей в области открытого распознавания.
В задачах распознавания образов часто встречается проблема, связанная с неравномерным распределением данных — так называемым «длинным хвостом». Это означает, что подавляющее большинство примеров относится к небольшому числу часто встречающихся классов, в то время как редкие или новые категории представлены крайне ограниченным количеством данных. В результате, алгоритмы машинного обучения, обученные на таких наборах данных, демонстрируют высокую точность для доминирующих классов, но испытывают значительные трудности с идентификацией объектов, принадлежащих к «хвосту» распределения. Эта предвзятость к часто встречающимся классам существенно ограничивает возможности систем компьютерного зрения в реальных условиях, где разнообразие объектов может быть чрезвычайно высоким, и часто встречаются экземпляры, не представленные в обучающей выборке.
Эффективное распознавание в условиях открытого мира требует от методов способности не только различать известные классы объектов, но и обобщать знания для идентификации совершенно новых, ранее не встречавшихся категорий. Эта задача представляет собой серьезный вызов для существующих подходов, поскольку традиционные алгоритмы машинного зрения, как правило, оптимизированы для работы с фиксированным набором классов. Реализация такой способности требует преодоления проблемы смещения в сторону часто встречающихся классов и разработки механизмов, позволяющих алгоритмам обнаруживать аномалии и представлять новые объекты в компактной и информативной форме. Успешное решение этой проблемы откроет возможности для создания систем компьютерного зрения, способных функционировать в реальных, непредсказуемых условиях и адаптироваться к постоянно меняющемуся окружению.
Язык и Зрение: Синергия для Новых Открытий
Большие языковые модели (LLM) предоставляют обширные знания, которые могут значительно повысить уверенность в идентификации новых классов объектов, эффективно преодолевая разрыв между известными и неизвестными категориями. LLM способны предоставлять контекстную информацию и общие знания о мире, что позволяет моделям машинного зрения не только распознавать объекты, с которыми они уже сталкивались в процессе обучения, но и делать обоснованные предположения о новых, ранее невиданных объектах. Этот механизм позволяет классифицировать объекты, основываясь на их характеристиках и контексте, даже если они не были явно представлены в обучающем наборе данных, повышая общую надежность и адаптивность системы.
Кросс-модальное обучение, в частности с использованием моделей, таких как CLIP (Contrastive Language-Image Pre-training), позволяет сопоставлять визуальные и текстовые представления данных. CLIP обучается на большом объеме пар «изображение-текст», что позволяет ему выучивать совместное пространство признаков для обоих типов данных. В результате, модель способна оценивать сходство между изображениями и текстовыми описаниями, а также эффективно понимать содержание изображений на основе текстовых запросов и наоборот. Это достигается за счет контрастивного обучения, где модель стремится максимизировать сходство между соответствующими парами изображение-текст и минимизировать сходство между несвязанными парами, формируя обобщенное представление, применимое к различным задачам анализа изображений и текста.
Объединение признаков изображения и текста позволяет моделям улучшить их дискриминационные способности, упрощая разграничение между известными и неизвестными классами. Этот процесс достигается путем совместного анализа визуальной информации и соответствующего текстового описания, что приводит к формированию более надежных и обобщенных представлений. В результате, модели способны более эффективно идентифицировать новые, ранее не встречавшиеся концепции, поскольку объединение модальностей предоставляет дополнительный контекст и позволяет выявлять тонкие различия, которые могли бы быть упущены при анализе только одного типа данных. Такой подход повышает точность классификации и способствует обнаружению аномалий, что особенно важно в задачах, требующих распознавания новых объектов или ситуаций.

Преодоление Смещения и Повышение Обобщающей Способности
Методы, такие как Text-Guided Dynamic Allocation, направлены на смягчение проблемы дисбаланса классов (long-tail bias) путем интеллектуального распределения ресурсов в процессе обучения. В отличие от равномерного распределения, данный подход анализирует текстовую информацию, связанную с каждым классом, и динамически выделяет больше ресурсов (например, вычислительной мощности или времени обучения) классам, представленным меньшим количеством примеров. Это позволяет модели уделять больше внимания редким классам, улучшая ее способность к обобщению и повышая точность прогнозирования для этих классов, которые часто игнорируются при стандартном обучении с дисбалансом классов. Эффективность метода зависит от качества текстового представления и точности определения релевантности текста для каждого класса.
Полусупервизируемый K-Means кластеринг объединяет преимущества методов кластеризации и использования размеченных данных. Данный подход позволяет модели эффективно группировать признаки, относящиеся как к известным, так и к неизвестным классам. Алгоритм использует размеченные данные для улучшения качества кластеризации, направляя процесс формирования кластеров и уточняя границы между ними. В результате, модель способна не только правильно классифицировать объекты, относящиеся к известным классам, но и выявлять новые, ранее не встречавшиеся классы, что особенно важно в задачах обнаружения аномалий и расширения обучающей выборки.
Базовые методы обнаружения новых классов, такие как RankStats, UNO и XCon, служат основой для оценки более сложных техник в данной области. RankStats использует статистический анализ рангов для выявления аномалий, UNO (Unsupervised Novelty Outlier detection) применяет подход на основе плотности, а XCon (eXtended Contrastive learning) использует контрастивное обучение для отделения известных классов от неизвестных. Эти методы предоставляют отправную точку для сравнения и валидации эффективности новых алгоритмов обнаружения новых классов, обеспечивая количественную оценку их производительности и позволяя установить базовый уровень для дальнейших исследований.

К Надежному и Адаптивному Распознаванию
Интеграция поиска текста с использованием концептуальных подписей представляет собой эффективный механизм обогащения понимания изображений и повышения точности обнаружения новых классов. В основе этого подхода лежит идея сопоставления визуальных признаков изображения с семантически релевантными текстовыми описаниями, что позволяет модели не просто идентифицировать известные объекты, но и обобщать знания для распознавания ранее невиданных категорий. По сути, система способна «понимать» концепцию объекта, а не только его внешний вид, что значительно повышает её устойчивость к вариациям и шумам. Этот метод позволяет модели эффективно использовать накопленные знания из больших текстовых баз данных для расширения своего визуального словаря и улучшения способности к обобщению, что критически важно для создания действительно адаптивных систем компьютерного зрения.
Методики, подобные DINO, использующие контрастное обучение, значительно улучшают извлечение визуальных признаков, формируя прочный фундамент для последующего анализа изображений. Контрастное обучение позволяет модели научиться различать изображения, акцентируя внимание на существенных характеристиках и игнорируя несущественные вариации. В результате, DINO способен генерировать более информативные и устойчивые представления изображений, что критически важно для решения сложных задач компьютерного зрения, включая распознавание новых классов объектов. Такой подход позволяет модели эффективно обобщать знания и адаптироваться к незнакомым данным, обеспечивая высокую точность и надежность в различных условиях.
Предложенный метод, основанный на больших языковых моделях и использующий CLIP совместно с поиском по тексту, демонстрирует передовые результаты в задачах открытия новых классов. В ходе экспериментов на широко используемых наборах данных CIFAR-100 и ImageNet-100, новая методика значительно превзошла существующие подходы, достигнув показателя точности кластеризации (ACC) в 85.6% на CIFAR-100 и 78.2% на ImageNet-100. Такие результаты свидетельствуют о значительном прогрессе в области компьютерного зрения и открывают перспективы для создания более адаптивных и надежных систем, способных эффективно распознавать и классифицировать объекты даже в условиях недостаточной информации или при столкновении с ранее неизвестными категориями.
Успешное применение разработанных методов демонстрирует перспективу создания по-настоящему адаптивных и устойчивых систем компьютерного зрения, способных эффективно функционировать в условиях реального мира. Интеграция извлечения текста с использованием концептуальных подписей и современных моделей, таких как DINO, позволяет значительно улучшить понимание изображений и точность распознавания новых классов объектов. Достигнутые результаты на наборах данных CIFAR-100 и ImageNet-100, включая высокую точность кластеризации, подтверждают потенциал предложенного подхода для решения сложных задач, связанных с анализом визуальной информации в динамичной и непредсказуемой среде. Данные системы, обладая способностью к адаптации и устойчивости к помехам, могут найти широкое применение в различных областях, от автономных транспортных средств и робототехники до медицинского анализа изображений и систем безопасности.
Исследование демонстрирует элегантность подхода к обнаружению новых классов, используя возможности мультимодального обучения. Авторы предлагают изящное решение проблемы смещения в распределении данных, что особенно актуально для задач, связанных с длинным хвостом распределения. Этот подход, основанный на семантическом выравнивании и контрастном обучении, позволяет модели более эффективно различать классы, что подтверждается результатами на эталонных наборах данных. Как однажды заметил Эндрю Ын: «Мы должны быть осторожны с тем, как мы оцениваем модели машинного обучения. Нам нужно убедиться, что мы оцениваем то, что действительно важно». Эта фраза отражает важность корректной оценки эффективности моделей в задачах обнаружения новых классов, где способность к обобщению и адаптации к неизвестным данным играет ключевую роль.
Куда же дальше?
Представленная работа, безусловно, демонстрирует элегантность использования существующих моделей — CLIP и больших языковых моделей — для задачи обнаружения новых классов. Однако, подобно искусному ремесленнику, использовавшему лучшие инструменты, она лишь подчеркивает границы этих инструментов. Проблема «длинного хвоста» распределения, хотя и смягчена, остается призраком, напоминающим о том, что настоящая обобщающая способность требует не просто увеличения масштаба, а принципиально нового подхода к представлению знаний.
Будущие исследования, вероятно, будут сосредоточены не на улучшении существующих моделей, а на создании архитектур, которые способны к более тонкому семантическому выравниванию. Необходимо исследовать способы интеграции априорных знаний — не просто текстовых описаний, а структурированных онтологий, — для формирования более устойчивых и интерпретируемых представлений. Иначе, остаётся лишь игра с контрастами, а не истинное понимание.
В конечном счете, задача обнаружения новых классов — это не просто техническая проблема, а вызов нашей способности к абстракции и обобщению. Успех в этой области будет зависеть не от сложности алгоритмов, а от их внутренней гармонии — от способности находить красоту в простоте и порядок в хаосе. И тогда, возможно, мы сможем создать системы, которые не просто распознают новое, но и понимают его.
Оригинал статьи: https://arxiv.org/pdf/2512.10262.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- LLM: математика — предел возможностей.
- Квантовые схемы без лишних шагов: обучение с подкреплением для оптимизации вычислений
- Когда данные оживают: как LongCat-Flash-Omni объединяет текст, звук и видео в реальном времени
- Квантовый горизонт: Облачные вычисления нового поколения
- Восполняя пробелы в знаниях: Как языковые модели учатся делать выводы
- Вариационные и полувариационные неравенства: от теории к практике
- Точность фазовой оценки: адаптивный подход превосходит стандартный
- Модель Motif 2 12.7B: Новый взгляд на эффективные языковые модели
- Квантовый прыжок в будущее: юмористический взгляд на недавние квантовые приключения!
- Взгляд в будущее видео: ускорение генерации с помощью LiteAttention
2025-12-14 04:14