Автор: Денис Аветисян
Новое исследование показывает, что при уменьшении размера мультимодальных систем ключевым препятствием становится качество визуального восприятия.

Исследование выявляет узкие места в восприятии и логических рассуждениях небольших мультимодальных моделей и предлагает метод визуальной настройки для повышения их эффективности.
Несмотря на значительные успехи в развитии мультимодальных моделей, вызванные масштабированием их размеров, практические требования диктуют необходимость создания более компактных и эффективных систем. В работе «Downscaling Intelligence: Exploring Perception and Reasoning Bottlenecks in Small Multimodal Models» проводится анализ влияния уменьшения размера языковой модели на мультимодальные возможности, выявляя, что снижение производительности в большей степени затрагивает визуальное восприятие, чем способности, унаследованные от самой языковой модели. Полученные результаты показывают, что основной причиной этого является не только ухудшение визуального рассуждения, но и потеря способности к извлечению ключевых визуальных деталей. Возможно ли решить эту проблему, разработав методы, позволяющие эффективно извлекать релевантную визуальную информацию и использовать ее для повышения производительности компактных мультимодальных систем?
Уменьшение масштаба: производительность под давлением
Уменьшение масштаба больших языковых моделей (LLM) становится все более важным для расширения доступа к технологиям искусственного интеллекта, однако это часто приводит к заметному снижению производительности, особенно в задачах, связанных с обработкой визуальной информации. Сокращение количества параметров и вычислительных ресурсов, необходимых для работы модели, неизбежно сказывается на её способности эффективно анализировать и интерпретировать изображения и видео. В то время как базовые лингвистические возможности могут сохраняться, способность понимать сложные визуальные сцены, распознавать объекты и их взаимосвязи существенно ухудшается, что ограничивает применимость уменьшенных моделей в таких областях, как компьютерное зрение, робототехника и мультимодальный анализ данных. Этот эффект особенно заметен при работе с моделями, которые одновременно обрабатывают текст и изображения, где визуальное восприятие становится узким местом, определяющим общую производительность системы.
При уменьшении размеров больших языковых моделей (LLM) снижение производительности происходит неравномерно: не все компоненты страдают одинаково. Исследования показывают, что определенные части архитектуры становятся «узкими местами», ограничивая общую способность модели к обработке информации. Вместо равномерного ухудшения, критические элементы, отвечающие за конкретные функции, испытывают непропорционально большие трудности при уменьшении вычислительных ресурсов. Это означает, что даже небольшое снижение размера может значительно повлиять на способность модели выполнять задачи, требующие высокой производительности в этих конкретных областях, в то время как другие функции остаются относительно нетронутыми. Выявление и понимание этих «узких мест» является ключевым шагом к разработке более эффективных и компактных моделей, способных сохранять высокую производительность даже при ограниченных ресурсах.
Исследование выявило, что при уменьшении размеров больших языковых моделей (LLM) основным ограничивающим фактором выступает не способность к рассуждению, а именно восприятие информации. В то время как логические выводы и анализ данных сохраняются на достаточном уровне даже в урезанных версиях моделей, обработка визуальных данных и понимание контекста оказываются значительно более чувствительными к сокращению ресурсов. Этот эффект проявляется особенно ярко в мультимодальных системах, где модели должны одновременно обрабатывать текст и изображения, что создает узкие места в перцептивных компонентах. Таким образом, оптимизация алгоритмов восприятия и эффективное использование ресурсов для обработки визуальной информации представляются ключевыми задачами для повышения производительности и доступности LLM в условиях ограниченных вычислительных мощностей.
Ограничения в ресурсах, такие как вычислительная мощность и объём памяти, особенно остро проявляются при использовании мультимодальных моделей, способных обрабатывать информацию из различных источников, включая текст и изображения. В условиях ограниченных ресурсов, узкие места в архитектуре модели становятся более заметными, приводя к существенному снижению производительности. Исследования показывают, что способность к восприятию визуальной информации часто является главным ограничивающим фактором в таких сценариях, поскольку обработка изображений требует значительно больше вычислительных ресурсов, чем, например, лингвистический анализ. В результате, даже небольшое сокращение размера модели или снижение точности вычислений может привести к заметному ухудшению качества обработки визуальных данных, что особенно критично для приложений, где визуальное восприятие играет ключевую роль, таких как робототехника или автономные системы.

Prism: разделение восприятия и рассуждений
Представляем Prism — фреймворк, предназначенный для разделения модулей восприятия и рассуждения в мультимодальных больших языковых моделях (LLM). В рамках Prism, обработка входных данных (например, изображений) и извлечение признаков осуществляется отдельным модулем восприятия, в то время как модуль рассуждения отвечает за логический анализ и генерацию ответов на основе этих признаков. Такая архитектура позволяет независимо оптимизировать и масштабировать каждый из модулей, что особенно важно для повышения общей эффективности и производительности мультимодальных систем. Разделение функций восприятия и рассуждения является ключевым аспектом, обеспечивающим гибкость и адаптивность фреймворка к различным задачам и типам входных данных.
Разделение модулей восприятия и рассуждений в рамках Prism позволяет оптимизировать и масштабировать каждый компонент независимо друг от друга. Это особенно важно для устранения выявленных узких мест в мультимодальных языковых моделях. Независимая оптимизация позволяет применять различные стратегии и ресурсы для каждого модуля, учитывая специфические требования к их производительности. Масштабирование отдельных компонентов позволяет эффективно использовать вычислительные ресурсы, избегая избыточного увеличения сложности всей системы. Такой подход позволяет добиться повышения общей эффективности и снижения задержек при обработке мультимодальных данных.
В рамках архитектуры Prism, модуль восприятия использует существующие энкодеры изображений, такие как SigLIP, для извлечения визуальных признаков. В качестве модуля рассуждений применяется языковая модель Qwen3, отвечающая за обработку и интерпретацию полученных данных. Использование готовых, предварительно обученных моделей позволяет избежать необходимости обучения с нуля, сокращая время разработки и обеспечивая высокую производительность. Интеграция SigLIP и Qwen3 обеспечивает эффективное взаимодействие между визуальной информацией и языковым анализом в мультимодальной системе.
Разделение модулей восприятия и рассуждений позволяет оптимизировать их сложность в соответствии с конкретными потребностями. Модуль восприятия, обрабатывающий визуальную информацию, может быть оптимизирован для высокой пропускной способности и эффективной обработки больших объемов данных. В то же время, модуль рассуждений, отвечающий за логический вывод и принятие решений, может быть сконцентрирован на сложности алгоритмов и точности анализа, без излишней нагрузки на обработку визуальных данных. Такой подход позволяет снизить вычислительные затраты и повысить общую эффективность мультимодальной языковой модели, избегая избыточности и оптимизируя использование ресурсов.

Extract+Think: настройка для визуального понимания
Предлагаемый фреймворк “Extract+Think” представляет собой двухэтапную систему, построенную на базе модели Prism. Он объединяет в себе этап визуальной экстракции, нацеленный на выделение ключевых визуальных деталей, и этап рассуждений, использующий метод Chain-of-Thought. Первый этап, визуальная экстракция, позволяет улучшить восприятие изображений, а второй — обеспечивает последовательный анализ извлеченной информации. Такая двухэтапная структура позволяет модели эффективно обрабатывать визуальные данные и генерировать логически обоснованные ответы.
Визуальная настройка извлечения (Visual Extraction Tuning) направлена на повышение способности перцепционного модуля к идентификации и извлечению ключевых визуальных деталей из изображения. Этот процесс оптимизирует модуль для более точного распознавания значимых объектов, атрибутов и взаимосвязей на изображении, что позволяет ему формировать более информативные и релевантные представления для последующего анализа. В отличие от общей настройки модели, Visual Extraction Tuning фокусируется исключительно на улучшении этапа восприятия, что позволяет добиться значительного повышения эффективности при сохранении относительно небольшого размера модуля.
Извлеченная визуальная информация передается в модуль рассуждений, где используется метод «Chain-of-Thought» (Цепочка Мыслей). Этот подход предполагает последовательный, поэтапный анализ данных, позволяющий модели генерировать промежуточные рассуждения перед формулированием окончательного ответа. Такая пошаговая обработка позволяет модели не просто идентифицировать объекты на изображении, но и устанавливать связи между ними, делая процесс принятия решений более прозрачным и обоснованным. В результате, модель способна более эффективно решать сложные задачи визуального понимания, требующие не только распознавания объектов, но и логического вывода.
В ходе экспериментов, разработанный подход Extract+Think продемонстрировал улучшение производительности на 12.9% при работе с данными, соответствующими области обучения, и на 19.5% при обработке данных из другой области (набор данных MMStar) по сравнению с моделью LLaVA-OneVision-0.5B. Данные результаты подтверждают эффективность предложенной архитектуры в обобщении знаний и адаптации к новым, ранее не встречавшимся визуальным данным.
Архитектура Extract+Think позволяет достичь улучшенных результатов при значительном снижении вычислительных затрат. В частности, модуль визуального восприятия (perception module) в данной системе в 12 раз меньше по размеру, а модуль рассуждений (reasoning module) — в 41 раз меньше, чем в базовой модели PrismCaptioner. Такое уменьшение размеров модулей не только снижает потребность в вычислительных ресурсах, но и потенциально ускоряет процесс обработки данных без существенной потери производительности.

Эффективность данных и более широкие последствия
Разработанный подход демонстрирует выдающуюся эффективность использования данных, позволяя достигать высоких результатов при значительно меньшем объеме обучающей выборки, чем традиционные методы. Исследования показали, что для достижения сопоставимого уровня производительности требуется лишь небольшая часть данных, необходимых для обучения аналогичных моделей. Такая экономия данных обусловлена оптимизацией процесса обучения и фокусировкой на наиболее критических аспектах восприятия информации, что позволяет модели быстрее адаптироваться и обобщать полученные знания. Данное достижение открывает возможности для более широкого применения мощных мультимодальных языковых моделей даже в условиях ограниченных вычислительных ресурсов и доступности данных, что существенно расширяет горизонты развития искусственного интеллекта.
Высокая эффективность подхода обусловлена концентрацией усилий по оптимизации на наиболее критичном узком месте — восприятии визуальной информации — и применением отделимой архитектуры. Традиционные мультимодальные модели часто тратят значительные вычислительные ресурсы на обработку визуальных данных, даже если ключевая информация для решения задачи содержится лишь в небольшой части изображения. Отделимая архитектура позволяет выделить модуль восприятия, обучая его выделять наиболее релевантные признаки, что существенно снижает потребность в больших объемах обучающих данных. Такой подход позволяет достичь высокой производительности, минимизируя вычислительные затраты и открывая возможности для развертывания мощных мультимодальных больших языковых моделей в условиях ограниченных ресурсов, например, на мобильных устройствах или в системах с низким энергопотреблением.
Исследования показали значительное повышение эффективности обучения мультимодальных языковых моделей благодаря оптимизации использования визуальных данных. В ходе экспериментов удалось добиться существенного сокращения необходимого количества визуальных примеров — на 95% по сравнению с моделью LLaVA-OneVision-0.5B. Такое снижение требований к объему обучающих данных открывает возможности для более широкого применения передовых моделей искусственного интеллекта, особенно в условиях ограниченных вычислительных ресурсов и при работе с неполными или ограниченными наборами визуальной информации. Данный результат свидетельствует о перспективности подходов, направленных на повышение эффективности использования данных в процессе обучения сложных моделей, и может способствовать развитию более доступных и экономичных систем искусственного интеллекта.
Предложенная архитектура обладает высокой адаптивностью и может быть успешно интегрирована с существующими моделями, такими как LLaVA-OneVision. Это достигается благодаря модульному построению системы, позволяющему легко заменять или модифицировать отдельные компоненты без необходимости полной переработки модели. В результате, разработчики могут значительно улучшить производительность и эффективность своих текущих vision-language моделей, используя предложенный фреймворк в качестве дополнения или замены существующих перцептивных блоков. Такая совместимость открывает широкие возможности для применения в различных задачах обработки мультимодальных данных и способствует дальнейшему развитию области искусственного интеллекта.
Полученные результаты открывают возможности для внедрения мощных мультимодальных больших языковых моделей (LLM) в условиях ограниченных ресурсов. Благодаря значительному снижению требований к объему обучающих данных, разработанный подход позволяет развертывать сложные системы искусственного интеллекта на устройствах с ограниченной вычислительной мощностью и пропускной способностью. Это, в свою очередь, способствует демократизации доступа к передовым технологиям ИИ, делая их более доступными для широкого круга пользователей и организаций, в том числе в регионах с ограниченной инфраструктурой. Развертывание таких моделей в условиях ограниченных ресурсов расширяет сферу их применения, позволяя решать задачи в областях, где ранее это было невозможно, и способствует развитию инноваций в различных сферах деятельности.

Исследование демонстрирует, что при уменьшении масштаба многомодальных языковых моделей именно визуальное восприятие становится узким местом, ограничивающим общую производительность системы. Авторы предлагают метод визуальной настройки извлечения, направленный на повышение эффективности работы небольших моделей. Как заметил Эндрю Ын: «Мы должны быть осторожны с данными, которые мы используем. Важно понимать, откуда они взялись и как они были собраны». Эта цитата подчеркивает необходимость критического подхода к данным, что особенно актуально в контексте визуального восприятия, где качество и репрезентативность данных напрямую влияют на способность модели к обобщению и принятию обоснованных решений. Понимание закономерностей в визуальных данных, как и в любых других, требует тщательного анализа и учета потенциальных искажений.
Куда Ведет Уменьшение?
Представленная работа выявляет закономерную проблему: при уменьшении масштаба многомодальных языковых моделей узким местом становится именно визуальное восприятие, а не возможности языковой обработки. Это не удивительно — извлечение информации из визуального потока всегда требовало больших ресурсов. Однако, предложенный метод тонкой настройки визуального извлечения — это лишь частичное решение. Крайне важно внимательно проверять границы применимости таких методов, чтобы избежать ложных закономерностей, возникающих из-за переобучения на ограниченных наборах данных.
Дальнейшие исследования должны быть направлены на более глубокое понимание того, как визуальная информация кодируется и представляется в этих моделях. Следует исследовать возможности использования альтернативных архитектур, способных более эффективно обрабатывать визуальные данные при меньшем количестве параметров. Интересным направлением представляется разработка методов, позволяющих моделям «учиться видеть» более осмысленно, а не просто распознавать шаблоны.
В конечном счете, задача состоит не в том, чтобы просто уменьшить размер модели, но и в том, чтобы понять фундаментальные ограничения, связанные с представлением и обработкой информации. Очевидно, что “разум” — это не просто размер, а скорее эффективность организации и использования ресурсов. Изучение этих принципов может привести к созданию действительно интеллектуальных систем, способных к адаптации и обучению в сложных условиях.
Оригинал статьи: https://arxiv.org/pdf/2511.17487.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Кандинский 5.0: Искусство генерации изображений и видео
- Волны под контролем: Ускорение моделирования материалов с дефектами
- Квантовые симуляторы: Преодолевая ограничения памяти
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- LLM: математика — предел возможностей.
- Пространственное мышление видео: новый подход к обучению ИИ
- Квантовые вычисления нового поколения: объединяя возможности аналоговых и цифровых систем
- Обуздать шум: Эффективная коррекция ошибок для квантовых вычислений
- Виртуальная примерка без границ: EVTAR учится у образов
- Восполняя пробелы в знаниях: Как языковые модели учатся делать выводы
2025-11-24 21:21