Наука на виду: Модель S1-VL рассуждает, используя изображения

Автор: Денис Аветисян

Новая модель искусственного интеллекта демонстрирует впечатляющие результаты в научных задачах, активно взаимодействуя с изображениями и используя их для логических выводов.

S1-VL — это мультимодальная модель, сочетающая структурированное рассуждение с возможностью манипулирования изображениями посредством выполнения кода, что обеспечивает передовые показатели на различных бенчмарках.

Научные задачи часто требуют не только логического вывода, но и анализа визуальной информации, что представляет сложность для существующих моделей. В данной работе представлена модель ‘S1-VL: Scientific Multimodal Reasoning Model with Thinking-with-Images’, сочетающая структурированное рассуждение с возможностью активной манипуляции изображениями посредством выполнения Python-кода. Этот подход позволяет модели эффективно решать сложные задачи, такие как интерпретация научных графиков и анализ микроскопических изображений, достигая передовых результатов на различных бенчмарках. Сможет ли подобная интеграция визуального и логического анализа открыть новые горизонты в области автоматизированных научных исследований и открытий?

За гранью статического анализа: Необходимость активного рассуждения

Современные мультимодальные большие языковые модели (MLLM) демонстрируют впечатляющую способность к распознаванию паттернов в визуальных данных, однако их возможности в области сложного, многоступенчатого научного рассуждения остаются ограниченными. В то время как модели успешно идентифицируют объекты и их атрибуты на изображениях, им часто не хватает способности к последовательному анализу, требуемому для решения задач, связанных с научными гипотезами и экспериментами. Например, модели могут определить наличие определенной структуры на рентгеновском снимке, но испытывают затруднения при определении причинно-следственной связи между этой структурой и симптомами пациента, или при прогнозировании дальнейшего развития процесса. Эта неспособность к глубокому, аналитическому мышлению ограничивает их применение в областях, требующих не просто идентификации, а именно понимания и интерпретации сложных научных данных.

Традиционные многомодальные большие языковые модели (MLLM) зачастую ограничиваются пассивным восприятием визуальной информации, что существенно снижает их способность к глубокому научному анализу. Простое распознавание объектов и паттернов на изображении не позволяет моделям выдвигать гипотезы, проводить эксперименты «в уме» или делать логические выводы, требующие активного исследования данных. По сути, пассивный подход эквивалентен изучению фотографии — можно увидеть, что изображено, но невозможно понять динамику процесса или взаимосвязи, которые скрыты за статичной картинкой. Для истинного «понимания» визуальных данных необходима способность к активному взаимодействию с изображением, его манипулированию и исследованию различных сценариев, что позволяет выявлять закономерности и делать обоснованные выводы, недоступные при простом наблюдении.

Необходим принципиальный сдвиг в подходе к анализу визуальной информации, от простого распознавания объектов к активному взаимодействию с изображениями. Традиционные модели, способные идентифицировать элементы на картинке, зачастую не могут провести последовательный анализ, необходимый для решения сложных научных задач. Вместо пассивного восприятия, требуется возможность манипулировать изображением — изменять его параметры, выделять интересующие области, проводить виртуальные эксперименты — чтобы действительно “понять” его содержание и выявить скрытые закономерности. Такой активный подход позволит моделям не просто видеть, но и исследовать, выдвигать гипотезы и проверять их, приближая искусственный интеллект к уровню человеческого понимания.

Мышление с изображениями: Новый подход к рассуждениям

Концепция «Мышления с изображениями» предполагает, что модели машинного обучения способны не только распознавать визуальную информацию на изображениях, но и активно взаимодействовать с ней. Это достигается путем выполнения кода, который позволяет изменять изображения, применять к ним различные операции и исследовать визуальные данные в динамике. В отличие от пассивного анализа изображений, модели получают возможность активно тестировать гипотезы, изменяя входные данные и наблюдая за результатами, что открывает новые возможности для решения задач, требующих активного визуального исследования и манипулирования.

Процесс, основанный на манипулировании изображениями и выполнении кода, позволяет активно проверять выдвигаемые гипотезы и получать новые знания. Это достигается путем программного изменения визуальной информации — например, путем применения фильтров, изменения размеров или выделения определенных объектов — и последующего анализа результатов этих изменений. Выполнение кода позволяет автоматизировать эти операции и выполнять сложные вычисления на основе измененных изображений, что дает возможность моделировать различные сценарии и проверять, соответствуют ли наблюдаемые результаты ожидаемым. Таким образом, модель не просто интерпретирует изображение, но и активно взаимодействует с ним, используя программные инструменты для получения новых данных и подтверждения или опровержения гипотез.

Интеграция возможностей манипулирования изображениями и выполнения кода позволяет перейти от пассивной интерпретации визуальной информации к динамическому и интерактивному процессу рассуждений. Вместо простого анализа представленных данных, модель способна активно изменять изображения, тестировать гипотезы посредством выполнения кода и, на основе полученных результатов, получать новые знания и выводы. Это подразумевает переход от статической оценки к активному исследованию визуальной информации, что значительно расширяет возможности модели в решении сложных задач, требующих не только распознавания, но и активного взаимодействия с визуальным контентом.

S1-VL-32B: Четырехэтапный конвейер для научного рассуждения

Модель S1-VL-32B построена на основе предварительно обученной модели Qwen3-VL-32B-Thinking и проходит обучение по четырехэтапному конвейеру. Первый этап — контролируемая тонкая настройка (Supervised Fine-Tuning, SFT), за которой следует обучение с подкреплением, ориентированное на научные задачи (Scientific RL). Затем следует этап обучения с подкреплением, включающий анализ изображений (Thinking-with-Images RL). Такая последовательность этапов позволяет постепенно улучшать способности модели к логическому мышлению и анализу данных, начиная с базовой производительности и заканчивая активным визуальным исследованием.

Постепенный подход к обучению модели S1-VL-32B предусматривает последовательное повышение её способности к логическому мышлению. Начальный этап, Supervised Fine-Tuning (SFT), закладывает базовый уровень производительности. Затем, этап Scientific RL фокусируется на улучшении навыков научного рассуждения. И, наконец, этап Thinking-with-Images RL, используя активное визуальное исследование, позволяет модели самостоятельно анализировать изображения для решения задач, тем самым достигая наиболее высокого уровня логической аргументации и точности ответов.

Ключевым аспектом подготовки данных для обучения модели S1-VL-32B является шестимерная фильтрация качества. Данный процесс включает в себя оценку данных по шести параметрам: релевантность вопроса, точность ответа, логическая последовательность рассуждений, наличие достаточного визуального контекста, однозначность интерпретации изображения и отсутствие противоречий между текстом и изображением. Применение этой фильтрации позволяет отбирать только высококачественные примеры, что существенно повышает эффективность стадии обучения “Thinking-with-Images RL”, направленной на развитие способности модели к активному визуальному исследованию и логическому выводу.

Адаптивная маршрутизация данных (Adaptive Data Routing) оптимизирует эффективность обучения модели за счет динамического распределения ресурсов в зависимости от потребности конкретных данных в активном визуальном исследовании. Данный подход предполагает, что не все данные одинаково выигрывают от использования механизма визуального поиска: для некоторых примеров достаточно базового понимания, в то время как другие требуют более глубокого анализа изображений для правильного решения. Алгоритм автоматически определяет, какие данные нуждаются в дополнительном визуальном анализе, и направляет на них больше вычислительных ресурсов, что позволяет повысить общую производительность модели и снизить затраты на обучение.

Эффективность и перспективы для научных открытий

Модель S1-VL-32B демонстрирует передовые результаты на всех пяти эталонных тестах Thinking-with-Images, превосходя по своим показателям более крупные модели на ряде научных бенчмарков. Данный прорыв свидетельствует о значительном прогрессе в области мультимодального научного рассуждения, позволяя системе эффективно обрабатывать и анализировать информацию, представленную в различных форматах — как текстовом, так и визуальном. Способность модели к комплексному анализу и синтезу данных открывает новые возможности для решения сложных научных задач, требующих одновременной обработки и интерпретации изображений и текстовых описаний, что делает её ценным инструментом для исследователей в различных областях науки.

Модель S1-VL-32B продемонстрировала выдающиеся результаты на бенчмарках HRBench-4K и HRBench-8K, достигнув точности в 91.38% и 93.50% соответственно. Эти показатели устанавливают новые стандарты в области мультимодального научного рассуждения, значительно превосходя предыдущие достижения. Такая высокая точность указывает на способность модели эффективно анализировать и интерпретировать сложные визуальные данные, необходимые для решения широкого спектра научных задач, и открывает новые возможности для автоматизированного анализа и извлечения знаний из больших объемов визуальной информации.

В ходе тестирования на бенчмарке Physics, модель S1-VL-32B продемонстрировала точность в 54.35%, что значительно превосходит результаты других передовых моделей. В частности, S1-VL-32B опережает GPT-5 на 6.01 процентных пункта и Qwen3-VL-235B-A22B-Thinking на целых 8.32 пункта. Этот результат указывает на существенный прогресс в области мультимодального понимания и решения задач, требующих анализа физических принципов и визуальной информации, что открывает новые возможности для автоматизации и ускорения научных исследований в данной сфере.

Модель S1-VL-32B продемонстрировала выдающиеся результаты на бенчмарке V, достигнув точности в 92.70%. Этот показатель значительно превосходит результат, показанный моделью Skywork-R1V4-30B, на 4.70 процентных пункта. Такое превосходство указывает на повышенную способность модели эффективно обрабатывать и интерпретировать визуальную информацию, необходимую для решения сложных задач, требующих детального анализа изображений. Достижение на бенчмарке V подтверждает, что S1-VL-32B является передовой системой в области мультимодального анализа данных и открывает новые возможности для применения в различных научных областях, где визуальные данные играют ключевую роль.

Модель S1-VL-32B продемонстрировала передовые результаты в решении задач, представленных в бенчмарке MME-RealWorld-CN, достигнув точности в 77.70%. Данный показатель свидетельствует о значительном прогрессе в области мультимодального понимания и обработки информации, поскольку модель эффективно анализирует и интерпретирует как визуальные данные, так и текстовые описания реальных ситуаций. Такой уровень точности открывает новые возможности для автоматизации научных исследований и анализа сложных данных, позволяя более эффективно извлекать знания из визуальной информации и решать задачи, требующие комплексного понимания реального мира.

Модель S1-VL-32B демонстрирует уникальную способность к активной обработке изображений, что позволяет ей решать сложные научные задачи, ранее считавшиеся неразрешимыми. В отличие от систем, которые лишь пассивно анализируют визуальную информацию, данная модель способна манипулировать изображениями — изменять их, выделять ключевые элементы и проводить виртуальные эксперименты непосредственно с визуальными данными. Такой подход открывает возможности для решения задач, требующих не только распознавания объектов, но и понимания их взаимосвязей и динамики, например, в области анализа микроскопических изображений, интерпретации научных диаграмм или моделирования физических процессов. Эта способность к активному взаимодействию с визуальной информацией значительно расширяет границы применения искусственного интеллекта в науке, позволяя автоматизировать сложные аналитические процедуры и ускорять процесс открытия новых знаний.

Достижение, продемонстрированное моделью S1-VL-32B, открывает новые перспективы для ускорения научных открытий. Способность модели эффективно анализировать и интерпретировать визуальную информацию позволяет исследователям значительно повысить эффективность выдвижения и проверки гипотез. Благодаря этому, ученые получают возможность более глубоко понимать сложные научные явления, извлекать ценные знания из визуальных данных и решать задачи, которые ранее были недоступны из-за ограничений в обработке и анализе изображений. Подобный прорыв особенно важен для дисциплин, где визуализация играет ключевую роль, таких как биология, медицина, материаловедение и астрономия, предоставляя инструменты для более оперативного и точного анализа экспериментальных данных и научных наблюдений.

Модель S1-VL-32B демонстрирует значительный прогресс в области обучения с подкреплением благодаря поддержке методики «Chain-of-Thought» (Цепочка Мыслей) и активному использованию алгоритма SAPO (Simple Active Preference Optimization). Данный подход позволяет модели не просто выдавать ответ, но и последовательно демонстрировать ход рассуждений, что повышает надежность и интерпретируемость результатов. Алгоритм SAPO, в свою очередь, активно использует предпочтения для улучшения процесса обучения, позволяя модели более эффективно адаптироваться к сложным задачам и достигать более высоких показателей производительности. Сочетание этих двух методов способствует более глубокому пониманию и решению научных проблем, открывая новые возможности для автоматизированного анализа и интерпретации данных.

Будущее научного ИИ: Активное восприятие и рассуждение

Предвидится будущее, в котором искусственный интеллект перестанет быть пассивным потребителем визуальной информации, а станет активно взаимодействовать с ней, подобно учёному, выдвигающему гипотезы и проводящему эксперименты. Вместо простого распознавания объектов, модели смогут самостоятельно формулировать вопросы, планировать получение новых данных — например, запрашивать дополнительные изображения или проводить симуляции — и анализировать результаты для выявления закономерностей. Такой подход, имитирующий научное исследование, позволит ИИ самостоятельно открывать новые знания в различных областях, от материаловедения и разработки лекарств до моделирования климата, значительно ускоряя темпы научных открытий и позволяя решать задачи, недоступные традиционным методам анализа.

Предполагаемый сдвиг парадигмы в использовании искусственного интеллекта открывает беспрецедентные возможности для научных открытий, существенно ускоряя прогресс в ключевых областях. В материаловедении, например, ИИ способен анализировать сложные микроструктуры и предсказывать свойства новых материалов с высокой точностью. В сфере разработки лекарств, он позволяет моделировать взаимодействие молекул и выявлять перспективные соединения для лечения различных заболеваний. Не менее значим потенциал в климатологических исследованиях, где ИИ может обрабатывать огромные объемы данных для прогнозирования изменений климата и разработки эффективных стратегий адаптации. Таким образом, активное применение интеллектуальных систем обещает революционизировать научные исследования, позволяя решать сложные задачи, ранее казавшиеся непосильными, и открывая новые горизонты для понимания окружающего мира.

Парадигма “Мышление с помощью изображений”, воплощенная в модели S1-VL-32B, представляет собой ключевой прорыв в развитии научного искусственного интеллекта. В отличие от традиционных систем, которые пассивно анализируют предоставленные данные, S1-VL-32B демонстрирует способность к активному визуальному исследованию и рассуждению. Эта модель способна не просто распознавать объекты на изображениях, но и формулировать гипотезы об их свойствах, предлагать эксперименты для их проверки и, в конечном итоге, извлекать новые научные знания. Подобный подход открывает перспективы для создания инструментов, способных самостоятельно проводить исследования в различных областях — от материаловедения и разработки лекарств до моделирования климата — значительно ускоряя темпы научных открытий и предоставляя ученым принципиально новые возможности для анализа и интерпретации данных.

Представленная модель S1-VL, стремясь к научному мультимодальному рассуждению, неизбежно сталкивается с проблемой «техдолга». Как часто бывает, элегантная теория, воплощенная в структурированном подходе и возможности манипулировать изображениями посредством кода, рано или поздно встретит суровую реальность продакшена. Эффективность алгоритма, показанная на бенчмарках, — это лишь первый шаг. Скорее всего, последующая интеграция выявит необходимость постоянной оптимизации и адаптации к новым данным. Как заметил Эндрю Ын: «Машинное обучение — это практика. Без практики все остальное — просто теория». Эта фраза, как нельзя лучше, отражает суть любого инженерного проекта, особенно в сфере искусственного интеллекта, где предсказать все возможные сценарии использования практически невозможно.

Что дальше?

Модель S1-VL, безусловно, демонстрирует впечатляющую способность к манипулированию изображениями в контексте научных задач. Однако, не стоит забывать старую истину: каждая «революция» требует последующего технического обслуживания. Активное изменение изображений посредством исполнения кода — элегантное решение, пока не столкнётся с реальными данными, где «шум» и неконсистентность превратят эту элегантность в головную боль. Вполне вероятно, что «научное рассуждение» модели окажется не более чем способ находить закономерности в хорошо отфильтрованных наборах данных.

Вопрос не в том, сможет ли модель генерировать изображения, а в том, как долго она сможет оставаться устойчивой к атакам, направленным на искажение этих изображений. Уверенность в «научности» вывода, основанная на визуальных манипуляциях, — это хрупкая конструкция. Иногда лучше монолитный алгоритм, который просто выдаёт результат, чем сто микросервисов, каждый из которых пытается «думать» с картинками.

В ближайшем будущем, скорее всего, мы увидим гонку за всё более сложными механизмами фильтрации данных и обнаружения аномалий. И это будет не прорыв в области искусственного интеллекта, а просто возвращение к старым добрым принципам обеспечения качества данных. Удивительно, как часто приходится напоминать об этом.

Оригинал статьи: https://arxiv.org/pdf/2604.21409.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-25 12:48

🚀 Квантовые новости