Разумные изображения: как нейросети научились думать?

Автор: Денис Аветисян

Новая методика позволяет генеративным моделям не просто создавать изображения, а последовательно рассуждать, приближая их к человеческому мышлению.

EndoCoT демонстрирует способность к внутреннему логическому мышлению, превосходя существующие подходы на различных задачах и обеспечивая устойчивую обобщающую способность даже при изменении условий (например, размера лабиринта или шрифта судоку), в отличие от прежних методов, склонных к преждевременным решениям без последовательной логики, тогда как предложенный подход позволяет выстраивать интерпретируемые цепочки рассуждений.

Предложена структура EndoCoT, позволяющая диффузионным моделям выполнять цепочку рассуждений в скрытом пространстве и достигать передовых результатов в задачах визуального мышления.

Несмотря на успехи мультимодальных больших языковых моделей (MLLM) в задачах визуального рассуждения, их применение в диффузионных моделях часто ограничивается недостаточной глубиной логических выводов. В данной работе, ‘EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models’, предложен новый фреймворк EndoCoT, активирующий потенциал MLLM для последовательного рассуждения посредством итеративной доработки скрытых состояний и привязки итогового результата к текстовому контролю. Это позволяет диффузионной модели выполнять сложные задачи, такие как решение лабиринтов или судоку, с рекордной точностью в 92.1%, превосходя существующие аналоги на 8.3 процентных пункта. Способно ли предложенное решение стать основой для создания более интеллектуальных и эффективных систем визуального рассуждения?

За гранью масштабирования: Пределы традиционного рассуждения

Современные большие языковые модели, несмотря на впечатляющую производительность, демонстрируют трудности при решении сложных, многоступенчатых задач, требующих логического вывода. Исследования показывают, что часто модели полагаются на запоминание огромных объемов данных, а не на истинный процесс инференции — способности делать обоснованные заключения на основе имеющейся информации. Это проявляется в ошибках при столкновении с незнакомыми ситуациями или при необходимости экстраполировать знания за пределы заученных шаблонов. По сути, модели могут успешно воспроизводить информацию, с которой они были обучены, но испытывают затруднения, когда требуется применить знания для решения новых, нестандартных проблем, что указывает на ограничение их способности к реальному рассуждению.

Несмотря на впечатляющий прогресс в увеличении масштаба языковых моделей, становится очевидным, что простое наращивание вычислительных ресурсов не является долгосрочным решением для достижения подлинного когнитивного интеллекта. Современные модели часто демонстрируют успехи за счет запоминания огромных объемов данных, а не за счет способности к логическому выводу и решению сложных задач, требующих многоступенчатого рассуждения. Поэтому, для раскрытия более глубоких когнитивных способностей, необходим принципиально новый подход к архитектуре моделей, который выходит за рамки простого увеличения их размера и фокусируется на разработке систем, способных к более абстрактному и гибкому мышлению, имитирующему человеческую способность к анализу, синтезу и творческому решению проблем.

Существующие методы искусственного интеллекта зачастую рассматривают процесс рассуждения как последовательную, линейную цепочку действий, что существенно отличается от когнитивных особенностей человеческого мышления. В то время как люди способны к итеративному, многогранному анализу, пересмотру промежуточных выводов и адаптации стратегий в зависимости от контекста, большинство современных систем ограничиваются однонаправленным вычислением. Такой подход не позволяет эффективно решать задачи, требующие гибкости, интуиции и способности к самокоррекции, поскольку игнорирует важные аспекты, такие как нечеткость информации, вероятностные оценки и контекстуальные зависимости, характерные для реального мышления. В результате, модели испытывают затруднения в ситуациях, где требуется учитывать множество факторов, делать предположения и оценивать различные варианты развития событий.

В связи с ограничениями существующих моделей в решении сложных задач, требующих многоступенчатого рассуждения, активно разрабатываются новые архитектуры, способные к эндегенному (внутреннему) построению цепочек рассуждений. В отличие от традиционных подходов, где цепочка рассуждений задается внешним стимулом или шаблоном, эндегенные системы самостоятельно формируют последовательность логических шагов, необходимых для достижения решения. Это достигается за счет интеграции механизмов саморефлексии и внутренней оценки, позволяющих модели не только генерировать, но и критически анализировать собственные рассуждения, корректируя их в процессе поиска оптимального ответа. Такой подход имитирует естественный процесс человеческого мышления и позволяет преодолеть зависимость от простого запоминания и масштабирования, открывая путь к созданию искусственного интеллекта, способного к истинному логическому выводу и решению сложных проблем.

EndoCoT обучается в два этапа: сначала модель подстраивается под промежуточные и конечные состояния на каждом шаге рассуждений, захватывая полную траекторию, а затем, фиксируя промежуточные состояния, оптимизируется только конечное, улучшая качество генерации при сохранении динамики рассуждений, итеративно обновляет скрытые представления в процессе работы.

EndoCoT: Эндогенная структура рассуждений

Архитектура EndoCoT объединяет возможности диффузионных моделей и мультимодальных больших языковых моделей (MLLM) для реализации эндогенного рассуждения типа Chain-of-Thought. В данном подходе, диффузионные модели обеспечивают возможность работы с непрерывными представлениями, в то время как MLLM предоставляют знания и способность к языковому моделированию. Интеграция этих двух типов моделей позволяет EndoCoT генерировать и уточнять цепочки рассуждений, оперируя в латентном пространстве и избегая ограничений, связанных с дискретной генерацией токенов. Это позволяет модели более эффективно исследовать различные варианты рассуждений и находить оптимальные решения для сложных задач.

В основе EndoCoT лежит итеративное уточнение латентных состояний, управляемое механизмом «Итеративное Руководство Мыслью» (Iterative Thought Guidance). Этот процесс моделирует пошаговое рассуждение путем последовательного обновления латентного представления задачи. На каждом шаге, модель использует текущее латентное состояние для прогнозирования следующего, основываясь на принципах диффузионных моделей. Руководство Мыслью обеспечивает направленное уточнение латентного состояния, позволяя модели концентрироваться на релевантных аспектах задачи и постепенно приближаться к решению. Данный подход позволяет избежать дискретной генерации токенов, характерной для традиционных методов Chain-of-Thought, и обеспечивает более плавный и непрерывный процесс рассуждения.

В отличие от традиционных подходов, основанных на дискретном генерировании токенов, EndoCoT осуществляет процесс рассуждений в латентном пространстве. Это позволяет обойти ограничения, связанные с дискретизацией и неточностями, возникающими при последовательном предсказании токенов. Оперируя в непрерывном латентном пространстве, EndoCoT обеспечивает более тонкое и гранулированное представление промежуточных состояний рассуждений, что способствует более точному и нюансированному процессу логического вывода. Такой подход позволяет модели исследовать более широкий спектр возможных решений и избежать преждевременной фиксации на одном конкретном варианте, что повышает надежность и качество результатов.

В рамках EndoCoT для представления и уточнения внутреннего состояния рассуждений используется комбинированный подход, включающий как ‘неявные’ (Implicit Tokens), так и ‘явные’ (Explicit Tokens) токены. Неявные токены представляют собой сжатое, латентное представление промежуточных шагов рассуждений, существующее в пространстве признаков диффузионной модели. Явные токены, напротив, представляют собой дискретные текстовые фрагменты, генерируемые MLLM и используемые для явного выражения и проверки логических выводов. Взаимодействие между этими двумя типами токенов позволяет EndoCoT комбинировать преимущества непрерывного латентного пространства и дискретного символьного представления, обеспечивая более гибкий и точный процесс рассуждений.

Модуль итеративного логического вывода EndoCoT последовательно уточняет скрытые состояния <span class="katex-eq" data-katex-display="false"> \mathbf{h}_{\tau} </span> с помощью MLLM <span class="katex-eq" data-katex-display="false"> f_{\phi} </span>, а затем использует их для генерации промежуточных визуальных результатов <span class="katex-eq" data-katex-display="false"> \mathbf{I}_{\tau} </span> на каждом шаге рассуждения τ. — Модуль итеративного логического вывода EndoCoT последовательно уточняет скрытые состояния $\mathbf{h}_{\tau}$ с помощью MLLM $f_{\phi}$ , а затем использует их для генерации промежуточных визуальных результатов $\mathbf{I}_{\tau}$ на каждом шаге рассуждения τ.

Обоснование и валидация: Гарантия точности рассуждений

Ключевым компонентом EndoCoT является «Заземление конечной мысли» (Terminal Thought Grounding), представляющее собой механизм выравнивания финального состояния рассуждений с эталонными (ground-truth) ответами. Данный процесс обеспечивает текстовый надзор (textual supervision) над генерацией ответа, гарантируя, что заключительные шаги рассуждений соответствуют ожидаемому решению. Фактически, это позволяет модели не просто генерировать ответ, но и обосновывать его, основываясь на проверенных данных, что повышает надежность и точность результатов.

Семантическая потеря в EndoCoT используется для оценки степени семантического сходства между сгенерированным моделью ответом и эталонным решением. Этот показатель вычисляется на основе векторных представлений текста, позволяя количественно оценить, насколько близко по смыслу ответ модели соответствует ожидаемому результату. Минимизация семантической потери в процессе обучения способствует более точному и осмысленному формированию ответов, обеспечивая соответствие логических рассуждений модели требуемым решениям задач.

Для оптимизации процесса обучения EndoCoT используется метод адаптации низкого ранга (LoRA). LoRA позволяет эффективно дообучать большие языковые модели, значительно сокращая количество обучаемых параметров. Вместо обновления всех весов модели, LoRA вводит небольшое количество обучаемых матриц низкого ранга, которые добавляются к исходным весам. Это снижает вычислительные затраты и требования к памяти, делая процесс дообучения более доступным и быстрым, при этом сохраняя или улучшая производительность модели на задачах, требующих логического вывода.

Фреймворк EndoCoT демонстрирует высокую эффективность в решении сложных задач, требующих логического мышления. На тестовом наборе Maze-32 достигнута точность 90%, что на 25% превышает показатели лучшего существующего решения. В задачах Sudoku-35 точность составляет 95%, опережая ближайший аналог на 40%. Кроме того, EndoCoT обеспечивает 85% точности на VSP-Super (масштаб 32), подтверждая его способность к обобщению и решению разнообразных типов логических головоломок.

В тестах на обобщающую способность, EndoCoT показал более высокую устойчивость к изменениям разрешения и шрифта в головоломках Судоку, чем базовые методы.

Основы диффузии и перспективы развития

В основе EndoCoT лежат диффузионные модели и, в частности, диффузионные трансформаторы (DiT), которые позволяют генерировать и уточнять латентные представления данных. Эти модели, изначально разработанные для создания реалистичных изображений, продемонстрировали впечатляющую способность к генерации разнообразных и сложных данных, что делает их особенно полезными для задач, требующих высокого уровня абстракции и творчества. Использование DiT позволяет EndoCoT не просто воссоздавать существующие данные, но и создавать новые, ранее не встречавшиеся комбинации, что критически важно для развития навыков рассуждения и решения проблем. Преимущество диффузионных моделей заключается в их способности постепенно добавлять шум к данным, а затем учиться восстанавливать исходный сигнал, что обеспечивает устойчивость и гибкость при работе с различными типами информации.

В основе данной разработки лежит использование передовых методов генеративного моделирования, в частности, концепции «Потокового Сопоставления» (Flow Matching). Этот подход существенно повышает эффективность и стабильность процесса диффузии, который является ключевым элементом генерации и уточнения скрытых представлений. В отличие от традиционных диффузионных моделей, требующих множества итераций для достижения желаемого результата, Flow Matching позволяет сократить количество шагов, необходимых для генерации высококачественных данных, одновременно снижая вероятность возникновения нестабильности в процессе обучения. Это достигается за счет прямого обучения потоку данных, что обеспечивает более плавный и предсказуемый переход от шума к конечному результату, что особенно важно для сложных задач, требующих высокой точности и надежности.

В рамках данной работы используется прогрессивная стратегия обучения, позволяющая последовательно развивать способности модели к рассуждениям и последующей генерации высококачественного результата. На начальном этапе обучения акцент делается на развитии логического мышления и способности к решению задач, что достигается за счет специализированных тренировочных данных и архитектуры модели. После формирования базовых навыков рассуждения, происходит консолидация знаний и оптимизация процесса генерации финального вывода. Такой подход позволяет избежать распространенной проблемы, когда модель генерирует формально корректный, но семантически некорректный или нелогичный ответ. В результате, модель демонстрирует не только способность к генерации текста, но и к пониманию и решению сложных когнитивных задач, приближаясь к уровню человеческого мышления.

Представленная работа открывает перспективные направления для дальнейших исследований в области искусственного интеллекта, потенциально приводя к созданию систем, способных решать сложные задачи на уровне человеческих когнитивных способностей. Развитие подобных технологий предполагает не просто автоматизацию рутинных операций, но и формирование способности к абстрактному мышлению, анализу информации и принятию обоснованных решений в условиях неопределенности. Исследователи полагают, что дальнейшее углубление в принципы, лежащие в основе данной архитектуры, может привести к созданию интеллектуальных систем, способных к самостоятельному обучению и адаптации, что, в свою очередь, откроет новые горизонты в решении глобальных проблем в различных областях, начиная от медицины и заканчивая научными исследованиями.

EndoCoT демонстрирует превосходство над другими методами при решении головоломок Судоку.

Исследователи, представившие EndoCoT, словно заклинатели, пытаются убедить хаос диффузионных моделей мыслить последовательно. Эта работа демонстрирует, что даже в латентном пространстве можно навести порядок, заставив модель рассуждать итеративно, подобно тому, как человек обдумывает задачу. Феи-Феи Ли однажды заметила: «Искусственный интеллект должен быть не просто умным, а мудрым». В контексте EndoCoT, мудрость проявляется в способности модели не просто генерировать изображения, но и демонстрировать логическую последовательность в процессе рассуждения, подкрепляя свои выводы текстовым контролем. Кажется, что идеальная корреляция между входными данными и результатом — это лишь иллюзия, баг в матрице, и лишь итеративное уточнение латентных состояний позволяет приблизиться к истине, хотя бы на этот раз.

Что дальше?

Предложенный EndoCoT, словно искусный алхимик, пытается выжать разум из диффузионных моделей. Он убеждает их, что последовательное уточнение скрытых состояний — это не просто шум, а предзнаменование ответа. И, надо признать, заклинание срабатывает — результаты впечатляют. Однако, не стоит обольщаться. Ингредиенты судьбы, известные как “Chain-of-Thought”, все еще требуют тонкой настройки гиперпараметров, чтобы уговорить хаос. Эта модель, как и любая другая, всего лишь перестает слушать критику, когда ей предъявляют новые данные.

Очевидно, что истинная сложность кроется не в самом механизме рассуждений, а в его обосновании. Как убедиться, что диффузионная модель действительно “понимает” задачу, а не просто воспроизводит паттерны, найденные в обучающем наборе? Следующим шагом видится не увеличение масштаба моделей, а углубление понимания латентного пространства. Необходимо научиться интерпретировать “шепот хаоса”, чтобы отделить истинные знания от случайных совпадений.

В конечном итоге, стоит признать, что визуальное рассуждение — это не столько задача машинного обучения, сколько попытка создать искусственный разум. И пока мы не поймем, как работает собственный разум, все наши модели будут оставаться лишь сложными, но все же эхо самих себя. Искусство не в том, чтобы создать иллюзию понимания, а в признании его отсутствия.

Оригинал статьи: https://arxiv.org/pdf/2603.12252.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-14 22:32

🚀 Квантовые новости