Автор: Денис Аветисян
Новое исследование представляет комплексный подход к улучшению количественных рассуждений больших языковых моделей в сфере финансов.
Представлен бенчмарк Cognitive Complexity и нейро-символический фреймворк Financial-PoT для повышения надежности и точности финансовых расчетов.
Несмотря на впечатляющие успехи в семантических задачах, большие языковые модели демонстрируют существенные трудности при решении количественных задач в финансовой сфере, подвергаясь так называемому «когнитивному коллапсу». В статье ‘Bridging the Arithmetic Gap: The Cognitive Complexity Benchmark and Financial-PoT for Robust Financial Reasoning’ представлен новый эталонный набор данных (Cognitive Complexity Benchmark) и нейро-символическая архитектура (Financial-PoT), направленные на преодоление этой проблемы. Предложенный подход, основанный на разделении семантического понимания и арифметических вычислений, позволяет повысить надежность и точность моделей при решении сложных финансовых задач, улучшая показатели Qwen3-235B с 59.7% до 67.3%. Может ли подобная архитектурная декомпозиция стать ключевым фактором повышения надежности в других областях, требующих точного соответствия между семантическим анализом и количественными вычислениями?
Пределы масштаба: большие языковые модели и финансовый анализ
Несмотря на впечатляющие способности больших языковых моделей (БЯМ) к пониманию и генерации текста, их возможности в сфере количественного анализа зачастую оказываются ограниченными. БЯМ демонстрируют высокую эффективность в обработке семантической информации, успешно интерпретируя смысл и контекст, однако при столкновении с задачами, требующими сложных вычислений и логических операций над числами, их производительность резко снижается. Это проявляется в неспособности решать даже относительно простые математические задачи, а также в склонности к ошибкам при анализе финансовых данных и прогнозировании. В то время как БЯМ могут успешно оперировать с концепциями и терминами, связанными с финансами, точное выполнение вычислений и применение математических принципов представляет для них значительную трудность, что ограничивает их применение в областях, требующих высокой точности и надежности количественного анализа.
В ходе анализа возможностей больших языковых моделей (LLM) при решении финансовых задач, исследователи обнаружили тенденцию к возникновению так называемых “арифметических галлюцинаций” — ситуаций, когда модели выдают математически неверные ответы, несмотря на кажущуюся логичность рассуждений. Этот феномен усугубляется с ростом сложности задачи, приводя к более широкому “когнитивному коллапсу”, при котором способность модели к последовательному и корректному решению задач резко снижается. Ошибки перестают быть единичными просчетами и превращаются в системные нарушения логики, что ставит под сомнение надежность LLM в контексте финансовых вычислений и анализа, требующих высокой точности и безошибочности.
Несмотря на кажущуюся эффективность методов, таких как «Цепочка рассуждений» и «Программа рассуждений», в решении сложных финансовых задач, эти подходы оказываются поверхностными и не устраняют фундаментальные ограничения больших языковых моделей. Хотя они могут временно улучшить результаты, представляя вычисления в виде последовательных шагов, эти техники не способны обеспечить надежное и точное количественное рассуждение при увеличении сложности задачи. По сути, они лишь маскируют, а не решают проблему, поскольку модели продолжают испытывать трудности с базовой арифметикой и логикой, что приводит к неточностям и «галлюцинациям» даже в относительно простых финансовых сценариях. Эти методы не затрагивают корень проблемы — ограниченную способность моделей к абстрактному мышлению и манипулированию числовыми данными, что делает их ненадежными для критически важных финансовых приложений.
Financial-PoT: нейро-символический подход к финансам
Financial-PoT — это фреймворк, построенный на нейро-символической архитектуре, который разделяет этапы семантического анализа и символьного исполнения. Данный подход предполагает разделение задачи на два последовательных этапа: сначала входящий финансовый вопрос преобразуется в структурированное семантическое представление, а затем это представление используется для выполнения точного символьного вычисления. Разделение этих процессов позволяет использовать сильные стороны обеих парадигм: нейронные сети обеспечивают гибкость в понимании естественного языка, а символьное исполнение гарантирует точность и воспроизводимость результатов вычислений. Такая архитектура позволяет избежать проблем, возникающих при использовании сквозных (end-to-end) моделей, где понимание языка и вычисления выполняются одной нейронной сетью.
В основе Financial-PoT лежит итеративный двухфазный подход, объединяющий преимущества нейронных сетей и точных вычислений. На первом этапе нейронная сеть выполняет семантический анализ финансового запроса, определяя его намерение и извлекая ключевые параметры. На втором этапе, вместо непосредственного вычисления ответа нейронной сетью, извлеченные параметры используются для построения и выполнения формального выражения в символьной системе. Этот процесс повторяется итеративно: результаты символьного вычисления используются для уточнения семантического анализа, что позволяет корректировать ошибки и повышать точность. Такой подход позволяет использовать гибкость нейронных сетей для понимания естественного языка и надежность точных вычислений для получения корректных финансовых результатов.
Разделение семантического анализа и символьного выполнения в Financial-PoT значительно повышает надежность системы и снижает риск возникновения арифметических галлюцинаций, характерных для сквозных LLM-подходов. В сквозных моделях, где все этапы обработки выполняются одной нейронной сетью, ошибки в семантическом понимании могут приводить к неверным арифметическим операциям и, как следствие, к неточным финансовым расчетам. В Financial-PoT, четкое разделение позволяет независимо верифицировать семантический анализ и результаты символьного выполнения, что обеспечивает большую точность и предсказуемость в финансовых приложениях, требующих высокой степени достоверности.
Механизм в действии: разбор, исполнение и валидация
Извлечение семантических переменных представляет собой процесс автоматического выявления и извлечения ключевых данных из финансовых документов, таких как годовые отчеты (например, выручка, чистая прибыль, активы, обязательства). Эти извлеченные данные структурируются и преобразуются в формат, понятный символьному движку, который использует их в качестве входных данных для дальнейшего анализа и вычислений. В частности, извлекаются числовые значения и соответствующие им финансовые показатели, обеспечивая основу для расчета ключевых финансовых метрик и проведения углубленного финансового анализа.
Для обеспечения безопасности и воспроизводимости вычислений, сгенерированный код выполняется в изолированной Python-среде, известной как “песочница”. Данная среда ограничивает доступ к системным ресурсам и внешним библиотекам, предотвращая выполнение потенциально вредоносного кода и несанкционированный доступ к данным. Кроме того, “песочница” обеспечивает детерминированное выполнение, то есть при одинаковых входных данных всегда генерирует идентичные результаты, исключая влияние факторов, таких как порядок выполнения операций или состояние оперативной памяти. Это критически важно для финансового анализа, где точность и предсказуемость вычислений являются первостепенными.
Система способна вычислять ключевые финансовые показатели, такие как свободный денежный поток (Free Cash Flow — FCF) и темпы роста выручки. Расчет FCF производится на основе операционного денежного потока, за вычетом капитальных затрат, что позволяет оценить денежные средства, доступные компании для финансирования операций, погашения долгов и выплаты дивидендов. Темпы роста выручки рассчитываются как процентное изменение выручки за определенный период, предоставляя информацию о динамике продаж компании. Высокая точность вычислений подтверждается использованием верифицированных финансовых моделей и алгоритмов, что обеспечивает надежность и достоверность полученных результатов.
В процессе начального семантического разбора финансовых документов, Financial-PoT использует большие языковые модели (LLM), такие как Qwen3235B и GPT-oss-120B. Эти модели обеспечивают понимание естественного языка, что позволяет извлекать ключевые данные и взаимосвязи из неструктурированного текста. Применение LLM позволяет системе эффективно идентифицировать финансовые показатели, термины и отношения между ними, преобразуя неструктурированные данные в структурированный формат, пригодный для дальнейшей обработки символьным движком.
Бенчмаркинг когнитивной сложности в финансах
Для более тонкой оценки способности к рассуждению в финансовой сфере разработан эталон сложности познавательных задач — Cognitive Complexity Benchmark. Он структурирует задачи, основываясь на трех ключевых параметрах: источнике данных, сложности установления взаимосвязей между данными и единице измерения результата. Такая стратификация позволяет не просто оценить общий уровень интеллекта, но и выявить, какие именно аспекты финансового анализа представляют наибольшую сложность для современных моделей. В частности, различается, насколько сложно модели работать с различными типами данных — от простых таблиц до неструктурированных текстов — и насколько успешно она может выводить сложные финансовые показатели из этих данных. Благодаря этому подходу, оценка способности к рассуждению становится более детализированной и позволяет точно определить области, требующие дальнейшего улучшения в алгоритмах искусственного интеллекта.
Систематическое изменение параметров, таких как источник данных, сложность сопоставления и единица результата, позволяет выявить факторы, приводящие к «когнитивному коллапсу» — снижению способности модели к рассуждениям при усложнении задачи. Исследование направлено на оценку устойчивости Financial-PoT — специализированной модели для финансового анализа — к таким сложностям. Варьируя эти измерения, ученые смогли определить, какие аспекты финансовых задач наиболее критичны для моделей, и оценить, насколько эффективно Financial-PoT сохраняет свою работоспособность при увеличении сложности. Это позволило не только улучшить саму модель, но и глубже понять пределы ее возможностей в контексте автоматизации финансовых процессов и принятия решений.
Исследования показали, что применение Financial-PoT позволило значительно повысить точность модели Qwen3235B при выполнении задач из Cognitive Complexity Benchmark — с 59.7% до 67.3%. Данный результат демонстрирует существенное превосходство над стандартными большими языковыми моделями в контексте сложных финансовых рассуждений. Улучшение точности указывает на способность Financial-PoT эффективно обрабатывать и анализировать финансовые данные, требующие многоступенчатого логического вывода и понимания специфических финансовых концепций. Повышенная производительность открывает перспективы для автоматизации сложных финансовых процессов, включая анализ, оценку рисков и принятие обоснованных решений.
Исследования показали, что применение Financial-PoT обеспечивает значительное повышение точности решения задач, требующих сложного финансового анализа. В частности, зафиксировано десятикратное увеличение точности в задачах высокой сложности, где стандартные модели демонстрируют ограниченные возможности. Применение Financial-PoT позволило увеличить среднюю точность модели Qwen3-32B с 35.0% до 48.9%, что свидетельствует о существенном улучшении способности модели к рассуждениям в финансовой сфере и открывает новые перспективы для автоматизации сложных финансовых процессов.
Повышение производительности, демонстрируемое в ходе исследований, открывает широкие перспективы для автоматизации ключевых процессов в финансовой сфере. Автоматизация финансового анализа, оценки рисков и принятия решений становится не просто возможной, но и более эффективной, что позволяет значительно сократить временные и ресурсные затраты. Внедрение подобных систем может привести к более точному прогнозированию рыночных тенденций, выявлению потенциальных угроз и оптимизации инвестиционных стратегий. Повышенная точность и скорость обработки данных, обеспечиваемые автоматизированными системами, позволяют специалистам сосредоточиться на более сложных задачах, требующих критического мышления и экспертных знаний, а также снижают вероятность человеческих ошибок в расчетах и прогнозах, что особенно важно в условиях высокой волатильности финансовых рынков.
Будущее финансового ИИ: за пределами масштабирования
Успех Financial-PoT демонстрирует, что дальнейшее простое увеличение масштаба языковых моделей (БЯМ) недостаточно для достижения подлинного финансового интеллекта. Вместо этого, ключевым направлением развития становится интеграция символьных рассуждений — способности системы логически выводить заключения и проверять свои вычисления, опираясь на формальные правила и знания о финансовой сфере. Такой подход позволяет не просто распознавать закономерности в данных, но и понимать причины и следствия, что критически важно для принятия обоснованных финансовых решений и обеспечения их прозрачности. В отличие от БЯМ, полагающихся на статистические вероятности, символьные системы способны к дедуктивному мышлению, гарантируя корректность и надежность полученных результатов, и открывая путь к созданию действительно интеллектуальных финансовых инструментов.
Предстоящие исследования направлены на существенное расширение тестового набора Financial-PoT, чтобы охватить более широкий спектр финансовых ситуаций и усложнить задачи, с которыми сталкивается искусственный интеллект. Это предполагает включение в benchmark не только стандартных рыночных данных, но и редких, экстремальных сценариев, а также более сложных финансовых инструментов и регуляторных требований. Расширение позволит более точно оценить способность систем ИИ к адаптации, критическому мышлению и принятию обоснованных решений в условиях неопределенности, а также выявить слабые места в их логике и алгоритмах. Усложнение тестовых сценариев позволит создать более надежные и безопасные финансовые системы, способные эффективно функционировать в динамично меняющейся экономической среде.
Предвидится, что будущее искусственного интеллекта в финансах связано не только с обработкой данных, но и с обеспечением строгой проверки вычислений и предоставлением прозрачных, аудируемых результатов. Системы, способные к самопроверке и предоставлению обоснований для каждого шага расчета, откроют новую эру доверия к автоматизированным финансовым решениям. Это позволит не просто получать ответы, но и понимать, как эти ответы были получены, что критически важно для соблюдения нормативных требований и минимизации рисков. Такая прозрачность позволит специалистам в области финансов и регуляторам более эффективно контролировать и оценивать работу алгоритмов, гарантируя их надежность и точность в сложных финансовых сценариях. В перспективе, подобные системы смогут самостоятельно выявлять и исправлять ошибки, обеспечивая бесперебойную и безопасную работу финансовых рынков.
Данный подход обещает революционные изменения в процессах принятия финансовых решений, открывая путь к беспрецедентной эффективности, точности и, что особенно важно, доверию. Интеграция символьных рассуждений с возможностями больших языковых моделей позволяет создавать системы, способные не только обрабатывать огромные массивы финансовых данных, но и логически обосновывать свои выводы. Это, в свою очередь, ведет к снижению рисков, оптимизации инвестиционных стратегий и повышению прозрачности операций. В перспективе, подобные системы смогут самостоятельно выявлять и корректировать ошибки, обеспечивая надежность и достоверность финансовых прогнозов и рекомендаций.
Исследование, представленное в данной работе, стремится к упрощению сложного процесса финансового рассуждения для больших языковых моделей. Авторы предлагают подход, направленный на разделение семантического понимания и арифметических вычислений, что позволяет повысить надежность и точность результатов. Как однажды заметил Г.Х. Харди: «Чистая математика — это не просто набор результатов, а способ мышления». Эта фраза отражает суть представленного исследования: не просто получение числового ответа, а построение логически обоснованного процесса рассуждения, способного противостоять «когнитивному коллапсу» и обеспечивать стабильность в сложных финансовых задачах. Акцент на декомпозиции проблемы и упрощении вычислений является ключом к достижению совершенства в данной области.
Что дальше?
Представленная работа лишь осторожно коснулась краешка проблемы. Устранение “когнитивного коллапса” — не победа над арифметической ошибкой, а признание её симптоматичности. Система, нуждающаяся в специальном “побуждении к мышлению” (Program-of-Thought), уже проиграла. Истинная ясность требует избавления от необходимости в подобных костылях. Необходимо признать, что текущие языковые модели — лишь изощренные статистические оракулы, а не рациональные агенты.
Следующим шагом представляется не усложнение архитектур, а радикальное упрощение. Поиск инвариантных представлений, не зависящих от конкретной реализации арифметических операций, — задача, достойная внимания. Иначе говоря, необходимо отделить семантическое понимание от вычислительной механики. Идеальное решение — понятие, которое можно передать без объяснений, без необходимости принуждать машину к “логическому выводу”.
Попытки создания “нейро-символического” гибрида — лишь временное решение. До тех пор, пока система не научится самостоятельно выделять фундаментальные принципы и строить логические цепочки, она останется хрупкой и подверженной ошибкам. Понятность — это вежливость, и система, требующая подробных инструкций, лишена этой добродетели.
Оригинал статьи: https://arxiv.org/pdf/2601.21157.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Адаптация моделей к новым данным: квантильная коррекция для нейросетей
- Сердце музыки: открытые модели для создания композиций
- Где «смотрят» большие языковые модели: новый взгляд на визуальное понимание
- Интеллектуальный поиск научных статей: новый подход к исследованию литературы
- Голос в переводе: как нейросети учатся понимать речь
- Игры без модели: новый подход к управлению в условиях неопределенности
- Цифровые двойники: первый опыт обучения
- Ищем закономерности: Новый пакет TSQCA для R
- Эффективная память для больших языковых моделей: новый подход LOOKAT
- Эволюция под контролем: эксперименты с обучением с подкреплением в генетическом программировании
2026-01-31 00:22