Научные таблицы и искусственный интеллект: где кроется главная сложность?

Автор: Денис Аветисян

Новый бенчмарк SciTaRC демонстрирует, что современные системы искусственного интеллекта испытывают трудности не столько в планировании, сколько в точном выполнении вычислений при ответе на вопросы по научным таблицам.

Для оценки производительности моделей, таких как Qwen2-Audio, необходимо вычислить среднюю точность по различным настройкам для каждого языка и выявить язык, демонстрирующий наименьшие показатели, что позволяет определить наиболее сложные для анализа лингвистические особенности.

SciTaRC — это сложный набор данных для оценки ИИ-систем, требующих языкового мышления и сложных вычислений при анализе научных таблиц, и он выявляет, что основным препятствием является точность выполнения, а не планирование.

Несмотря на успехи в области искусственного интеллекта, надежное понимание и анализ научных табличных данных, требующих как лингвистического осмысления, так и сложных вычислений, остается сложной задачей. В настоящей работе представлена новая эталонная платформа ‘SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation’, предназначенная для оценки возможностей ИИ в решении вопросов, основанных на научных таблицах. Анализ показал, что современные модели, включая Llama-3.3-70B-Instruct, демонстрируют неудовлетворительные результаты, сталкиваясь с ошибками в более чем 65% случаев, причем ключевой проблемой является не планирование, а точное выполнение логических шагов. Сможем ли мы преодолеть этот «узкий проход» и создать ИИ, способный надежно извлекать знания из сложных научных данных?

Вызов Научного Разума: Преодолевая Ограничения ИИ

Несмотря на впечатляющую способность больших языковых моделей к воспроизведению информации, решение сложных научных вопросов требует гораздо большего, чем просто сопоставление паттернов. Эти модели демонстрируют высокий уровень эффективности в задачах, основанных на запоминании и извлечении фактов, однако столкнувшись с необходимостью анализа, логических выводов и применения знаний в новых контекстах, их производительность существенно снижается. Простое распознавание закономерностей в данных оказывается недостаточным для понимания глубинных связей и проведения сложных вычислений, которые часто требуются для ответа на научные вопросы, что подчеркивает потребность в более продвинутых подходах к искусственному интеллекту.

Традиционные методы анализа данных, как правило, испытывают затруднения при решении задач, требующих точных вычислений и многоступенчатого логического вывода на основе структурированных данных, таких как научные таблицы. В отличие от обработки неструктурированного текста, извлечение и корректная интерпретация численной информации, представленной в табличном виде, требует не просто распознавания паттернов, а полноценного понимания взаимосвязей между переменными и применения математических операций. Эта сложность проявляется в неспособности многих существующих систем автоматически выполнять вычисления, требующие комбинирования данных из различных строк и столбцов, или выводить новые значения на основе представленных данных, что существенно ограничивает их применимость в научных исследованиях и анализе больших данных.

Существующий разрыв в возможностях современных моделей искусственного интеллекта подчеркивает необходимость разработки надежных методов, объединяющих понимание естественного языка и числовую обработку данных. Несмотря на впечатляющие успехи в запоминании и воспроизведении информации, сложные научные вопросы, требующие точных вычислений и многоступенчатого анализа структурированных данных, остаются сложной задачей. Результаты, полученные на бенчмарке SciTaRC, где самые передовые модели демонстрируют точность лишь в 76.8%, наглядно иллюстрируют эту проблему. Это свидетельствует о том, что для полноценного решения научных задач недостаточно простого сопоставления с шаблонами; требуется глубокое понимание смысла и умение применять математические инструменты для анализа и интерпретации данных, представленных в различных форматах.

Анализ сложности показывает, что увеличение объема контекста обычно снижает производительность, однако лучшие модели демонстрируют улучшение в задачах, требующих сопоставления данных из нескольких таблиц, что подтверждается данными о количестве токенов <span class="katex-eq" data-katex-display="false">St_{tok}</span> и различных таблиц <span class="katex-eq" data-katex-display="false">St_{tab}</span>, представленными на графике с указанием размеров выборок (NN). — Анализ сложности показывает, что увеличение объема контекста обычно снижает производительность, однако лучшие модели демонстрируют улучшение в задачах, требующих сопоставления данных из нескольких таблиц, что подтверждается данными о количестве токенов $St_{tok}$ и различных таблиц $St_{tab}$ , представленными на графике с указанием размеров выборок (NN).

SciTaRC: Испытательный Полигон для Научного Разума

SciTaRC представляет собой специализированный набор данных, разработанный для оценки систем ответа на вопросы, основанных на научных табличных данных. Он включает в себя вопросы, требующие извлечения информации и выполнения расчетов на основе представленных таблиц, что позволяет оценить способность моделей к сложному логическому выводу и пониманию научных текстов. Набор данных предназначен для проверки пределов возможностей современных моделей машинного обучения в области обработки структурированной информации и решения задач, выходящих за рамки простого извлечения фактов из текста.

В основе SciTaRC лежит необходимость одновременного понимания естественного языка и выполнения сложных вычислений на основе данных, представленных в табличной форме. Задачи в наборе данных требуют от моделей не просто извлечения информации из текста вопроса, но и интерпретации числовых значений в таблицах, их сопоставления с текстовыми данными и проведения математических операций, таких как сложение, вычитание, умножение, деление, а также вычисление средних значений и процентов, для получения корректного ответа. Это предполагает способность модели к семантическому анализу вопроса и табличных данных, а также к применению соответствующих математических функций к числовым значениям.

Для оценки сложности вопросов в SciTaRC используются метрики «Сложность рассуждений» (Reasoning Complexity) и «Сложность входных данных» (Input Complexity). Первая оценивает количество и типы операций, необходимых для получения ответа из таблицы, включая арифметические вычисления и логические сравнения. Вторая учитывает размер таблицы, количество релевантных столбцов и сложность языкового запроса. Анализ по этим метрикам позволяет более точно определить слабые места современных моделей и направить усилия по их улучшению. Согласно результатам оценки, текущий уровень точности лучших моделей на SciTaRC составляет 76.8%.

Матрица согласованности моделей демонстрирует, что сложность вопросов (от самых простых вверху до самых сложных внизу) коррелирует с точностью ответов моделей, при этом нижняя серая полоса указывает на вопросы, которые не были решены ни одной системой.

Типичные Ошибки в Научном Поиске: Где Спотыкаются Модели

Анализ производительности моделей в задачах ответа на вопросы по данным, представленным в табличной форме, выявил частые ошибки локализации. Данные ошибки проявляются в неверном определении местоположения необходимой информации внутри таблицы, то есть, модель указывает на неверную ячейку или атрибут, содержащий ответ на поставленный вопрос. Это может быть связано с трудностями в сопоставлении элементов вопроса с конкретными столбцами и строками таблицы, особенно в случаях сложных таблиц с неоднозначными заголовками или большим количеством данных. Процент ошибок локализации является значительным и требует разработки более эффективных механизмов для точного определения релевантных данных в таблицах.

Ошибки в вычислениях возникают, когда модели выдают неверные числовые результаты при ответе на вопросы, требующие анализа данных из таблиц. Это проявляется в неправильном выполнении арифметических операций, неверном применении математических функций или некорректной интерпретации единиц измерения. Анализ показывает, что такие ошибки особенно часто возникают при работе с большими числами, процентными соотношениями или при необходимости выполнения нескольких последовательных вычислений. Необходимость повышения надежности численного рассуждения обусловлена тем, что даже небольшая ошибка в вычислениях может привести к значительному искажению конечного ответа и, следовательно, к неправильному решению научной задачи. Например, ошибка при расчете среднего значения $\overline{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$ может существенно повлиять на интерпретацию данных.

Ошибки понимания в задачах ответов на вопросы по научным данным свидетельствуют о неспособности модели корректно интерпретировать намерение вопроса или значение атрибутов таблицы. Данный тип ошибок проявляется в случаях, когда модель либо неправильно определяет, какая информация запрашивается в вопросе, либо неверно соотносит термины из вопроса с соответствующими столбцами или ячейками в таблице. Анализ таких ошибок указывает на необходимость улучшения механизмов семантического анализа и понимания естественного языка, используемых в моделях, а также на важность точного определения и представления метаданных таблицы для облегчения интерпретации данных.

Повышение вычислительной сложности, объема извлекаемой информации, горизонта планирования и сложности логики управления последовательно снижает точность алгоритма, что подтверждается анализом данных, представленных на графике.

Оценка Моделей и Бенчмаркинг: Измерение Научного Интеллекта

Для оценки производительности больших языковых моделей (LLM) был использован бенчмарк SciTaRC. В рамках тестирования были проанализированы модели GPT-5, Grok-4.1, DeepSeek-V3.2, Llama-3.3 и Qwen3. SciTaRC представляет собой набор задач, предназначенный для оценки способности моделей к пониманию и обработке научных текстов, а также к корректному ответу на вопросы, требующие логических выводов и знаний предметной области. Результаты оценки по данному бенчмарку позволяют сравнить различные модели и выявить их сильные и слабые стороны в контексте научных задач.

Метод “LLM как судья” (Large Language Model as Judge) представляет собой способ оценки корректности ответов, генерируемых другими языковыми моделями. В отличие от традиционных метрик, основанных на точном совпадении с эталонным ответом, данный подход позволяет проводить более детальный и нюансированный анализ. LLM, выступающая в роли судьи, оценивает не только фактическую точность ответа, но и его логическую связность, полноту и соответствие заданному контексту. Это обеспечивает более объективную и гибкую оценку, учитывающую различные аспекты качества ответа и позволяющую выявлять тонкие различия в производительности различных моделей.

Результаты тестирования на бенчмарке SciTaRC демонстрируют различия в производительности различных языковых моделей. В частности, модель Kimi-K2-Thinking показала улучшение точности на 24% по сравнению с базовым уровнем, что свидетельствует о её превосходстве в решении задач, оцениваемых данным бенчмарком. Кроме того, DeepSeek-R1-Distill превзошла Llama-3 71B на 10.5%, указывая на более высокую эффективность данной модели в обработке и анализе научной информации, представленной в SciTaRC. Данные результаты позволяют оценить сильные и слабые стороны каждой модели и определить наиболее подходящие варианты для конкретных задач.

Анализ кривых прироста производительности показывает, что модели кодирования демонстрируют стабильный прогресс на сложных задачах, в то время как обобщенные модели склонны к снижению эффективности на простых задачах (обозначено красным) и улучшению на ранее нерешенных (обозначено зеленым).

Будущие Направления: К Надежному Научному Разуму

Методики, такие как «Цепочка рассуждений» (Chain-of-Thought) и «Программа рассуждений» (Program-of-Thought), демонстрируют значительный потенциал в управлении процессом логического мышления искусственного интеллекта. Вместо прямого предоставления ответа, эти подходы побуждают модель последовательно излагать этапы решения задачи, имитируя человеческий процесс рассуждения. Это позволяет не только повысить точность ответов, особенно в сложных научных вопросах, но и обеспечивает возможность отслеживания и анализа логической цепочки, что важно для верификации и улучшения модели. Такой подход позволяет преодолеть ограничения, присущие моделям, которые оперируют исключительно прямыми соответствиями между вопросом и ответом, и приближает их к способности к действительному научному мышлению.

Проблема ошибок памяти представляет собой серьезное препятствие на пути к созданию надежных систем искусственного интеллекта, способных решать сложные научные задачи, требующие многоэтапных рассуждений. Исследования показывают, что модели часто допускают неточности не в самих логических выводах, а в последовательном применении промежуточных результатов, полученных на предыдущих этапах решения. Это означает, что даже если модель способна правильно выполнить каждый отдельный шаг, она может потерпеть неудачу в общей задаче из-за потери или искажения информации, необходимой для координации этих шагов. Преодоление этих ошибок памяти требует разработки новых механизмов, позволяющих моделям надежно хранить, извлекать и использовать промежуточные результаты, что является ключевым фактором для повышения их способности к последовательному и точному решению сложных научных проблем.

Перспективным направлением в развитии систем, способных отвечать на сложные научные вопросы, представляется сочетание нейронных и символьных методов рассуждений. Исследования показывают, что гибридный подход позволяет преодолеть ограничения, присущие каждой из этих парадигм по отдельности. Например, модель DeepSeek-V3.2 продемонстрировала улучшение точности на 1,9% при автономном планировании и на 6,2% при использовании «оракула» — внешней системы проверки корректности шагов. В то же время, модель Qwen3-30B, напротив, показала снижение точности на 5,4% при использовании автономного планирования, что подчеркивает важность тщательной разработки и оптимизации стратегий планирования в гибридных системах. Эти результаты свидетельствуют о том, что дальнейшее развитие гибридных подходов может значительно повысить надежность и обоснованность научных ответов, генерируемых искусственным интеллектом.

Представленная работа демонстрирует, что в области ответа на вопросы по научным таблицам, ключевым препятствием является не разработка плана решения, а его точное исполнение. Данный аспект особенно важен, поскольку требует от систем не просто понимания вопроса, но и безошибочного применения необходимых вычислений и логических операций. В связи с этим, высказывание Ады Лавлейс: «Я убеждена, что машина может делать все, что мы можем заставить её делать» приобретает особую актуальность. Ведь, несмотря на все достижения в области искусственного интеллекта, способность машины к безошибочному исполнению заданных инструкций остается определяющим фактором её эффективности, что подтверждается результатами, представленными в работе SciTaRC.

Куда Далее?

Представленная работа выявляет неожиданную простоту: не планирование, а точное исполнение является узким местом в решении задач, требующих анализа научных таблиц. Кажется, стремление к сложным архитектурам и замысловатым стратегиям часто заслоняет необходимость в безупречной точности вычислений. Ясность — это минимальная форма любви, и здесь она проявляется в требовании к безошибочному выполнению базовых операций.

Необходимость в более надежных механизмах верификации и отладки, особенно в контексте гибридных нейро-символьных систем, очевидна. Более того, оценка сложности табличных данных и вопросов требует более тонких метрик, чем просто количество ячеек или операций. Следует исследовать методы, позволяющие оценивать когнитивную нагрузку, связанную с задачей, и адаптировать стратегии решения соответствующим образом.

Попытки создать «универсальные» модели, способные решать любые задачи, по-видимому, обречены на неудачу. Совершенство достигается не когда нечего добавить, а когда нечего убрать. Возможно, более плодотворным путем является разработка специализированных систем, оптимизированных для конкретных типов научных данных и задач, где точность и надежность превалируют над обобщающей способностью.

Оригинал статьи: https://arxiv.org/pdf/2603.08910.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-12 03:20

🚀 Квантовые новости