Рассуждения ИИ в таблицах: Новый вызов для больших языковых моделей

Автор: Денис Аветисян

Исследование демонстрирует, насколько сложно для современных систем искусственного интеллекта эффективно анализировать и делать выводы на основе данных, представленных в виде таблиц с неструктурированным текстом.

Существующие наборы данных для анализа таблиц зачастую ограничены в своей применимости к реальным, разнородным информационным системам, в то время как RUST-BENCH объединяет данные, охватывающие сразу несколько аспектов сложности – специфичность предметной области, длину таблиц, полуструктурированность и сложность запросов – что позволяет более адекватно оценивать и разрабатывать решения для практических задач.

Представлен RUST-BENCH – новый бенчмарк для оценки возможностей больших языковых моделей в решении задач многошагового рассуждения над полуструктурированными табличными данными.

Существующие бенчмарки для оценки логических способностей моделей обработки естественного языка (LLM) в работе с табличными данными часто не отражают сложности реальных сценариев. В данной работе представлена новая методика оценки, ‘RUST-BENCH: Benchmarking LLM Reasoning on Unstructured Text within Structured Tables’, включающая 7966 вопросов, основанных на 2031 реальной таблице из областей науки и спорта. Эксперименты показали, что LLM испытывают трудности при обработке неоднородных схем и выполнении многошаговых умозаключений, что указывает на ограничения существующих архитектур. Сможет ли RUST-BENCH стимулировать разработку более надежных и эффективных моделей для анализа полуструктурированных данных?

Сложность табличных данных: вызов для современных систем

Традиционные методы рассуждений над табличными данными испытывают затруднения при работе с возрастающей сложностью современных данных, особенно с сочетанием структурированной и неструктурированной информации. Появление “Полуструктурированных Таблиц” требует более надёжных и адаптивных фреймворков для логического вывода. Для оценки этих ограничений разработан RUST-BENCH – бенчмарк, включающий 2031 таблицу и 7966 пар вопрос-ответ.

Исследование демонстрирует, что решение сложных вопросов, основанных на табличных данных RUST-BENCH, требует многоступенчатого логического вывода, объединяющего временной, арифметический и контекстуальный анализ, а также согласованное использование разнородных данных из длинных, специализированных таблиц.

Каждая новая “революционная” таблица данных рано или поздно превратится в источник головной боли при масштабировании.

RUST-BENCH: стресс-тест для LLM

Для оценки способности больших языковых моделей (LLM) к рассуждениям над сложными табличными данными разработан новый бенчмарк – RUST-BENCH, включающий 2031 таблицу и 7966 пар вопрос-ответ. Бенчмарк фокусируется на гетерогенности, масштабе и многошаговом рассуждении, проверяя возможности моделей в реалистичных сценариях. Средняя таблица в RUST-BENCH-Science содержит 45.1 строку и 23 000 токенов, представляя собой значительную проблему для существующих LLM.

Сравнение производительности различных языковых моделей на RUST-BENCH и WikiTQ с использованием метрики EM показывает, что RUST-BENCH, в отличие от WikiTQ, представляет собой более сложный тест для языковых моделей, что приводит к снижению их производительности.

Усиление LLM для работы с таблицами: методы и подходы

Для повышения производительности больших языковых моделей (LLM) при работе с табличными данными используются подходы ‘Chain-of-Thought’ и ‘Program-of-Thought’, стимулирующие последовательные шаги рассуждений. Эти техники позволяют модели декомпозировать задачу на более мелкие части, улучшая точность. Стратегия ‘Chain-of-Table’ совершенствует методы промптинга, направляя LLM через структуру таблицы. Другие подходы, такие как ‘BlendSQL’, ‘TabSQLify’ и ‘NormTab’, интегрируют логику ‘SQL’ или нормализуют структуры таблиц. Фреймворки ‘ProTrix’ и ‘TableMaster’ используют планирование или комбинируют текстовые и символьные рассуждения для повышения качества результатов.

Анализ производительности различных языковых моделей с использованием подсказок Chain-of-Thought (CoT) показывает различия в эффективности при работе с неструктурированными и полуструктурированными данными.

Оценка качества рассуждений: метрики и инсайты

Для базовой оценки результатов в задачах логического вывода из таблиц используется метрика ‘Exact Match’, определяющая точное совпадение предсказанного ответа с эталонным. Для более детального анализа применяется ‘BLEU Score’, оценивающая степень перекрытия n-грамм. В качестве альтернативного подхода предложен метод ‘LLM-as-a-Judge’, использующий другую большую языковую модель для оценки логичности, согласованности и релевантности сгенерированных ответов. Эффективность рассмотренных методов была протестирована в рамках RUST-BENCH, что позволило получить ценные сведения о сильных и слабых сторонах существующих подходов.

Предложенный подход позволяет использовать языковую модель в качестве судьи для оценки других языковых моделей, выводя оценку LLM-score.

Каждая «революционная» технология завтра станет техдолгом, и эта гонка за точностью лишь откладывает неизбежное падение, но, по крайней мере, выглядит элегантно.

Статья представляет собой очередную попытку измерить то, что неизмеримо: способность машины к рассуждению. RUST-BENCH, как и все подобные бенчмарки, лишь иллюстрирует сложность работы с реальными данными – таблицами, содержащими не только структурированную информацию, но и хаотичные текстовые вставки. Это напоминает о вечной борьбе между теорией и практикой. Г.Х. Харди справедливо заметил: «Чистая математика – это не цель, а средство.» В данном случае, бенчмарки – это лишь инструменты для оценки, но они никогда не смогут полностью отразить реальные сложности, возникающие при работе с данными. Авторы пытаются оценить способность LLM к многоходовому выводу, но всегда найдётся «продакшен», который сломает элегантную теорию, столкнувшись с очередным неожиданным форматом или ошибкой в данных. И, как всегда, в итоге окажется, что всё новое – это просто старое с худшей документацией.

Что Дальше?

Представленный бенчмарк RUST-BENCH, как и любой новый инструмент измерения, лишь подсветил глубину пропасти между академическими демонстрациями и реальными проблемами. Полагать, что LLM «рассуждают» над табличными данными – это как верить в надёжность микросервисов. Всё рано или поздно ломается, вопрос лишь в масштабе катастрофы. Бенчмарк показал, что даже кажущаяся простота комбинирования структурированных и неструктурированных данных быстро превращается в кошмар гетерогенности. А многошаговый вывод? Это уже просто издевательство над нейронной сетью.

Следующим шагом, очевидно, станет увеличение масштаба RUST-BENCH. Больше таблиц, больше столбцов, больше «неожиданных» форматов данных. Но в погоне за количеством легко забыть о качестве. Более интересной задачей представляется разработка метрик, которые отражают не столько «правильность» ответа, сколько его устойчивость к изменениям в данных. Ведь в продакшене данные меняются постоянно, и идеальный ответ вчера может быть ошибкой сегодня.

В конечном счёте, всё сводится к старой истине: каждая «революционная» технология завтра станет техдолгом. Автоматизация спасёт нас? Вполне возможно. Но прежде нужно будет увидеть, как очередной скрипт удалит прод. А пока, RUST-BENCH – это просто ещё один кирпичик в бесконечном процессе оптимизации и отладки. И, как и любой кирпичик, он рано или поздно потрескается.

Оригинал статьи: https://arxiv.org/pdf/2511.04491.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-08 20:43

🚀 Квантовые новости