Автор: Денис Аветисян
Новое исследование демонстрирует возможности автоматического извлечения ключевых показателей эффективности из корпоративных отчетов об устойчивом развитии с использованием современных моделей искусственного интеллекта.

Автоматизированный анализ отчетов об устойчивом развитии для соответствия требованиям таксономии ЕС: извлечение и прогнозирование ключевых показателей эффективности.
Соблюдение требований Европейской таксономии представляет собой сложную и ресурсоемкую задачу для компаний. В своей работе ‘Automated Analysis of Sustainability Reports: Using Large Language Models for the Extraction and Prediction of EU Taxonomy-Compliant KPIs’ авторы исследуют возможности автоматизации анализа отчетов об устойчивом развитии с помощью больших языковых моделей (LLM). Результаты показали, что LLM успешно справляются с задачей качественной идентификации видов экономической деятельности, но демонстрируют существенные трудности в количественном прогнозировании ключевых показателей эффективности (KPI). Смогут ли LLM в будущем стать надежными помощниками экспертов в сфере ESG-отчетности, или потребуются дальнейшие исследования для преодоления выявленных ограничений?
Европейская Таксономия: Между Идеалами и Реальностью
Европейская таксономия, разработанная для стандартизации отчетности об устойчивом развитии, сталкивается с существенными трудностями при практической реализации. Хотя её целью является обеспечение прозрачности и сопоставимости данных, ручной анализ отчетов компаний, необходимых для соответствия требованиям таксономии, требует значительных временных и финансовых затрат. Этот процесс не только дорог, но и подвержен человеческим ошибкам, что снижает надежность получаемых результатов. Вследствие этого, компании и инвесторы испытывают сложности с точной оценкой соответствия деятельности критериям устойчивого развития, что замедляет приток капитала в действительно экологически и социально ответственные проекты и подрывает доверие к системе в целом. Автоматизация анализа данных становится критически важной для преодоления этих препятствий и обеспечения эффективного функционирования таксономии.
Современные методы анализа устойчивого развития компаний сталкиваются с существенными трудностями при извлечении и проверке ключевых показателей эффективности (KPI) из обширных и сложных отчетов. Автоматизированные системы часто не справляются с неоднородностью форматов, различиями в терминологии и отсутствием стандартизации данных, что требует значительных трудозатрат на ручную обработку. Это приводит к задержкам в оценке устойчивости, повышает риск ошибок и снижает достоверность информации, предоставляемой инвесторам и заинтересованным сторонам. Неспособность эффективно извлекать и верифицировать KPI ограничивает возможности точной оценки экологического и социального воздействия деятельности компаний, затрудняя принятие обоснованных инвестиционных решений и препятствуя развитию действительно устойчивого финансирования.
Точная оценка заявлений об устойчивом развитии играет ключевую роль в привлечении инвестиций и обеспечении реального воздействия на окружающую среду. Инвесторы все чаще стремятся направлять капитал в проекты, демонстрирующие подлинную приверженность экологическим и социальным принципам, однако, для принятия обоснованных решений требуется надежная и прозрачная информация. Неточные или вводящие в заблуждение заявления об устойчивости не только подрывают доверие инвесторов, но и препятствуют эффективному распределению ресурсов, необходимых для решения глобальных экологических проблем. Поэтому, разработка и внедрение строгих методологий оценки, основанных на объективных данных и независимой верификации, становятся необходимым условием для стимулирования ответственного инвестирования и достижения значимых результатов в области устойчивого развития.

Автоматизированное Извлечение KPI с Помощью LLM: Первые Шаги
Разработана система автоматизированного анализа отчетов об устойчивом развитии, использующая большие языковые модели (LLM) для выявления и извлечения релевантных экономических видов деятельности. Система предназначена для обработки текстовой информации из отчетов, определяя, какие виды экономической деятельности упоминаются и классифицируя их в соответствии с заранее определенными критериями. В процессе анализа LLM применяются для понимания контекста и семантического значения текста, что позволяет идентифицировать специфические экономические действия, описанные в отчете, и извлекать соответствующие данные для дальнейшей обработки и анализа. Это позволяет автоматизировать трудоемкий процесс ручного анализа отчетов и повысить эффективность сбора информации о деятельности компаний в области устойчивого развития.
Для категоризации экономической деятельности, описанной в отчетах об устойчивом развитии в соответствии с EU Taxonomy, используется метод многометочной классификации текстов. В ходе тестирования данной системы, использующей ограниченные метаданные о компаниях, был достигнут показатель F1-score в 0.311. Это указывает на умеренную точность классификации, поскольку значение F1-score близко к нулю, что говорит о том, что система выявляет лишь небольшую часть релевантных данных, и при этом допускает значительное количество ложных срабатываний.
Система, помимо классификации экономических видов деятельности, использует регрессионный анализ для прогнозирования количественных показателей, таких как выручка (Turnover), капитальные затраты (CapEx) и операционные расходы (OpEx). Однако, полученное значение коэффициента детерминации R^2 составило -0.2106. Отрицательное значение R^2 указывает на то, что предсказания модели менее точны, чем предсказания, основанные на среднем значении показателя, используемом в качестве базового уровня. Это означает, что регрессионная модель не обеспечивает улучшения в прогнозировании количественных показателей по сравнению с простым использованием среднего значения.

Агентские Рабочие Потоки: Повышение Надежности Автоматизации
Архитектура ‘Agentic Workflow’ предполагает итеративный процесс, состоящий из последовательных шагов для извлечения и классификации ключевых показателей эффективности (KPI). В отличие от однопроходной обработки, данный подход позволяет модели пересматривать и уточнять результаты на каждом этапе, используя промежуточные выводы для повышения точности. Каждый шаг включает в себя анализ предыдущего результата, выявление потенциальных ошибок или неточностей, и внесение корректировок для улучшения общей производительности. Такая итеративная рекурсия позволяет системе адаптироваться к сложностям входных данных и повышать надежность извлеченных KPI.
Использование многошагового, итеративного подхода в рамках ‘Agentic Workflow’ позволяет повысить точность извлечения и классификации ключевых показателей эффективности (KPI) за счет последовательной обработки и уточнения результатов. В отличие от однопроходной обработки данных языковой моделью (LLM), данный метод минимизирует ошибки, возникающие при первоначальном анализе, и позволяет модели самокорректироваться на последующих этапах. Такая архитектура особенно важна, поскольку однократное применение LLM может приводить к неточностям и упущениям, особенно в сложных задачах, требующих глубокого понимания контекста и логических связей.
В ходе тестирования, разработанный ‘Agentic Workflow’ продемонстрировал показатель F1-score в 0.3285. Этот результат незначительно превосходит показатель лучшей одношаговой модели, составивший 0.311. Несмотря на улучшение, полученные данные указывают на существенные ограничения в способности системы к количественному рассуждению и требуют дальнейшей оптимизации для достижения более высоких показателей точности в задачах, связанных с извлечением и классификацией ключевых показателей эффективности (KPI).
Для повышения производительности регрессии количественных KPI была применена методика обучения без учителя (Zero-Shot Learning). Однако, полученная модель продемонстрировала значительную некорректировку вероятностных оценок, что подтверждается значением Ошибки Ожидаемой Калибровки (ECE) в 0.684. Это указывает на существенное расхождение между предсказанной моделью уверенностью и фактической точностью результатов, что требует дальнейшей работы над калибровкой вероятностных оценок для обеспечения надежности количественных прогнозов.

Валидация и Путь к Масштабируемой Устойчивости: Реальность Автоматизации
Для объективной оценки эффективности разработанной системы, проводилось сопоставление результатов анализа с тщательно структурированным набором данных — “Структурированным Бенчмарк-Набором”. Этот набор включает в себя отчеты компаний, в которых верифицированы экономические показатели и ключевые показатели эффективности (KPI). Включение подтвержденных данных позволяет не только измерить точность автоматизированного анализа, но и обеспечивает надежную основу для выявления сильных и слабых сторон системы в контексте реальных бизнес-отчетов. Такой подход к валидации гарантирует, что оценки устойчивости, полученные системой, основаны на проверенной информации, что критически важно для привлечения инвестиций и стимулирования перехода к устойчивой экономике.
Для обеспечения объективной оценки автоматизированного анализа была разработана и применена “Структурированная База Данных для Сравнения”, содержащая отчеты компаний с подтвержденной экономической деятельностью и ключевыми показателями эффективности (KPI). Данная база данных позволила провести всестороннее тестирование системы, продемонстрировав ее точность и эффективность в извлечении и анализе данных. Результаты, полученные на основе этой базы, служат надежным подтверждением способности системы к автоматизированной оценке устойчивости, предоставляя возможность для независимой верификации и масштабирования разработанного подхода к анализу корпоративной отчетности.
Несмотря на значительный прогресс в области больших языковых моделей (LLM), проведенные исследования однозначно демонстрируют их полную неспособность к регрессии количественных ключевых показателей эффективности (KPI) в условиях «нулевого обучения». Это означает, что модели не могут самостоятельно извлекать и анализировать числовые данные из отчетов компаний для определения динамики показателей, даже при наличии контекста. Полученные результаты подчеркивают критическое ограничение современных LLM в области количественного анализа и указывают на необходимость разработки специализированных алгоритмов или методов обучения, способных обеспечить точную и надежную оценку KPI для повышения прозрачности и эффективности оценки устойчивого развития.
Упрощение оценки экологической и социальной устойчивости компаний посредством автоматизированного анализа открывает значительные возможности для привлечения инвестиций в ответственные проекты. Данный подход способен ускорить переход к устойчивой экономике, однако его эффективность напрямую зависит от способности систем к точному количественному анализу. Несмотря на прогресс в области обработки естественного языка, существующие модели демонстрируют существенные ограничения в регрессии количественных показателей эффективности (KPI) без предварительного обучения. Таким образом, для реализации полного потенциала автоматизированной оценки устойчивости необходимы дальнейшие исследования и усовершенствования в области количественного мышления и анализа данных, что позволит инвесторам принимать более обоснованные и эффективные решения.

Исследование автоматизации извлечения KPI из отчётов об устойчивом развитии, предложенное в данной работе, неизбежно сталкивается с проблемой несовершенства исходных данных. Авторы верно подмечают трудности в количественной оценке, что, впрочем, закономерно. Как однажды заметил Г.Х. Харди: «Математика — это искусство делать точные выводы из неточных предпосылок». Аналогично, и здесь: даже самые продвинутые языковые модели вынуждены работать с отчётами, которые, в силу своей природы, содержат субъективные оценки и не всегда чёткие формулировки. И, несмотря на успехи в идентификации качественных показателей, предсказание количественных KPI остаётся сложной задачей, подтверждающей тезис о том, что каждая «революционная» технология завтра станет техдолгом.
Что дальше?
Работа показала, что извлечение качественной информации о деятельности компаний из отчётов об устойчивом развитии с помощью больших языковых моделей — задача выполнимая. Однако, когда дело доходит до количественных показателей, необходимых для соответствия таксономии ЕС, энтузиазм быстро угасает. Неудивительно, ведь все эти KPI — лишь сложные производные от тех самых качественных описаний, которые языковые модели, в конечном счёте, и переваривают. Сейчас это назовут искусственным интеллектом и привлекут инвестиции, но не стоит забывать, что сложная система когда-то была простым bash-скриптом.
Очевидным следующим шагом представляется не столько совершенствование моделей извлечения, сколько создание более структурированных и стандартизированных отчётов. Компании, вероятно, будут вынуждены предоставлять данные в машиночитаемом формате, что, впрочем, звучит как утопия. Документация снова соврала, и все вернутся к ручному вводу данных, лишь обёрнутому в красивый интерфейс.
В конечном итоге, проблема заключается не в технологиях, а в человеческой природе. Технический долг — это просто эмоциональный долг с коммитами. Все эти модели — лишь инструменты, а качество данных и готовность компаний к прозрачности остаётся главным вызовом. И начинаешь подозревать, что они просто повторяют модные слова, чтобы привлечь внимание инвесторов.
Оригинал статьи: https://arxiv.org/pdf/2512.24289.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Квантовый Монте-Карло: Моделирование рождения электрон-позитронных пар
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- Геометрия на пределе: как алгоритмы оптимизации превосходят языковые модели
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Оптимизация партийных запросов: Метод имитации отжига против градиентных подходов
- Насколько важна полнота при оценке поиска?
- Сжатый код: как оптимизация влияет на «мышление» языковых моделей
- Белки под присмотром ИИ: новый подход к пониманию их функций
- Искусственный интеллект на службе науки: новый инструмент для анализа данных
- Переключение намагниченности в квантовых антиферромагнетиках: новые горизонты для терагерцовой спинтроники
2026-01-04 05:13