Отчетность об устойчивом развитии: Автоматизация анализа с помощью искусственного интеллекта

Автор: Денис Аветисян

Новое исследование демонстрирует возможности автоматического извлечения ключевых показателей эффективности из корпоративных отчетов об устойчивом развитии с использованием современных моделей искусственного интеллекта.

Сравнительный анализ фактических значений и прогнозов модели для ключевых показателей эффективности, соответствующих критериям таксономии ЕС, демонстрирует соответствие предложенного подхода и его потенциал для оценки соответствия экологическим стандартам.

Автоматизированный анализ отчетов об устойчивом развитии для соответствия требованиям таксономии ЕС: извлечение и прогнозирование ключевых показателей эффективности.

Соблюдение требований Европейской таксономии представляет собой сложную и ресурсоемкую задачу для компаний. В своей работе ‘Automated Analysis of Sustainability Reports: Using Large Language Models for the Extraction and Prediction of EU Taxonomy-Compliant KPIs’ авторы исследуют возможности автоматизации анализа отчетов об устойчивом развитии с помощью больших языковых моделей (LLM). Результаты показали, что LLM успешно справляются с задачей качественной идентификации видов экономической деятельности, но демонстрируют существенные трудности в количественном прогнозировании ключевых показателей эффективности (KPI). Смогут ли LLM в будущем стать надежными помощниками экспертов в сфере ESG-отчетности, или потребуются дальнейшие исследования для преодоления выявленных ограничений?

Европейская Таксономия: Между Идеалами и Реальностью

Европейская таксономия, разработанная для стандартизации отчетности об устойчивом развитии, сталкивается с существенными трудностями при практической реализации. Хотя её целью является обеспечение прозрачности и сопоставимости данных, ручной анализ отчетов компаний, необходимых для соответствия требованиям таксономии, требует значительных временных и финансовых затрат. Этот процесс не только дорог, но и подвержен человеческим ошибкам, что снижает надежность получаемых результатов. Вследствие этого, компании и инвесторы испытывают сложности с точной оценкой соответствия деятельности критериям устойчивого развития, что замедляет приток капитала в действительно экологически и социально ответственные проекты и подрывает доверие к системе в целом. Автоматизация анализа данных становится критически важной для преодоления этих препятствий и обеспечения эффективного функционирования таксономии.

Современные методы анализа устойчивого развития компаний сталкиваются с существенными трудностями при извлечении и проверке ключевых показателей эффективности (KPI) из обширных и сложных отчетов. Автоматизированные системы часто не справляются с неоднородностью форматов, различиями в терминологии и отсутствием стандартизации данных, что требует значительных трудозатрат на ручную обработку. Это приводит к задержкам в оценке устойчивости, повышает риск ошибок и снижает достоверность информации, предоставляемой инвесторам и заинтересованным сторонам. Неспособность эффективно извлекать и верифицировать KPI ограничивает возможности точной оценки экологического и социального воздействия деятельности компаний, затрудняя принятие обоснованных инвестиционных решений и препятствуя развитию действительно устойчивого финансирования.

Точная оценка заявлений об устойчивом развитии играет ключевую роль в привлечении инвестиций и обеспечении реального воздействия на окружающую среду. Инвесторы все чаще стремятся направлять капитал в проекты, демонстрирующие подлинную приверженность экологическим и социальным принципам, однако, для принятия обоснованных решений требуется надежная и прозрачная информация. Неточные или вводящие в заблуждение заявления об устойчивости не только подрывают доверие инвесторов, но и препятствуют эффективному распределению ресурсов, необходимых для решения глобальных экологических проблем. Поэтому, разработка и внедрение строгих методологий оценки, основанных на объективных данных и независимой верификации, становятся необходимым условием для стимулирования ответственного инвестирования и достижения значимых результатов в области устойчивого развития.

Анализ распределения шести ключевых показателей таксономии ЕС показывает, что показатели, соответствующие критериям, в основном сосредоточены около нуля, в то время как допустимые показатели демонстрируют более широкий спектр значений.

Автоматизированное Извлечение KPI с Помощью LLM: Первые Шаги

Разработана система автоматизированного анализа отчетов об устойчивом развитии, использующая большие языковые модели (LLM) для выявления и извлечения релевантных экономических видов деятельности. Система предназначена для обработки текстовой информации из отчетов, определяя, какие виды экономической деятельности упоминаются и классифицируя их в соответствии с заранее определенными критериями. В процессе анализа LLM применяются для понимания контекста и семантического значения текста, что позволяет идентифицировать специфические экономические действия, описанные в отчете, и извлекать соответствующие данные для дальнейшей обработки и анализа. Это позволяет автоматизировать трудоемкий процесс ручного анализа отчетов и повысить эффективность сбора информации о деятельности компаний в области устойчивого развития.

Для категоризации экономической деятельности, описанной в отчетах об устойчивом развитии в соответствии с EU Taxonomy, используется метод многометочной классификации текстов. В ходе тестирования данной системы, использующей ограниченные метаданные о компаниях, был достигнут показатель F1-score в 0.311. Это указывает на умеренную точность классификации, поскольку значение F1-score близко к нулю, что говорит о том, что система выявляет лишь небольшую часть релевантных данных, и при этом допускает значительное количество ложных срабатываний.

Система, помимо классификации экономических видов деятельности, использует регрессионный анализ для прогнозирования количественных показателей, таких как выручка (Turnover), капитальные затраты (CapEx) и операционные расходы (OpEx). Однако, полученное значение коэффициента детерминации $R^2$ составило -0.2106. Отрицательное значение $R^2$ указывает на то, что предсказания модели менее точны, чем предсказания, основанные на среднем значении показателя, используемом в качестве базового уровня. Это означает, что регрессионная модель не обеспечивает улучшения в прогнозировании количественных показателей по сравнению с простым использованием среднего значения.

Матрица парных графиков шести процентных показателей EU Taxonomy демонстрирует распределение каждого показателя с помощью оценки плотности ядра (КДЯ) по диагонали и взаимосвязь между парами показателей на внедиагональных графиках.

Агентские Рабочие Потоки: Повышение Надежности Автоматизации

Архитектура ‘Agentic Workflow’ предполагает итеративный процесс, состоящий из последовательных шагов для извлечения и классификации ключевых показателей эффективности (KPI). В отличие от однопроходной обработки, данный подход позволяет модели пересматривать и уточнять результаты на каждом этапе, используя промежуточные выводы для повышения точности. Каждый шаг включает в себя анализ предыдущего результата, выявление потенциальных ошибок или неточностей, и внесение корректировок для улучшения общей производительности. Такая итеративная рекурсия позволяет системе адаптироваться к сложностям входных данных и повышать надежность извлеченных KPI.

Использование многошагового, итеративного подхода в рамках ‘Agentic Workflow’ позволяет повысить точность извлечения и классификации ключевых показателей эффективности (KPI) за счет последовательной обработки и уточнения результатов. В отличие от однопроходной обработки данных языковой моделью (LLM), данный метод минимизирует ошибки, возникающие при первоначальном анализе, и позволяет модели самокорректироваться на последующих этапах. Такая архитектура особенно важна, поскольку однократное применение LLM может приводить к неточностям и упущениям, особенно в сложных задачах, требующих глубокого понимания контекста и логических связей.

В ходе тестирования, разработанный ‘Agentic Workflow’ продемонстрировал показатель F1-score в 0.3285. Этот результат незначительно превосходит показатель лучшей одношаговой модели, составивший 0.311. Несмотря на улучшение, полученные данные указывают на существенные ограничения в способности системы к количественному рассуждению и требуют дальнейшей оптимизации для достижения более высоких показателей точности в задачах, связанных с извлечением и классификацией ключевых показателей эффективности (KPI).

Для повышения производительности регрессии количественных KPI была применена методика обучения без учителя (Zero-Shot Learning). Однако, полученная модель продемонстрировала значительную некорректировку вероятностных оценок, что подтверждается значением Ошибки Ожидаемой Калибровки (ECE) в 0.684. Это указывает на существенное расхождение между предсказанной моделью уверенностью и фактической точностью результатов, что требует дальнейшей работы над калибровкой вероятностных оценок для обеспечения надежности количественных прогнозов.

Две архитектуры агентов различаются способом обработки информации: первая (слева) использует последовательный конвейер, а вторая (справа) - параллельную структуру для повышения точности предсказаний. — Две архитектуры агентов различаются способом обработки информации: первая (слева) использует последовательный конвейер, а вторая (справа) — параллельную структуру для повышения точности предсказаний.

Валидация и Путь к Масштабируемой Устойчивости: Реальность Автоматизации

Для объективной оценки эффективности разработанной системы, проводилось сопоставление результатов анализа с тщательно структурированным набором данных — “Структурированным Бенчмарк-Набором”. Этот набор включает в себя отчеты компаний, в которых верифицированы экономические показатели и ключевые показатели эффективности (KPI). Включение подтвержденных данных позволяет не только измерить точность автоматизированного анализа, но и обеспечивает надежную основу для выявления сильных и слабых сторон системы в контексте реальных бизнес-отчетов. Такой подход к валидации гарантирует, что оценки устойчивости, полученные системой, основаны на проверенной информации, что критически важно для привлечения инвестиций и стимулирования перехода к устойчивой экономике.

Для обеспечения объективной оценки автоматизированного анализа была разработана и применена “Структурированная База Данных для Сравнения”, содержащая отчеты компаний с подтвержденной экономической деятельностью и ключевыми показателями эффективности (KPI). Данная база данных позволила провести всестороннее тестирование системы, продемонстрировав ее точность и эффективность в извлечении и анализе данных. Результаты, полученные на основе этой базы, служат надежным подтверждением способности системы к автоматизированной оценке устойчивости, предоставляя возможность для независимой верификации и масштабирования разработанного подхода к анализу корпоративной отчетности.

Несмотря на значительный прогресс в области больших языковых моделей (LLM), проведенные исследования однозначно демонстрируют их полную неспособность к регрессии количественных ключевых показателей эффективности (KPI) в условиях «нулевого обучения». Это означает, что модели не могут самостоятельно извлекать и анализировать числовые данные из отчетов компаний для определения динамики показателей, даже при наличии контекста. Полученные результаты подчеркивают критическое ограничение современных LLM в области количественного анализа и указывают на необходимость разработки специализированных алгоритмов или методов обучения, способных обеспечить точную и надежную оценку KPI для повышения прозрачности и эффективности оценки устойчивого развития.

Упрощение оценки экологической и социальной устойчивости компаний посредством автоматизированного анализа открывает значительные возможности для привлечения инвестиций в ответственные проекты. Данный подход способен ускорить переход к устойчивой экономике, однако его эффективность напрямую зависит от способности систем к точному количественному анализу. Несмотря на прогресс в области обработки естественного языка, существующие модели демонстрируют существенные ограничения в регрессии количественных показателей эффективности (KPI) без предварительного обучения. Таким образом, для реализации полного потенциала автоматизированной оценки устойчивости необходимы дальнейшие исследования и усовершенствования в области количественного мышления и анализа данных, что позволит инвесторам принимать более обоснованные и эффективные решения.

Анализ отраслевой принадлежности компаний в наборе данных показывает разнообразие представленных секторов экономики.

Исследование автоматизации извлечения KPI из отчётов об устойчивом развитии, предложенное в данной работе, неизбежно сталкивается с проблемой несовершенства исходных данных. Авторы верно подмечают трудности в количественной оценке, что, впрочем, закономерно. Как однажды заметил Г.Х. Харди: «Математика — это искусство делать точные выводы из неточных предпосылок». Аналогично, и здесь: даже самые продвинутые языковые модели вынуждены работать с отчётами, которые, в силу своей природы, содержат субъективные оценки и не всегда чёткие формулировки. И, несмотря на успехи в идентификации качественных показателей, предсказание количественных KPI остаётся сложной задачей, подтверждающей тезис о том, что каждая «революционная» технология завтра станет техдолгом.

Что дальше?

Работа показала, что извлечение качественной информации о деятельности компаний из отчётов об устойчивом развитии с помощью больших языковых моделей — задача выполнимая. Однако, когда дело доходит до количественных показателей, необходимых для соответствия таксономии ЕС, энтузиазм быстро угасает. Неудивительно, ведь все эти KPI — лишь сложные производные от тех самых качественных описаний, которые языковые модели, в конечном счёте, и переваривают. Сейчас это назовут искусственным интеллектом и привлекут инвестиции, но не стоит забывать, что сложная система когда-то была простым bash-скриптом.

Очевидным следующим шагом представляется не столько совершенствование моделей извлечения, сколько создание более структурированных и стандартизированных отчётов. Компании, вероятно, будут вынуждены предоставлять данные в машиночитаемом формате, что, впрочем, звучит как утопия. Документация снова соврала, и все вернутся к ручному вводу данных, лишь обёрнутому в красивый интерфейс.

В конечном итоге, проблема заключается не в технологиях, а в человеческой природе. Технический долг — это просто эмоциональный долг с коммитами. Все эти модели — лишь инструменты, а качество данных и готовность компаний к прозрачности остаётся главным вызовом. И начинаешь подозревать, что они просто повторяют модные слова, чтобы привлечь внимание инвесторов.

Оригинал статьи: https://arxiv.org/pdf/2512.24289.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-04 05:13

🚀 Квантовые новости