Таблицы-призраки: Как выявлять научные данные, сгенерированные ИИ

Автор: Денис Аветисян

Новый метод позволяет обнаружить поддельные научные таблицы, созданные искусственным интеллектом, даже если они созданы неизвестными генераторами.

Фабрикованные научные таблицы характеризуются не просто аномальными числовыми значениями, но и нетипичным соотношением между числовыми данными и структурой таблицы, что указывает на системное искажение, а не на случайные ошибки.

Представлен фреймворк TAB-AUDIT, использующий несоответствие между структурой таблицы и ее числовым содержанием для выявления сфабрикованных данных.

Растущая угроза академического мошенничества, связанная с использованием искусственного интеллекта для генерации научных публикаций, требует новых подходов к выявлению фальсификаций. В данной работе, представленной в статье ‘TAB-AUDIT: Detecting AI-Fabricated Scientific Tables via Multi-View Likelihood Mismatch’, предлагается методика обнаружения сфабрикованных научных таблиц в эмпирических статьях по обработке естественного языка. Ключевым наблюдением является несоответствие между структурой таблицы и ее числовым содержимым, которое используется в рамках разработанного фреймворка TAB-AUDIT для достижения высокой точности обнаружения даже при использовании ранее неизвестных генераторов. Может ли анализ табличных данных стать надежным сигналом для выявления искусственно сгенерированных научных текстов и обеспечения целостности научных исследований?

Растущая Угроза: Искусственный Интеллект и Научная Фальсификация

В настоящее время наблюдается стремительное развитие больших языковых моделей (БЯМ), которые способны генерировать научные рукописи, отличающиеся высокой степенью правдоподобия. Этот прогресс представляет собой серьезную угрозу академической честности, поскольку сгенерированные тексты все труднее отличить от оригинальных исследований. БЯМ способны не только создавать связные тексты, но и имитировать научный стиль, включая формулировку гипотез, описание методологии и интерпретацию результатов. Возможность автоматизированного создания научных публикаций поднимает вопросы о достоверности и надежности научной литературы, а также требует разработки эффективных методов выявления текстов, созданных искусственным интеллектом, для поддержания целостности научного процесса.

Существующие методы обнаружения текстов, сгенерированных искусственным интеллектом, демонстрируют ограниченную эффективность при анализе научных публикаций, особенно когда речь идет о структурированных данных и таблицах. В отличие от свободных текстов, научные статьи характеризуются высокой степенью формализации, использованием специализированной терминологии и преобладанием числовых значений, представленных в табличной форме. Алгоритмы, успешно выявляющие неестественность в литературном тексте, часто не способны отличить правдоподобные, но автоматически сгенерированные данные в таблицах от результатов реальных исследований. Это связано с тем, что LLM (Large Language Models) способны создавать таблицы, соответствующие общепринятым научным стандартам, и заполнять их статистически корректными, хотя и вымышленными, значениями. Таким образом, стандартные инструменты обнаружения плагиата и определения авторства оказываются неэффективными, что создает серьезную угрозу для достоверности и целостности научной литературы.

Увеличение числа научных статей, созданных с помощью больших языковых моделей, создает серьезную угрозу для достоверности научной литературы и требует разработки надежных методов обнаружения. В условиях экспоненциального роста объема публикуемых исследований, выявление текстов, сгенерированных искусственным интеллектом, становится критически важной задачей для поддержания целостности научного процесса. Необходимость в таких инструментах обусловлена риском распространения недостоверной информации, плагиата и искажения результатов исследований, что, в свою очередь, может подорвать доверие к научным публикациям и замедлить прогресс в различных областях знаний. Разработка эффективных алгоритмов и методик выявления сгенерированного ИИ текста является ключевым шагом в обеспечении надежности и достоверности научной литературы.

Для создания эталонного набора сфабрикованных научных статей использовался конвейер генерации, основанный на анализе научной литературы.

TAB-AUDIT: Обнаружение Искусственных Таблиц

TAB-AUDIT — это разработанный нами фреймворк для обнаружения таблиц, сгенерированных искусственным интеллектом, основанный на принципе несоответствия мульти-видовой правдоподобности. Данный подход предполагает, что сгенерированные ИИ таблицы могут демонстрировать статистические аномалии при рассмотрении различных аспектов их содержимого и структуры. Фреймворк анализирует таблицу с нескольких точек зрения, оценивая вероятность каждого элемента и общей организации данных. Значительные расхождения между этими оценками сигнализируют о потенциальной искусственной природе таблицы, позволяя выявлять сфабрикованные данные.

Работа системы TAB-AUDIT напрямую зависит от точности извлечения таблиц из исходных документов. Для корректного анализа, табличные данные должны быть надежно отделены от окружающего текста и графики. Неточности на этапе извлечения, такие как ошибки в распознавании границ ячеек, неверная интерпретация структуры таблицы или пропуск данных, приводят к искажению результатов и могут привести к ложноположительным или ложноотрицательным выводам о подлинности таблицы. Поэтому, предварительная обработка документов и применение надежных алгоритмов извлечения таблиц являются критически важными этапами работы системы TAB-AUDIT.

В основе системы TAB-AUDIT лежит языковая модель-наблюдатель, которая оценивает правдоподобие содержания и структуры таблиц. Модель анализирует данные, представленные в таблице, и сопоставляет их с ожидаемыми закономерностями, выявляя несоответствия, характерные для таблиц, сгенерированных искусственным интеллектом. Оценка производится на основе вероятности последовательностей данных в ячейках и общей логической согласованности структуры таблицы. Высокая степень несоответствия между ожидаемым и наблюдаемым правдоподобием служит индикатором того, что таблица, вероятно, была создана искусственным интеллектом, а не получена из достоверного источника.

Представленная форма позволяет оценить подлинность таблицы данных.

Суть Обнаружения: Несоответствие Числового Скелета

В основе работы TAB-AUDIT лежит принцип несоответствия числового скелета (Numeric-Skeleton Mismatch), заключающийся в расхождении между структурной организацией таблицы и согласованностью её числового содержания. Искусственно сгенерированные таблицы часто демонстрируют это несоответствие, поскольку алгоритмы генерации могут создавать таблицы с корректной структурой (заголовки столбцов, строки), но при этом генерировать числовые данные, которые не согласованы с этой структурой или не имеют внутренней логической связи. Это проявляется в неправдоподобных значениях, отсутствии ожидаемых закономерностей или противоречивых данных в разных ячейках, что отличает их от таблиц, созданных человеком, где числовые данные обычно согласованы со структурой и отражают осмысленные отношения.

Несоответствие численного скелета (Numeric-Skeleton Mismatch) количественно оценивается посредством анализа логарифмической вероятности (Log Likelihood) содержимого таблицы. TAB-AUDIT использует этот показатель для различения таблиц, созданных человеком, и сгенерированных искусственным интеллектом. Логарифмическая вероятность позволяет оценить, насколько вероятно, что данные в таблице соответствуют ожидаемой структуре и взаимосвязям, характерным для человеческого авторства. Более низкая логарифмическая вероятность указывает на более высокую вероятность того, что таблица была сгенерирована ИИ, поскольку алгоритмы часто создают таблицы с менее согласованными или логичными числовыми данными, что приводит к снижению вероятности соответствия данным, ожидаемым от человека.

В основе TAB-AUDIT лежит использование Random Forest, обеспечивающего значение AUROC 0.987 при оценке таблиц, созданных в той же области данных (in-domain). Применение Qwen observer позволяет сохранить высокую точность обнаружения, демонстрируя AUROC 0.902 и AUPRC 0.855. Данные метрики подтверждают способность системы эффективно различать таблицы, созданные человеком, и сгенерированные искусственным интеллектом, даже при оценке таблиц из различных источников.

Для повышения точности определения таблиц, сгенерированных ИИ, система TAB-AUDIT использует модель случайного леса (Random Forest). Эта модель классифицирует научные работы на основе выявленных несоответствий в структуре и числовом содержании таблиц, которые предварительно оцениваются с помощью анализа логарифмической вероятности. Использование Random Forest позволяет не только выявить наличие несоответствий, но и классифицировать работы, что способствует более надежной идентификации таблиц, созданных искусственным интеллектом, по сравнению с таблицами, созданными человеком.

Эмпирическое кумулятивное распределение изменений логарифма перплексии (<span class="katex-eq" data-katex-display="false">\Delta\log\mathrm{PPL}</span>) показывает, что учет контекста научной статьи делает предсказание токенов таблицы более вероятным (отрицательные значения), в отличие от изолированной оценки. — Эмпирическое кумулятивное распределение изменений логарифма перплексии ( $\Delta\log\mathrm{PPL}$ ) показывает, что учет контекста научной статьи делает предсказание токенов таблицы более вероятным (отрицательные значения), в отличие от изолированной оценки.

FabTab: Эталон для Фабрикованных Таблиц

Был создан FabTab — первый эталонный набор данных, состоящий из сфабрикованных научных статей, содержащих таблицы. Этот набор предназначен для строгой оценки эффективности методов обнаружения таблиц, генерируемых искусственным интеллектом. Разработчики стремились создать реалистичные, но при этом искусственные научные работы, чтобы обеспечить надежный инструмент для проверки алгоритмов, способных выявлять признаки манипуляций и фальсификаций в научных публикациях. FabTab позволяет стандартизировать процесс оценки систем обнаружения, таких как TAB-AUDIT, и способствует поддержанию научной добросовестности в условиях растущего влияния технологий генеративного ИИ.

Для создания набора данных FabTab использовались современные языковые модели GPT-4o и GPT-5.2, позволившие сгенерировать научные статьи, имитирующие стиль и структуру реальных публикаций, но содержащие вымышленные данные. Этот подход позволяет комплексно оценить способность алгоритмов обнаруживать сфабрикованные материалы, поскольку модели генерируют тексты, отличающиеся высокой степенью реалистичности и сложности. В дополнение к сгенерированным статьям, FabTab включает в себя корпус текстов, написанных людьми, что обеспечивает возможность сравнительного анализа и позволяет точно оценить эффективность разработанных методов обнаружения подделок, а также выявить их слабые места.

Исследования показали, что разработанная система TAB-AUDIT демонстрирует высокую устойчивость к сложным методам генерации текстов искусственным интеллектом. На тестовом наборе, созданном с использованием модели GPT-5.2, система достигла показателя истинно-положительной доли (TPR) в 0.218 при уровне ложно-положительных срабатываний всего 5%. Кроме того, площадь под ROC-кривой (AUROC) составила 0.883, что свидетельствует о способности системы эффективно различать подлинные и сгенерированные тексты, даже при использовании самых современных алгоритмов создания контента. Эти результаты подтверждают надежность TAB-AUDIT в качестве инструмента для поддержания научной целостности и выявления манипуляций с данными в научных публикациях.

Разработка набора данных FabTab открывает возможности для стандартизированной оценки систем обнаружения сфабрикованных научных текстов, таких как TAB-AUDIT. Этот инструмент позволяет проводить объективное тестирование и сравнение различных подходов к выявлению манипуляций в научных публикациях, что особенно важно в условиях все более совершенных генеративных моделей искусственного интеллекта. Внедрение FabTab способствует поддержанию научной добросовестности и целостности, обеспечивая возможность верификации подлинности представленных данных и результатов исследований, и тем самым укрепляя доверие к научному знанию в целом.

Исследование представляет собой не просто обнаружение подделок, но и проверку самой системы генерации научных данных. Авторы, подобно инженерам-реверсерам, анализируют несоответствия между структурой таблиц и содержащимися в них числовыми значениями, выявляя «цифровые отпечатки» искусственного происхождения. Как однажды заметил Тим Бернерс-Ли: «Интернет не имеет границ, и это его сила». Эта мысль перекликается с подходом TAB-AUDIT, поскольку система не ограничена конкретными генераторами, а способна обнаруживать аномалии в любых таблицах, независимо от их происхождения. Подобно взлому системы для понимания её уязвимостей, TAB-AUDIT демонстрирует, что даже самые сложные системы могут быть раскрыты путем анализа внутренних несоответствий.

Куда двигаться дальше?

Представленная работа, выявляя несоответствия между структурой и содержанием научных таблиц, лишь приоткрывает завесу над всё более сложной реальностью. Реальность, в которой научные данные становятся ещё одним вариантом «открытого исходного кода», который необходимо декомпилировать и анализировать. TAB-AUDIT, безусловно, является шагом вперёд, но вопрос не в создании идеального детектора, а в понимании того, как сама ткань научной информации становится всё более подверженной манипуляциям. Успех в этой области — это не просто идентификация «FabTab», а развитие методов, способных предсказывать и предотвращать фабрикацию данных на более глубоком уровне.

Очевидным направлением является расширение области применения представленного подхода. Вместо фокусировки исключительно на таблицах, следует исследовать возможности выявления аналогичных несоответствий в других форматах представления данных — графиках, диаграммах, даже в текстовых описаниях экспериментов. Не менее важным представляется разработка методов, устойчивых к намеренному «зашумлению» данных, когда генератор пытается скрыть следы фабрикации, имитируя случайные ошибки.

В конечном счёте, задача заключается не в борьбе с искусственным интеллектом, а в создании системы, способной адаптироваться к его эволюции. Наука, как и любой сложный код, постоянно рефакторится. И задача исследователя — не просто находить баги, а понимать логику, стоящую за изменениями.

Оригинал статьи: https://arxiv.org/pdf/2603.19712.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-23 18:47

🚀 Квантовые новости