Искусственный интеллект пишет науку: политика журналов бессильна

Автор: Денис Аветисян


Несмотря на растущее использование ИИ в академической среде, существующие правила не обеспечивают прозрачности и не сдерживают распространение практики написания текстов с помощью искусственного интеллекта.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу

Анализ показывает значительный разрыв между фактическим использованием ИИ в научных публикациях и степенью его декларирования авторами.

Несмотря на широкое распространение генеративных моделей искусственного интеллекта в научной среде, эффективность политик журналов в регулировании их использования остаётся под вопросом. В работе «Academic journals’ AI policies fail to curb the surge in AI-assisted academic writing» проанализированы данные по более чем 5 миллионам публикаций и 5 тысячам журналов, что позволило оценить реальное влияние принятых правил. Полученные результаты демонстрируют, что, несмотря на то, что 70% журналов внедрили политики, требующие раскрытия информации об использовании ИИ, его применение в академической письменности продолжает стремительно расти, без существенной разницы между журналами с политиками и без. Смогут ли этические рамки, адаптированные к новой реальности, обеспечить ответственное внедрение ИИ в научные исследования и повысить прозрачность публикаций?


Искусственный интеллект в науке: вызов академической этике

В академической среде наблюдается растущая интеграция генеративных моделей искусственного интеллекта, таких как ChatGPT, в процессы научной работы. Данное явление, хотя и открывает новые возможности для автоматизации рутинных задач и ускорения исследований, вызывает серьезные вопросы относительно авторства и оригинальности научных текстов. Использование подобных инструментов ставит под сомнение традиционные представления о вкладе автора, поскольку значительная часть текста может быть создана не человеком, а алгоритмом. Это требует переосмысления существующих норм академической этики и разработки новых критериев оценки научной работы, учитывающих роль искусственного интеллекта и обеспечивающих достоверность и надежность научных результатов. Появление инструментов, способных генерировать связные и убедительные тексты, ставит задачу определения границ между помощью ИИ и плагиатом, требуя от научного сообщества активного обсуждения и выработки четких правил.

В связи с быстрым распространением инструментов искусственного интеллекта, используемых в академической среде, возникла острая необходимость в разработке надежных методов обнаружения текстов, сгенерированных этими системами. Существующие программы для проверки на плагиат, основанные на сравнении с существующими источниками, оказались неэффективными в выявлении контента, созданного языковыми моделями, поскольку он часто представляет собой оригинальную комбинацию слов и идей, а не прямую копию. Это создает серьезные проблемы для поддержания академической честности и требует принципиально новых подходов к анализу текста, способных определить признаки, указывающие на машинное происхождение, такие как статистические закономерности в использовании слов и фраз, а также стилистические особенности, несвойственные человеческому письму.

Определение доли текста, сгенерированного большими языковыми моделями (LLM), в научной рукописи представляет собой сложную аналитическую задачу. Существующие инструменты обнаружения плагиата не способны эффективно выявлять контент, созданный искусственным интеллектом, поскольку LLM генерируют уникальные тексты, а не копируют существующие источники. Для решения этой проблемы требуется разработка новых методик, основанных на анализе стилистических особенностей, паттернов использования слов и структур предложений, характерных для LLM. Исследователи предлагают использовать метрики, оценивающие предсказуемость текста, сложность синтаксиса и статистические отклонения от нормативных значений для человеческого письма. Успешное развитие таких подходов позволит более точно оценивать вклад LLM в научные работы и поддерживать принципы академической честности в эпоху повсеместного распространения искусственного интеллекта.

Методы выявления текстов, созданных искусственным интеллектом

Исследователи используют сложные методы, такие как анализ частоты ключевых слов, генерируемых искусственным интеллектом, и анализ избыточных слов, для выявления закономерностей, характерных для текстов, созданных ИИ. Анализ частоты ключевых слов определяет, насколько часто определенные слова или фразы, типичные для ИИ-генерации, встречаются в тексте. Анализ избыточных слов фокусируется на идентификации повторяющихся или ненужных слов и фраз, которые могут указывать на отсутствие человеческого редактирования и логической связности, свойственное текстам, созданным моделями ИИ. Комбинация этих подходов позволяет выявить статистические аномалии и отличия от естественного языка, указывающие на вероятное авторство ИИ.

Методы выявления контента, сгенерированного искусственным интеллектом, часто используют статистические техники, такие как метод максимального правдоподобия (Maximum Likelihood Estimation, MLE), для точной оценки вероятности авторства ИИ. MLE позволяет определить параметры вероятностной модели, наилучшим образом описывающей наблюдаемый текст, и сравнить вероятность того, что текст был сгенерирован ИИ, с вероятностью, что он был создан человеком. Оценка производится на основе анализа частоты встречаемости определенных лингвистических признаков в тексте, при этом $P(\theta|x)$ представляет собой вероятность параметров модели $\theta$ при заданном тексте $x$. Более высокая вероятность указывает на более высокую степень уверенности в том, что текст был сгенерирован ИИ.

Полный текстовый анализ является необходимым условием для всесторонней оценки вероятности автоматической генерации текста. В отличие от поверхностных проверок, фокусирующихся на отдельных фразах или ключевых словах, полный анализ учитывает статистические закономерности, присущие всему тексту, включая частотность слов, сложность синтаксиса и семантическую согласованность. Такой подход позволяет выявить тонкие признаки, указывающие на искусственное происхождение текста, которые могут быть незаметны при частичном анализе. Использование методов статистического моделирования в рамках полного анализа значительно повышает точность определения авторства, позволяя отличать сгенерированный контент от написанного человеком.

Тенденции в распространении контента, сгенерированного ИИ

Анализ данных показывает непропорциональный рост доли контента, сгенерированного искусственным интеллектом, в области физических наук. В частности, наблюдается более высокая скорость увеличения использования инструментов ИИ при создании научных публикаций в данной области по сравнению с другими дисциплинами. Это может свидетельствовать о большей зависимости исследователей в физических науках от автоматизированных инструментов для генерации текста, анализа данных или составления отчётов. Данная тенденция может быть обусловлена сложностью и объёмом данных, характерных для физических наук, а также необходимостью быстрого распространения результатов исследований в данной области. Показатели роста доли ИИ-контента в физических науках превышают средние показатели по всем научным дисциплинам на $x\%$ (точные данные требуют дополнительного анализа).

Анализ данных показывает, что журналы открытого доступа демонстрируют более быстрый рост доли контента, сгенерированного искусственным интеллектом, по сравнению с традиционными изданиями. Этот тренд, вероятно, обусловлен комбинацией факторов, включая менее строгий контроль качества и рецензирования в некоторых журналах открытого доступа, а также потенциально отличную культуру авторов, более склонную к использованию автоматизированных инструментов для создания контента. Наблюдается, что скорость увеличения доли AI-контента в журналах открытого доступа превышает аналогичный показатель в изданиях с закрытым доступом на протяжении последних двух лет, что подтверждается статистическими данными, полученными в результате анализа публикаций за 2022-2023 годы.

Анализ показывает, что в странах, где основным языком не является английский, наблюдается более быстрый рост доли контента, созданного с использованием искусственного интеллекта (ИИ), по сравнению с англоязычными странами. Данная тенденция проявляется в значительно более высоких темпах роста — в некоторых случаях, превышающих показатели англоязычных стран в несколько раз. Это может быть связано с особенностями доступа к технологиям ИИ, языковыми барьерами при использовании англоязычных инструментов, или с иным подходом к научному письму и публикации в неанглоязычном научном сообществе. Необходимы дополнительные исследования для определения точных причин данного явления и оценки его долгосрочных последствий для глобальной научной коммуникации.

Прозрачность и последствия для научной политики

Детальный анализ научной литературы выявил значительный разрыв между декларированием использования инструментов искусственного интеллекта и фактическим присутствием контента, сгенерированного ИИ, в опубликованных работах. Несмотря на то, что приблизительно 70% научных журналов уже разработали и внедрили политики, регулирующие применение ИИ, реальная практика не соответствует заявленным намерениям. Исследования показывают, что большинство авторов не сообщают об использовании ИИ в процессе создания своих работ, что создает проблему для обеспечения достоверности и воспроизводимости научных результатов. Этот «прозрачности пробел» ставит под вопрос целостность научной коммуникации и требует разработки более эффективных механизмов контроля и отчетности.

Несмотря на то, что 70% научных журналов внедрили политики, касающиеся использования искусственного интеллекта, лишь 0.1% опубликованных с 2023 года статей содержат явное указание на применение ИИ-инструментов. Этот парадокс свидетельствует о существенном дефиците прозрачности в академической среде. Отсутствие четкой отчетности затрудняет оценку реального влияния ИИ на научные исследования и может привести к искажению результатов, а также к проблемам с воспроизводимостью и достоверностью научных данных. Наблюдаемая тенденция подчеркивает необходимость более эффективных механизмов контроля и стимулирования авторов к раскрытию информации об использовании ИИ в их работах, чтобы обеспечить целостность и надежность научной литературы.

Анализ публикаций, проведенный в первом квартале 2025 года, выявил значительный дисбаланс между фактическим использованием инструментов искусственного интеллекта и прозрачностью в отношении этого. Соотношение между долей контента, в котором обнаружено использование ИИ, и количеством статей, где это использование было явно указано, составляет примерно 40 к 1. Это свидетельствует о серьезной проблеме неполного раскрытия информации, когда авторы не сообщают о применении ИИ в своих работах, несмотря на его широкое распространение. Такая тенденция подрывает доверие к научным публикациям и затрудняет оценку достоверности и оригинальности представленных результатов, создавая необходимость в более строгих правилах и механизмах контроля.

Представленный анализ академических журналов и их политики в отношении искусственного интеллекта демонстрирует тревожную тенденцию: несоответствие между растущим использованием ИИ в научных публикациях и недостаточной прозрачностью в отношении этого. Политики, несмотря на кажущуюся строгость, не сдерживают распространение ИИ-инструментов, что ставит под вопрос подлинность и оригинальность научных работ. Как заметила Ада Лавлейс: «Изобретения, которые кажутся самыми выдающимися, часто являются результатом упорной работы над кажущимися мелочами». Эта мысль перекликается с необходимостью пристального внимания к деталям в политике научных журналов, ведь именно четкое регулирование, кажущееся незначительным, способно обеспечить целостность академической среды и предотвратить злоупотребления.

Что дальше?

Наблюдаемый разрыв между внедрением систем искусственного интеллекта в академическую письменность и адекватностью политик издательств указывает на фундаментальную проблему: стремление контролировать технологию, вместо того чтобы признать её неизбежность. Системы, требующие инструкций по использованию, уже проиграли. Попытки установить правила для инструментов, которые по определению ускользают от контроля, обречены на провал, создавая лишь иллюзию порядка. Необходима переоценка самой концепции авторства и оригинальности в эпоху, когда текст может быть создан не человеком, а алгоритмом.

Вместо того чтобы тратить силы на разработку всё более сложных систем обнаружения (которые, несомненно, будут постоянно обходить), усилия следует направить на повышение прозрачности. Достаточно ли простого указания факта использования ИИ? Должна ли быть раскрыта степень участия алгоритма? И самое главное — что значит “оригинальность”, если идея, по сути, является компиляцией из бесчисленных источников, обработанных машиной? Понятность — это вежливость, и академическое сообщество должно быть честным само с собой.

Будущие исследования должны сосредоточиться не на борьбе с симптомами, а на понимании причин. Почему академики прибегают к помощи ИИ? Это следствие чрезмерной конкуренции, давления публикаций или просто признание эффективности нового инструмента? Ответы на эти вопросы могут привести к более конструктивным решениям, чем попытки запретить неизбежное. Сложность — это тщеславие. Ясность — милосердие.


Оригинал статьи: https://arxiv.org/pdf/2512.06705.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-09 08:11