Искусственный интеллект и биология: способно ли обучение языковых моделей к новым открытиям?

Автор: Денис Аветисян

Новое исследование представляет динамичный инструмент оценки, позволяющий проверить, действительно ли современные системы искусственного интеллекта способны генерировать новые знания в области биологических наук.

Результаты тестирования базовых моделей на задачах MMLU-Pro (Биология) и DBench-Bio (январь 2026) демонстрируют различия в производительности, отраженные в сравнительных показателях, представленных в виде столбчатой диаграммы и графика зависимости соответственно.

В статье представлен DBench-Bio — динамичный эталон для оценки способности больших языковых моделей к открытию новых биологических знаний, выявляющий ограничения существующих статических тестов и текущие слабости ИИ в области научных исследований.

Несмотря на впечатляющий прогресс в области больших языковых моделей (LLM), надежная оценка их способности к самостоятельному научному открытию остается сложной задачей. В работе ‘Can Large Language Models Derive New Knowledge? A Dynamic Benchmark for Biological Knowledge Discovery’ представлен DBench-Bio — динамичный и автоматизированный бенчмарк, предназначенный для оценки возможностей LLM в области биологических наук. Этот подход преодолевает ограничения статических наборов данных и позволяет выявлять действительно новые знания, регулярно обновляясь и охватывая 12 биомедицинских под-областей. Сможем ли мы создать искусственный интеллект, способный не только анализировать существующие данные, но и генерировать новые научные гипотезы и открытия?

Разоблачение Иллюзий: Оценка Надёжности ИИ

Современные большие языковые модели (БЯМ) демонстрируют впечатляющую способность к обработке и генерации текста, однако их фактическая достоверность остается серьезной проблемой. Существующие методы оценки, известные как бенчмарки, зачастую не способны выявить истинное понимание и способность к открытию новых знаний, ограничиваясь проверкой воспроизведения заученной информации. Несмотря на кажущуюся эрудицию, БЯМ нередко путают факты или выдают логически несостоятельные утверждения, что ставит под вопрос их надежность в качестве источников информации. Эта проблема особенно актуальна в контексте быстро меняющегося мира, где знания постоянно обновляются, и модели могут устаревать, не успевая адаптироваться к новым данным. Таким образом, разработка более совершенных методов оценки, способных выявить не только лингвистические навыки, но и реальное понимание и способность к генерации новых знаний, является ключевой задачей для дальнейшего развития искусственного интеллекта.

Существенной проблемой, искажающей оценку возможностей современных больших языковых моделей (LLM), является так называемое “загрязнение данных” — неявное запоминание фрагментов данных, используемых в качестве эталонов для оценки, в процессе обучения. Это приводит к искусственно завышенным результатам на стандартных тестах, поскольку модель, по сути, воспроизводит ранее увиденную информацию, а не демонстрирует истинное понимание или способность к обобщению. Исследования показывают, что когда LLM оцениваются на данных, опубликованных после завершения их обучения, их производительность существенно снижается, выявляя слабость в способности к применению знаний в новых ситуациях и подтверждая значимость проблемы “загрязнения данных” для объективной оценки реальных возможностей искусственного интеллекта.

Процесс DBench-Bio состоит из трех этапов: сбора данных из ведущих биохимических журналов, синтеза научных гипотез и ответов с помощью языковых моделей и фильтрации пар вопросов и ответов на основе релевантности, ясности и центральности для обеспечения высокого качества данных.

DBench-Bio: Испытание на Способность к Открытиям

DBench-Bio представляет собой полностью автоматизированный бенчмарк, разработанный для оценки способности искусственного интеллекта открывать принципиально новые биологические знания. Результаты оценки, полученные с использованием DBench-Bio, демонстрируют низкие показатели по всем протестированным моделям, что указывает на значительные трудности, с которыми сталкиваются современные большие языковые модели (LLM) при решении задач, связанных с открытием новых знаний. Бенчмарк предназначен для количественной оценки способности моделей к генерации гипотез и выявлению неочевидных связей в биологических данных, выходящих за рамки простого воспроизведения информации, содержащейся в обучающих данных.

В основе DBench-Bio лежит принцип “временного разделения” (temporal separation), направленный на минимизацию загрязнения данных при оценке моделей искусственного интеллекта. Для формирования оценочного набора используются научные публикации из рецензируемой литературы, датированные периодом после завершения обучения оцениваемой модели. Это позволяет исключить возможность того, что модель просто воспроизводит информацию, с которой она уже была ознакомлена в процессе обучения, и действительно оценивает её способность к генерации новых знаний. Использование литературы, опубликованной после момента обрезки обучающих данных, является критически важным для достоверной оценки способности модели к научным открытиям.

Для обеспечения релевантности и качества оценочных данных в DBench-Bio используется информация, полученная исключительно из журналов, входящих в первый квартиль (JCR Q1) по рейтингу Journal Citation Reports. Критерий отбора журналов первого квартиля гарантирует, что используемые данные представляют собой публикации с высоким импакт-фактором и отражают наиболее значимые и актуальные научные исследования в соответствующей области биологии. Это позволяет более точно оценить способность моделей искусственного интеллекта к обнаружению новых знаний, основываясь на проверенной и авторитетной научной информации.

Эксперименты на DBench-Bio демонстрируют общую производительность модели в задачах, связанных с биологией.

Автоматизированная Генерация и Фильтрация Вопросов-Ответов

Для формирования набора данных DBench-Bio используется автоматизированная генерация пар «вопрос-ответ» (QA) на основе научных аннотаций. Этот процесс осуществляется с применением больших языковых моделей (LLM), которые анализируют содержание аннотаций и синтезируют релевантные вопросы и ответы. LLM позволяют эффективно извлекать ключевую информацию из большого объема научных текстов, автоматизируя процесс создания обучающих и оценочных данных для моделей, предназначенных для анализа и понимания биомедицинской информации. Генерация QA осуществляется с целью обеспечения широкого охвата ключевых научных концепций, представленных в аннотациях.

Для обеспечения качества генерируемых пар «вопрос-ответ» применяется фильтр QA, оценивающий их по трем основным критериям: релевантность, ясность и, что наиболее важно, центральность. Центральность определяет, отражает ли пара вопрос-ответ основную идею, ключевой результат, представленный в абстракте научной работы. Оценка по данному критерию позволяет исключить незначимые или второстепенные вопросы, гарантируя, что сформированный бенчмарк DBench-Bio фокусируется на проверке способности моделей к поиску и извлечению наиболее важных знаний из научных текстов.

Процесс фильтрации вопросов и ответов (QA) направлен на минимизацию шума и обеспечение концентрации бенчмарка на вопросах, действительно оценивающих способность к открытию знаний. Сравнение оценок, выставленных людьми и языковыми моделями (LLM), в ходе Alt-теста показало выигрышность LLM более чем в 50% случаев (winning rates > 0.5) и вероятность преимущества LLM над человеком более чем в 80% (advantage probabilities > 0.8). Эти результаты подтверждают возможность использования LLM для аннотации и оценки QA-пар в качестве альтернативы ручной оценке.

Агентные методы демонстрируют результаты на биоинформатической базе данных DBench-Bio.

Пределы Возможностей в Математической Биологии

Оценка с использованием DBench-Bio выявила, что современные большие языковые модели, демонстрируя успехи в различных областях, испытывают трудности при открытии новых знаний в сложных дисциплинах, таких как математическая биология. Исследование показало, что модели серии GPT-5 последовательно превосходят другие аналоги практически во всех подразделах этого направления. Данный результат указывает на то, что простое увеличение размера модели недостаточно для достижения прорывных результатов, и требуется разработка архитектур, способных более эффективно представлять и рассуждать о количественных взаимосвязях, лежащих в основе биологических процессов. Полученные данные подчеркивают потребность в искусственном интеллекте, способном не просто распознавать закономерности, но и генерировать подлинные научные открытия.

Исследования показали, что простое увеличение размера языковых моделей не приводит к существенному прогрессу в понимании и генерации научных знаний, особенно в областях, требующих количественного анализа, таких как математическая биология. Несмотря на впечатляющие возможности в обработке текста, существующие модели испытывают трудности с выявлением новых закономерностей и установлением причинно-следственных связей, когда речь идет о сложных математических зависимостях. Это указывает на необходимость разработки новых архитектур, способных более эффективно представлять и обрабатывать числовые данные, а также выполнять логические выводы, основанные на количественных соотношениях, например, $y = mx + b$ . Успешное решение этой задачи потребует перехода от простого сопоставления шаблонов к глубокому пониманию математических принципов, лежащих в основе биологических процессов.

Исследование демонстрирует, что современные искусственные интеллекты, несмотря на успехи в различных областях, часто ограничены в способности к генерации подлинно новых научных знаний. Вместо глубокого понимания принципов и взаимосвязей, многие системы полагаются на распознавание закономерностей в существующих данных. Это ограничивает их возможности в математической биологии и других сложных дисциплинах, где требуется не просто воспроизведение информации, а экстраполяция, создание гипотез и выведение новых следствий из имеющихся знаний. Необходимы архитектуры, способные к абстрактному мышлению и количественному анализу, чтобы ИИ мог не просто находить корреляции, а действительно понимать лежащие в их основе механизмы и генерировать принципиально новые научные инсайты.

Эксперименты на DBench-Bio демонстрируют эффективность подхода в различных областях применения.

На Пути к Улучшенному Рассуждению с ИИ-Агентами

Исследования направлены на применение передовых архитектур агентов, таких как ‘ReAct Agent’ и ‘Workflow Orchestrated Agent’, усиленных возможностями моделей нового поколения, например, ‘GPT-5’, для значительного повышения эффективности поиска и анализа знаний. Эти системы, действуя по принципу последовательных итераций и используя специализированные роли, способны решать сложные научные задачи, выходя за рамки традиционных методов. Особенностью подхода является не просто обработка информации, а активное взаимодействие с ней, формулирование гипотез и проверка их посредством анализа данных, что позволяет обнаруживать неочевидные связи и генерировать новые научные идеи.

Агенты нового поколения, предназначенные для решения сложных научных задач, используют подход, основанный на специализации и итеративном рассуждении. Каждый агент выполняет строго определенную роль в процессе исследования, например, поиск релевантной информации, формулирование гипотез или анализ данных. Этот процесс организован в виде цикла: агент выдвигает предположение, оценивает его на основе доступных данных, корректирует подход и повторяет цикл до достижения удовлетворительного результата. Итеративное рассуждение позволяет агентам преодолевать тупиковые ситуации и эффективно исследовать многомерное пространство возможных решений, приближаясь к новым научным открытиям за счет последовательного улучшения своей стратегии и углубления понимания исследуемой проблемы.

В настоящее время активно разрабатываются интеллектуальные системы, объединяющие мощь больших языковых моделей и гибкость агентских фреймворков, с целью достижения реального вклада в научные открытия. Данный подход позволяет создавать искусственный интеллект, способный не просто обрабатывать информацию, но и самостоятельно формулировать гипотезы, планировать эксперименты и анализировать полученные результаты. Системы подобного типа способны преодолевать ограничения традиционных методов анализа данных, выявляя неочевидные взаимосвязи и генерируя новые знания в различных научных областях. Использование агентских архитектур обеспечивает возможность итеративного подхода к решению сложных задач, позволяя системе корректировать свои действия на основе получаемой обратной связи и повышая эффективность процесса научного поиска.

Исследование демонстрирует, что современные большие языковые модели, несмотря на впечатляющие способности к обработке информации, испытывают трудности с истинным открытием новых знаний в биологии. Созданный авторами динамический бенчмарк DBench-Bio выявляет, что модели зачастую оперируют уже известными фактами, а не синтезируют принципиально новую информацию. Это подтверждает, что понимание системы не всегда ведет к её взлому. Как однажды заметил Джон Маккарти: «Всякий интеллект должен уметь делать то, что он не был запрограммирован делать». Этот аспект критически важен, ведь настоящий прогресс науки заключается в выходе за рамки известных паттернов, а не в их простом воспроизведении. Каждый патч — философское признание несовершенства.

Что дальше?

Представленная работа, по сути, лишь зондирует поверхность. DBench-Bio, как и любой динамический эталон, — это не финальная точка, а скорее приглашение к взлому системы. Реальность, в конечном счете, — это открытый исходный код, который мы еще не прочитали, и существующие большие языковые модели пока демонстрируют скорее умение компилировать известные фрагменты, чем создавать новые. Очевидно, что текущие LLM испытывают трудности с истинным открытием знаний, с построением гипотез, требующих экстраполяции за пределы заученного.

Ключевая проблема, как показывает опыт, заключается не в объеме данных, а в механизмах, позволяющих моделям понимать причинно-следственные связи, а не просто статистические корреляции. Будущие исследования должны сосредоточиться на разработке архитектур, способных к более глубокому семантическому анализу, на интеграции LLM с системами формальной логики и, возможно, даже с инструментами символьного мышления.

В конечном счете, успех в этой области потребует не просто улучшения алгоритмов, а переосмысления самой парадигмы искусственного интеллекта. Необходимо создать системы, способные не только обрабатывать информацию, но и ставить под сомнение существующие знания, искать противоречия и, главное, формулировать вопросы, на которые еще нет ответов. Именно в этом, а не в простом повторении, заключается истинная суть научного открытия.

Оригинал статьи: https://arxiv.org/pdf/2603.03322.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-05 13:04

🚀 Квантовые новости