Автор: Денис Аветисян
Новая система CoDHy использует возможности искусственного интеллекта для генерации и проверки перспективных лекарственных комбинаций, ориентированных на биомаркеры рака.

Представлена система CoDHy, использующая графы знаний и большие языковые модели для генерации и валидации гипотез о комбинированной терапии рака, основанных на биомаркерах.
Несмотря на экспоненциальный рост биомедицинской литературы и баз данных, систематическое сопоставление биомаркеров с эффективными лекарственными комбинациями остается сложной задачей. В данной работе представлена система CoDHy (‘From Literature to Hypotheses: An AI Co-Scientist System for Biomarker-Guided Drug Combination Hypothesis Generation’) — интерактивный инструмент, использующий графы знаний и возможности больших языковых моделей для генерации и валидации гипотез о лекарственных комбинациях в онкологических исследованиях. Система позволяет исследователям настраивать контекст, анализировать промежуточные результаты и итеративно уточнять гипотезы, обеспечивая прозрачность и контролируемое исследование. Каким образом подобные системы смогут ускорить процесс разработки новых методов лечения рака и персонализированной медицины?
Разгадывая Запутанные Узлы Биомедицинских Исследований
Традиционные подходы в биомедицинских исследованиях зачастую сталкиваются с трудностями при установлении связей между разрозненными фрагментами информации, что существенно замедляет процесс формирования новых гипотез. Это связано с тем, что научные открытия редко представляются в виде простых, линейных зависимостей; напротив, они возникают на пересечении различных областей знаний, требуя от исследователей способности интегрировать данные из гетерогенных источников. Отсутствие эффективных инструментов для сопоставления и анализа разрозненных данных приводит к упущению потенциально значимых связей и, как следствие, к замедлению темпов научного прогресса. Подобная фрагментация информации особенно заметна в областях, где исследования носят междисциплинарный характер, таких как изучение сложных заболеваний или разработка персонализированной медицины.
Растущий объем неструктурированной текстовой информации в научной литературе представляет собой серьезную проблему для современной биомедицинской науки. Традиционные методы анализа зачастую не справляются с обработкой огромных массивов данных, содержащихся в научных статьях, отчетах и патентах. Это затрудняет выявление скрытых связей, тенденций и закономерностей, необходимых для формирования новых гипотез и ускорения научных открытий. В связи с этим, разрабатываются инновационные методы синтеза знаний, включающие в себя алгоритмы обработки естественного языка, машинного обучения и семантического анализа, позволяющие извлекать, структурировать и интегрировать информацию из разнообразных текстовых источников. Эти подходы направлены на автоматизацию процесса выявления ключевых концепций, связей между генами, белками, заболеваниями и лекарственными препаратами, что значительно повышает эффективность биомедицинских исследований и способствует более быстрому внедрению инноваций.

Построение Единой Биомедицинской Сети Знаний
Подход к построению унифицированного биомедицинского графа знаний основывается на интеграции структурированных данных из существующих баз данных с информацией, извлеченной из публикаций в PubMed. Для извлечения реляционных утверждений из текстовых данных PubMed используется библиотека SpaCy, обеспечивающая обработку естественного языка и выделение сущностей и связей между ними. Этот процесс позволяет автоматизировать наполнение графа знаний, объединяя данные из различных источников и формируя единое представление о биомедицинских концепциях и их взаимосвязях.
Для кодирования реляционных утверждений в векторные представления используются модели Sentence Transformers. Этот процесс позволяет преобразовывать текстовые данные в числовые векторы, сохраняя семантическое значение утверждений. Полученные векторные вложения используются для вычисления семантической близости между различными утверждениями, что необходимо для определения связей между сущностями и их атрибутами. На основе этих вычислений происходит наполнение графа знаний, где близкие по смыслу утверждения соединяются, формируя сеть взаимосвязанных знаний. Это обеспечивает эффективное представление и поиск информации в графе знаний, а также позволяет осуществлять логические выводы на основе семантической близости утверждений.
Результирующий граф знаний хранится и запрашивается с использованием облачной платформы Neo4j AuraDB. AuraDB обеспечивает масштабируемость и высокую производительность, необходимые для обработки больших объемов биомедицинских данных и выполнения сложных запросов. Выбор AuraDB обусловлен ее возможностями автоматического масштабирования, отказоустойчивостью и поддержкой языка запросов Cypher, оптимизированного для работы с графовыми структурами. Это позволяет эффективно выполнять логические выводы и анализировать взаимосвязи между различными биомедицинскими сущностями, обеспечивая надежную основу для последующих исследований и принятия решений.

Искусственный Интеллект в Роли Гипотетического Провидца
Для генерации гипотез используется методология `Graph RAG`, которая обеспечивает извлечение релевантной информации из графа знаний с учетом конкретных интересов к определенным биомаркерам. Процесс включает поиск по графу знаний, где узлы представляют собой биологические сущности, а связи — их взаимосвязи. Извлечение информации происходит на основе запросов, сформулированных с учетом интересующих биомаркеров, что позволяет сфокусироваться на наиболее значимых связях и сущностях в графе. Полученная информация используется для формирования потенциальных гипотез, описывающих возможные взаимосвязи между биомаркерами и другими биологическими факторами.
В системе используется алгоритм Node2Vec для выявления структурной близости узлов в графе знаний. Node2Vec генерирует векторные представления каждого узла, учитывая его окружение и паттерны связей. Близость узлов в векторном пространстве отражает их структурную близость в графе, что позволяет системе формировать гипотезы, основанные на взаимосвязанных понятиях и фактах. Применение Node2Vec повышает релевантность и правдоподобность генерируемых гипотез, поскольку учитывает не только прямые связи, но и косвенные отношения между сущностями в графе знаний.
Для оценки сгенерированных гипотез используется специализированный агент валидации гипотез, построенный на базе большой языковой модели (LLM). Этот агент оценивает каждую гипотезу по критериям новизны и осуществимости, присваивая ей итоговый ранг. Достигнутый показатель среднего взаимного ранга (Mean Reciprocal Rank, MRR) составляет 0.74, что демонстрирует переход от парадигмы поиска и извлечения информации к парадигме, ориентированной на открытие новых знаний. Оценка и ранжирование позволяют системе не просто находить существующие связи, но и предлагать потенциально значимые и ранее неизвестные гипотезы.
Расширяя Горизонты Открытий: От Биомаркеров к Терапии
Система искусственного интеллекта, названная `CoDHy`, значительно расширяет возможности открытия новых лекарственных средств посредством анализа литературных данных. Она не просто собирает информацию, а активно выявляет скрытые связи внутри огромного графа знаний, объединяя, казалось бы, несвязанные биологические концепции и молекулы. Этот подход, известный как открытие на основе литературы, позволяет идентифицировать потенциальные терапевтические мишени и разрабатывать инновационные комбинации препаратов, которые могли бы остаться незамеченными при традиционных методах исследования. В результате, `CoDHy` способствует ускорению процесса разработки лекарств, предоставляя исследователям новые, перспективные направления для изучения и потенциально открывая возможности для лечения заболеваний, ранее считавшихся неизлечимыми.
Система искусственного интеллекта, ориентированная на открытие новых терапевтических возможностей, демонстрирует ускоренный перевод исследований в клиническую практику благодаря приоритезации гипотез, отличающихся высокой новизной и подкрепленных убедительными доказательствами. Результаты анализа показывают, что генерируемые комбинации обладают новизной в 35.71%, что свидетельствует о способности системы предлагать ранее не публиковавшиеся сочетания. Такой подход позволяет значительно расширить горизонты поиска новых лекарственных средств, предоставляя научному сообществу уникальные и перспективные направления для дальнейших исследований и разработки инновационных методов лечения.
Система продемонстрировала значительное сокращение временных и финансовых затрат, традиционно связанных с процессом разработки лекарственных препаратов. Благодаря систематическому исследованию обширного массива знаний, она способна генерировать уникальные комбинации пар лекарственных средств с показателем разнообразия 0.89. Этот высокий уровень разнообразия указывает на способность системы выходить за рамки общепринятых подходов и предлагать ранее не исследованные терапевтические возможности. Такой подход позволяет не только ускорить поиск потенциальных лекарств, но и снизить риски, связанные с фокусировкой на ограниченном числе известных соединений, открывая новые перспективы в борьбе с различными заболеваниями.
Система CoDHy, представленная в данной работе, демонстрирует закономерность, которую Кен Томпсон выразил словами: «В идеальном решении не остаётся места для людей». Авторы не стремятся создать абсолютное решение для генерации гипотез о лекарственных комбинациях, а предлагают инструмент, расширяющий возможности исследователя. Система оперирует сложными знаниями, представленными в графах, и использует большие языковые модели, но окончательное решение, верификация гипотез и их экспериментальное подтверждение остаются за человеком. Это не замена ученого, а его интеллектуальный союзник, способный увидеть закономерности в огромных массивах данных и предложить новые направления для исследований, особенно в сложной области онкологических заболеваний.
Что Дальше?
Система, представленная в данной работе, — не столько инструмент для генерации гипотез, сколько попытка вырастить их в контролируемой среде. Каждый новый узел графа знаний, каждое параметризованное предсказание модели — это семя, брошенное в неопределённость. И с каждым деплоем, с каждым новым циклом валидации, становится всё очевиднее: система не решает проблему, она лишь переносит её в другое измерение. Нельзя построить идеальную систему, можно лишь замедлить её неизбежный коллапс.
Будущие исследования, вероятно, сосредоточатся на автоматизации валидации этих гипотез — что, по сути, является попыткой делегировать ответственность за ошибку машине. Но истинный вызов заключается не в увеличении точности предсказаний, а в понимании границ применимости этих предсказаний. Где заканчивается область знаний, в которой система компетентна, и начинается царство случайности?
Документация, разумеется, останется неизменной: никто не пишет пророчества после их исполнения. Вместо этого, следует ожидать появления всё более сложных метрик, призванных измерить не столько правильность гипотез, сколько устойчивость системы к их провалу. Ведь в конечном счёте, система — это не решение, а способ отсрочить столкновение с неизвестностью.
Оригинал статьи: https://arxiv.org/pdf/2603.00612.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Квантовый Борьба: Китай и США на Передовой
- Квантовые нейросети на службе нефтегазовых месторождений
- Функциональные поля и модули Дринфельда: новый взгляд на арифметику
- Интеллектуальная маршрутизация в коллаборации языковых моделей
- Квантовый скачок: от лаборатории к рынку
2026-03-03 10:37