Автор: Денис Аветисян
Новая архитектура искусственного интеллекта, вдохновленная центральной догмой молекулярной биологии, позволяет предсказывать реакции клеток на внешние воздействия и оценивать безопасность лекарств.

Представлена модель CDT-III, объединяющая данные ДНК, РНК и белков для интерпретируемого анализа и предсказания биологических процессов.
Несмотря на успехи в предсказании клеточных реакций, представления, полученные моделями искусственного интеллекта, часто остаются оторванными от молекулярных механизмов. В данной работе представлена архитектура ‘Central Dogma Transformer III: Interpretable AI Across DNA, RNA, and Protein’, реализующая принцип соответствия центральной догме молекулярной биологии — ДНК→РНК→Белок — для интерпретируемого предсказания ответов на возмущения и оценки безопасности лекарств in silico. Модель демонстрирует высокую точность предсказаний уровней РНК (r=0.843) и белков (r=0.969), а также способность предсказывать побочные эффекты лекарств, используя только данные о невозмущенных клетках. Способна ли данная архитектура стать основой для разработки новых, более эффективных и безопасных лекарственных препаратов?
Центральная догма: вызов для предсказательного моделирования
Предсказание клеточных реакций на внешние воздействия остается сложной задачей в биологическом моделировании, что обусловлено фундаментальной сложностью центральной догмы молекулярной биологии. Несмотря на значительный прогресс в понимании отдельных этапов — от транскрипции ДНК в РНК до трансляции РНК в белки — интеграция этих процессов в единую, предсказательную модель представляет собой серьезную проблему. Клетка функционирует как сложная сеть взаимодействий, где изменение одного параметра может вызвать каскад последствий на различных уровнях. Традиционные модели часто фокусируются на отдельных компонентах или процессах, не учитывая взаимосвязи и обратные связи, что ограничивает их способность точно прогнозировать клеточные ответы на различные стимулы и нарушения. Понимание этих взаимодействий и разработка моделей, способных учитывать их, является ключевым шагом к созданию эффективных инструментов для прогнозирования и управления клеточными процессами.
Современные подходы к моделированию биологических систем часто испытывают трудности при интеграции информации, охватывающей все уровни центральной догмы — от ДНК, через РНК, до белков. Это ограничение существенно снижает прогностическую способность моделей и затрудняет интерпретацию полученных результатов. Вместо комплексного анализа, многие исследования фокусируются на отдельных этапах или молекулах, игнорируя взаимосвязи и обратные связи между различными уровнями. Вследствие этого, предсказание клеточных реакций на внешние воздействия, будь то лекарственные препараты или изменения окружающей среды, остается сложной задачей. Отсутствие единой платформы, способной одновременно учитывать динамику генома, транскриптома и протеома, препятствует пониманию сложных биологических процессов и разработке эффективных стратегий лечения заболеваний.
Для создания точных прогнозов клеточных реакций на внешние воздействия необходима комплексная модель, охватывающая весь поток биологической информации. Существующие подходы часто фрагментированы, фокусируясь на отдельных уровнях — ДНК, РНК или белках — и не способны эффективно интегрировать данные между ними. Разработка единой платформы, способной учитывать взаимодействие между этими уровнями и моделировать весь процесс от генома к фенотипу, представляется ключевой задачей. Такая модель позволила бы не только предсказывать последствия генетических или экологических изменений, но и глубже понимать фундаментальные принципы работы клетки, открывая новые возможности для биомедицинских исследований и биотехнологий.

CDT-III: комплексный подход к предсказанию клеточных реакций
CDT-III представляет собой двухступенчатый виртуальный клеточный встраиватель (Virtual Cell Embedder), расширяющий возможности AI, ориентированного на механизмы, для прогнозирования клеточных реакций на различные возмущения. Данная система использует подход, позволяющий предсказывать изменения в состоянии клетки в ответ на внешние факторы или внутренние нарушения, основываясь на анализе молекулярных данных и моделировании клеточных процессов. Особенностью CDT-III является его способность интегрировать информацию о геноме, транскриптоме и протеоме для создания комплексной модели клеточной реакции, что позволяет прогнозировать как непосредственные, так и долгосрочные последствия возмущений.
Первый этап, VCE-N, осуществляет обработку данных ДНК и РНК с использованием базового виртуального внедрения клеток, CDT-II. Ключевым компонентом является использование векторных представлений ДНК, сгенерированных моделью Enformer. Enformer предоставляет компактное и информативное представление геномной последовательности, которое служит входными данными для CDT-II. Данный подход позволяет VCE-N эффективно кодировать информацию о геноме и транскриптоме, подготавливая её для последующего анализа и прогнозирования клеточных реакций на возмущения.
Второй этап, VCE-C, предназначен для моделирования цитозольной среды клетки и прогнозирования каскадных эффектов, вызванных внешними воздействиями. Он интегрирует данные о РНК и белках, используя информацию, полученную на первом этапе, для построения модели, отражающей динамику внутриклеточных процессов. VCE-C позволяет предсказывать изменения в экспрессии генов и концентрации белков в ответ на различные стимулы, учитывая сложные взаимодействия между молекулами в цитоплазме. Прогнозируемые downstream-эффекты включают изменения в метаболизме, клеточном цикле и других ключевых процессах, определяющих клеточную функцию.

Валидация на STING-seq: подтверждение предсказательной силы
Для строгой валидации модели использовался датасет STING-seq, представляющий собой результаты совместного измерения одноклеточной РНК-секвенированности (scRNA-seq) и уровней поверхностных белков в клетках K562 после воздействия CRISPRi-пертурбаций. Данный датасет позволяет оценить влияние нокдауна генов на как на транскриптом, так и на протеом клеток, обеспечивая комплексную оценку предсказательной способности модели и повышая надежность результатов валидации.
Модель CDT-III продемонстрировала высокую точность предсказания клеточных ответов на нокдаун генов, показав улучшение точности предсказания уровня экспрессии РНК на 4.9% по сравнению с базовыми показателями. Средняя корреляция предсказаний уровня экспрессии РНК для каждого гена составила 0.843, в то время как у сравниваемых моделей этот показатель составлял 0.804. Данный результат указывает на значительное повышение эффективности модели в предсказании изменений в транскриптоме в ответ на генетические пертурбации.
Механизм внимания модели выявил ключевые регуляторные элементы, что было подтверждено анализом обогащения CTCF. Данный анализ продемонстрировал 8.59-кратное увеличение обогащения CTCF в областях, идентифицированных механизмом внимания, что указывает на способность модели выявлять важные участки регуляции генов. Дополнительно, производительность модели была улучшена за счет применения регуляризации с использованием нескольких задач (Multi-Task Regularization), что способствовало более эффективному обучению и обобщению.

Применение in silico: оценка безопасности алемутузумаба
Для моделирования эффектов алемутузумаба, моноклонального антитела, нацеленного на CD52, был применен алгоритм CDT-III с целью прогнозирования потенциальных нецелевых эффектов. Исследование позволило создать вычислительную модель, имитирующую влияние препарата на клеточные процессы, что открывает возможности для предварительной оценки токсичности еще до проведения дорогостоящих и трудоемких лабораторных исследований. Благодаря этому подходу становится возможным выявление потенциальных побочных эффектов и оптимизация лекарственной терапии для повышения безопасности пациентов. Использование in silico моделирования, такого как CDT-III, представляет собой перспективный инструмент в разработке лекарственных препаратов и может значительно ускорить процесс вывода новых лекарств на рынок.
Модель, основанная на анализе клеточных данных, успешно выявила ключевые сигнальные пути, нарушаемые при истощении CD52 — белка, являющегося мишенью для препарата алемутузумаб. Этот анализ позволил получить ценные сведения о механизмах развития токсичности, связанной с применением данного лекарственного средства. В частности, были идентифицированы изменения в путях, регулирующих апоптоз и иммунный ответ, что позволило предположить потенциальные побочные эффекты, такие как иммуносупрессия и аутоиммунные реакции. Полученные данные не только углубляют понимание фармакологического действия алемутузумаба, но и открывают возможности для разработки стратегий минимизации рисков и повышения безопасности терапии для пациентов.
В ходе исследования продемонстрировано, что вычислительная модель CDT-III обладает высокой точностью прогнозирования изменений уровня экспрессии белков. Корреляция прогнозов модели с экспериментальными данными по 65 протеинам, участвующих в клеточных процессах, составила 0.969. Такая высокая степень соответствия указывает на способность CDT-III достоверно моделировать сложные биологические системы и предсказывать последствия воздействия лекарственных препаратов на клеточном уровне. Данный результат открывает перспективы для ускорения процесса разработки новых лекарств и повышения безопасности пациентов за счет проведения предварительного, виртуального, тестирования препаратов in silico, что позволяет выявлять потенциальные токсические эффекты на ранних стадиях и оптимизировать терапевтические стратегии.

Взгляд в будущее: к цифровому двойнику клетки
Повышение предсказательной силы модели CDT-III напрямую связано с интеграцией дополнительных уровней биологической сложности. В частности, включение данных Hi-C, отражающих трехмерную структуру хроматина, позволит учесть пространственную организацию генома и ее влияние на регуляцию генов. Хроматин не просто упакован в ядре, но и формирует сложные структуры, определяющие доступность генов для транскрипции. Учитывая эти пространственные взаимосвязи, модель сможет точнее предсказывать, как изменения в геноме повлияют на клеточные процессы и фенотипы, открывая новые возможности для изучения механизмов заболеваний и разработки эффективных терапевтических стратегий. Таким образом, расширение CDT-III за счет данных о трехмерной организации генома представляет собой ключевой шаг на пути к созданию более реалистичной и прогностической модели клетки.
Внедрение индивидуальных данных пациентов в модель CDT-III открывает путь к персонализированному прогнозированию реакции на лекарственные препараты и течения заболеваний. Использование геномных, протеомных и метаболомных данных, собранных от конкретного пациента, позволяет калибровать модель и предсказывать, как его клетки отреагируют на различные терапевтические вмешательства. Это особенно важно для онкологии, где генетические мутации и индивидуальные особенности пациента существенно влияют на эффективность лечения. Прогнозирование ответа на препараты in silico, до проведения клинических испытаний, позволит оптимизировать протоколы лечения, снизить побочные эффекты и повысить шансы на успех, приближая эру прецизионной медицины, ориентированной на уникальные биологические характеристики каждого человека.
В конечном счете, разработанная модель CDT-III открывает путь к созданию “цифрового двойника” клетки — виртуальной репрезентации, способной революционизировать биологические исследования и улучшить здоровье человека. Эта сложная модель позволяет не просто описывать клеточные процессы, но и предсказывать их развитие в различных условиях, например, при воздействии лекарственных препаратов или в контексте развития заболеваний. Благодаря возможности проведения виртуальных экспериментов, цифровой двойник клетки значительно ускорит процесс открытия новых лекарств, позволит моделировать индивидуальные реакции организма на терапию и, в перспективе, станет незаменимым инструментом в персонализированной медицине. Использование такого подхода позволит существенно сократить время и затраты на проведение традиционных лабораторных исследований, открывая новые горизонты в понимании фундаментальных механизмов жизни и борьбе с болезнями.

В работе над CDT-III отчетливо видна закономерность: каждая, даже самая элегантная архитектура, рано или поздно столкнется с суровой реальностью биологических систем. Модель, выстроенная по принципам центральной догмы, пытается предсказать ответы на возмущения, но даже она не застрахована от неожиданностей, ведь «любая абстракция умирает от продакшена». Барбара Лисков однажды заметила: «Хороший дизайн — это когда что-то работает так, как вы ожидаете». CDT-III, безусловно, стремится к этому, но, как известно, всё, что можно задеплоить — однажды упадёт. Это не провал, а скорее неизбежное испытание на прочность, где теория встречается с хаосом реальных данных.
Что Дальше?
Архитектура, выстроенная вокруг «центральной догмы», конечно, элегантна. Но не стоит забывать: любая модель — это всего лишь сжатие реальности, а реальность, особенно биологическая, имеет привычку проявлять непредсказуемые свойства. Предсказание ответов на пертурбации — задача, которая, судя по всему, будет требовать всё более сложных, и, следовательно, менее интерпретируемых моделей. Всё, что обещает быть «самовосстанавливающимся» в плане интерпретируемости, просто ещё не сломалось достаточно сильно.
Утверждения о возможности in silico оценки безопасности лекарств звучат заманчиво, но пока что кажутся…наивными. Документация к любой сложной системе — это, по сути, форма коллективного самообмана, и здесь, боясь сказать, ничего не изменится. Ожидать, что алгоритм, обученный на существующих данных, сможет предсказать все побочные эффекты — это примерно как надеяться, что кошка начнет решать дифференциальные уравнения.
Полагать, что у нас стабильная система, если баг воспроизводится, — это, конечно, удобная позиция. В ближайшем будущем, вероятно, увидим гонку за ещё более крупными датасетами и ещё более сложными архитектурами. Вопрос в том, не упустим ли мы при этом способность понимать, почему система принимает те или иные решения. Или, проще говоря, когда виртуальная клетка начнёт протестовать.
Оригинал статьи: https://arxiv.org/pdf/2603.23361.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Отражения культуры: Как языковые модели рассказывают истории
- Укрощение Бесконечности: Алгебраические Инструменты для Кватернионов и За их Пределами
- Самообучающиеся агенты: новый подход к автономным системам
- Графы и действия: новый подход к планированию для роботов
- Поймут ли машины нюансы человеческих ценностей?
- Охота на уязвимости: как большие языковые модели учатся на ошибках прошлого
- Искусственный интеллект на производстве: иллюзии автономии
- Искусственный разум: Нет доказательств самосознания в современных языковых моделях
- Квантовые Загадки: От «Призрачного Действия на Расстоянии» к Суперкомпьютерам
- Генерация изображений: Новый взгляд на скорость и детализацию
2026-03-25 17:59