Генетический ландшафт в цифре: как нейросети раскрывают тайны клеток

Автор: Денис Аветисян

Новое исследование показывает, что современные модели искусственного интеллекта, обученные на данных одноклеточного анализа, формируют биологически осмысленное пространство представлений генов, открывая новые возможности для понимания организации и регуляции клеток.

По мере увеличения глубины трансформаторной модели наблюдается прогрессивное концентрирование представлений генов на оси секреции и локализации, что выражается в росте доли дисперсии <span class="katex-eq" data-katex-display="false"> SV_1 </span> с 19% (на нулевом слое) до 77% (на одиннадцатом слое), при этом регуляторные пары, идентифицированные с помощью TRRUST, сохраняют ко-локализацию в противоположных полюсах <span class="katex-eq" data-katex-display="false"> SV_2 </span> на всех слоях, что указывает на встраивание ко-регулируемых генов в близкое внутреннее геометрическое пространство модели. — По мере увеличения глубины трансформаторной модели наблюдается прогрессивное концентрирование представлений генов на оси секреции и локализации, что выражается в росте доли дисперсии $SV_1$ с 19% (на нулевом слое) до 77% (на одиннадцатом слое), при этом регуляторные пары, идентифицированные с помощью TRRUST, сохраняют ко-локализацию в противоположных полюсах $SV_2$ на всех слоях, что указывает на встраивание ко-регулируемых генов в близкое внутреннее геометрическое пространство модели.

Многомерная спектральная геометрия, выявленная в представлениях, созданных одноклеточными трансформерами, позволяет исследовать связи между генами и регуляторными сетями.

Несмотря на успехи моделей-оснований в области геномики одиночных клеток, остается неясным, каким образом они кодируют биологические знания. В работе «Многомерная спектральная геометрия биологических знаний в представлениях трансформаторов одиночных клеток» авторы исследуют внутреннюю структуру представлений модели scGPT, выявляя организованную биологическую координатную систему. Показано, что модель разделяет гены по субклеточной локализации и кодирует сети белок-белковых взаимодействий, а также различает факторы транскрипции и их целевые гены. Каким образом полученные знания о внутренней организации моделей-оснований могут быть использованы для более глубокого понимания регуляторных сетей и разработки новых терапевтических стратегий?

Раскрытие клеточной идентичности с помощью scGPT

Современная геномика отдельных клеток генерирует данные огромной размерности, представляющие собой чрезвычайно сложные профили экспрессии генов для тысяч клеток. Извлечение биологически значимой информации из этих данных требует принципиально новых подходов, поскольку традиционные методы анализа часто оказываются неэффективными из-за высокой размерности и сложности взаимосвязей между генами. Проблема заключается не только в объеме данных, но и в необходимости выявления тонких, но значимых различий в экспрессии генов, определяющих уникальную идентичность каждой клетки и ее функциональное состояние. Поэтому разработка вычислительных методов, способных эффективно обрабатывать и интерпретировать эти высокоразмерные данные, становится ключевой задачей для понимания клеточной биологии и разработки новых терапевтических стратегий.

Традиционные методы снижения размерности, такие как PCA или t-SNE, часто оказываются неспособны адекватно отразить сложное взаимодействие генов, определяющее состояние клетки. Эти подходы стремятся упростить данные, проецируя их на меньшее число измерений, но при этом неизбежно теряется информация о тонких биологических процессах и взаимосвязях между генами. В результате, полученные представления могут быть искаженными или неполными, затрудняя интерпретацию и выявление истинных различий между клетками. Неспособность учесть нелинейные зависимости и сложные корреляции между генами приводит к тому, что важные биологические сигналы могут быть упущены, а клетки с похожими профилями экспрессии генов могут быть представлены как отдельные кластеры. Таким образом, возникает потребность в более совершенных методах, способных улавливать всю сложность геномной информации и более точно отражать истинное биологическое разнообразие клеточных состояний.

Представлена модель scGPT — фундаментальная модель, использующая архитектуру трансформеров для создания устойчивых векторных представлений генов на основе данных секвенирования РНК отдельных клеток. В отличие от традиционных методов снижения размерности, которые часто приводят к неопределенному и трудно интерпретируемому пространству признаков, scGPT выявляет четкую геометрическую организацию данных. Это позволяет не просто классифицировать клетки, но и понять взаимосвязи между генами, определяющими их состояние, и визуализировать сложные биологические процессы в структурированном и интуитивно понятном виде. Таким образом, scGPT открывает новые возможности для анализа данных секвенирования отдельных клеток и раскрытия механизмов, лежащих в основе клеточной идентичности.

Совместное шестимерное подпространство, сформированное JointSV2-SV7, превосходит индивидуальные подпространства на всех слоях, а взаимодополняющие профили глубины SV5-SV7 и SV2-SV4 гарантируют, что регуляторная информация всегда присутствует.

Оценка внутренней размерности экспрессии генов

Для количественной оценки “эффективного ранга” — числа действительно независимых сигналов, определяющих разнообразие клеток — к эмбеддингам, полученным моделью scGPT, применялось сингулярное разложение (SVD). Эффективный ранг, вычисленный с помощью SVD, отражает количество значимых сингулярных значений, соответствующих неслучайным компонентам в данных эмбеддингов. Более низкий эффективный ранг указывает на то, что разнообразие клеток может быть представлено меньшим числом независимых параметров, что свидетельствует о внутренней структуре и потенциальной избыточности в представлении данных о генной экспрессии. Это позволяет оценить степень, в которой scGPT улавливает ключевые факторы, определяющие гетерогенность клеток.

Оценка внутренней размерности TwoNN позволяет определить сложность ландшафта экспрессии генов, представленного в векторных представлениях (embeddings). Метод TwoNN (Two Nearest Neighbors) анализирует расстояние между точками данных в пространстве embeddings и оценивает размерность, необходимую для сохранения локальной структуры данных. По сути, он определяет, сколько независимых параметров требуется для адекватного описания вариативности экспрессии генов, закодированной в embeddings, и, следовательно, отражает истинную сложность биологической системы, которую представляют данные.

Анализ показал, что scGPT эффективно снижает размерность представления генов, достигая 14.4-кратного уменьшения размерности на протяжении 12 слоев трансформера. Это снижение размерности происходит без потери критически важной биологической информации, что указывает на удивительно низкоразмерную структуру, лежащую в основе клеточной гетерогенности. Полученные данные свидетельствуют о способности модели выделять наиболее значимые сигналы, определяющие различия между клетками, и эффективно представлять их в более компактном виде.

Регуляторная геометрия на уровне границ достигает пика в ранних слоях нейронной сети и постепенно ослабевает по мере увеличения глубины, при этом сигналы <span class="katex-eq" data-katex-display="false">SV5_{5} - SV7_{7}</span> (оранжевый) преобладают в слоях 0-8, а <span class="katex-eq" data-katex-display="false">SV2_{2} - SV4_{4}</span> (синий) приближаются к случайным значениям. — Регуляторная геометрия на уровне границ достигает пика в ранних слоях нейронной сети и постепенно ослабевает по мере увеличения глубины, при этом сигналы $SV5_{5} - SV7_{7}$ (оранжевый) преобладают в слоях 0-8, а $SV2_{2} - SV4_{4}$ (синий) приближаются к случайным значениям.

Отображение взаимодействий белков через структуру эмбеддингов

Анализ матрицы эмбеддингов показал, что первые сингулярные векторы (SV2 и SV3) кодируют информацию о сетях взаимодействия белков. Данное утверждение подтверждается корреляцией с данными, полученными из базы данных STRING, являющейся авторитетным источником информации о физических и функциональных взаимодействиях белков. Сопоставление структуры сингулярных векторов с известными взаимодействиями, зарегистрированными в STRING, демонстрирует статистически значимую связь, указывающую на способность модели scGPT представлять белки не изолированно, а в контексте их взаимодействий внутри белковых сетей.

Коэффициент ко-полюсов, представляющий собой меру ко-локализации пар генов вдоль спектральных осей, служит дополнительным подтверждением способности встраивающего представления (embedding) захватывать функциональные взаимосвязи. Этот показатель рассчитывается как частота совместного появления генов вблизи определенных направлений в пространстве встраивания. Высокие значения коэффициента ко-полюсов для конкретной пары генов указывают на их тесную связь, что согласуется с известными функциональными взаимодействиями и подтверждается данными о протеин-протеиновых взаимодействиях, полученными из баз данных, таких как STRING. Анализ распределения коэффициентов ко-полюсов позволяет выявить обогащение определенных функциональных категорий вдоль конкретных спектральных осей, подтверждая, что встраивающее представление отражает биологически значимые связи между генами.

Анализ показывает, что scGPT формирует представления генов не изолированно, а в контексте более широкой сети белок-белковых взаимодействий. Подтверждением этому служит статистическая значимость обогащения пар взаимодействующих белков вдоль определенных спектральных осей, что подтверждается высокими значениями ZZ-счетчика, превышающими установленные пороговые значения. Данные ZZ-счетчики свидетельствуют о том, что наблюдаемое распределение взаимодействий не является случайным, а отражает закономерности, закодированные в структуре векторного представления, полученного моделью scGPT. Это указывает на способность модели учитывать функциональные связи между генами при построении представлений.

Геометрически, репрессивные связи выделяются сильнее, чем связи активации, в обоих спектральных подпространствах.

Дифференцировка B-клеток и транскрипционная регуляция

Анализ вложений, полученных с помощью scGPT, выявил тесную связь между структурой этих вложений и ключевыми стадиями дифференцировки B-клеток, включая реакцию герминального центра. Данное исследование продемонстрировало, что организация пространства вложений отражает последовательность развития B-клеток — от пролиферирующих предшественников до клеток памяти и плазматических клеток. В частности, наблюдается чёткая стратификация вложений, соответствующая различным этапам реакции герминального центра, включая формирование центров пролиферации и зон темного и светлого полосатых участков. Это позволяет предположить, что scGPT способен улавливать сложные регуляторные процессы, определяющие судьбу B-клеток, и предоставляет ценную возможность для изучения иммунного ответа на клеточном уровне.

Исследование продемонстрировало, что факторы транскрипции, информация о которых получена из базы данных TRRUST, играют ключевую роль в организации пространства вложений, полученных с помощью scGPT, и, следовательно, в управлении путями дифференцировки B-клеток. Анализ показал, что эти факторы не просто присутствуют в данных, но и активно структурируют их, определяя положение клеток в пространстве вложений и предсказывая их дальнейшую судьбу. Иными словами, факторы транскрипции выступают в качестве главных регуляторов, направляющих процесс дифференцировки и определяющих функциональные характеристики B-клеток, что подтверждается их влиянием на кластеризацию клеток по маркерам и предсказание регуляторных взаимодействий.

Исследование продемонстрировало значительный потенциал модели scGPT в понимании сложных процессов развития и функционирования иммунных клеток. Способность модели улавливать взаимосвязи между генами и стадиями дифференцировки B-клеток подтверждается достигнутым значением $AUROC = 0.602$ на первом слое для предсказания регуляторных связей. Кроме того, наблюдается существенное обогащение $AUROC$ при кластеризации маркеров B-клеток, что свидетельствует о высокой точности выявления ключевых сигналов, определяющих их идентичность и функциональное состояние. Полученные результаты указывают на перспективность использования scGPT для углубленного анализа иммунного ответа и разработки новых подходов к иммунотерапии.

За пределами иммунных клеток: основа для понимания клеточных процессов

Успех scGPT обусловлен применением архитектур на основе трансформеров, способных улавливать сложные взаимосвязи внутри биологических систем. Этот подход, изначально разработанный для анализа иммунных клеток, демонстрирует широкую применимость к различным типам клеток и тканей. Трансформеры, благодаря механизму внимания, позволяют модели эффективно обрабатывать данные о генах и белках, выявляя скрытые закономерности и функциональные связи, которые сложно обнаружить традиционными методами. Таким образом, принципы, лежащие в основе scGPT, представляют собой универсальный инструмент для изучения клеточной геномики, открывающий возможности для углубленного анализа самых разнообразных биологических процессов и тканей.

Интеграция данных Gene Ontology (GO) значительно повышает интерпретируемость векторных представлений (embeddings), полученных в ходе анализа отдельных клеток. Благодаря сопоставлению с иерархией GO, становится возможным выявление ключевых функциональных модулей и биологических процессов, лежащих в основе клеточных состояний. Это позволяет не просто классифицировать клетки, но и понять, какие гены и пути участвуют в формировании их характеристик, предоставляя ценные сведения о клеточной организации и функционировании. Сопоставление с GO также облегчает обнаружение новых биологических связей и помогает в интерпретации сложных данных, полученных в результате анализа отдельных клеток, что открывает новые возможности для исследований в области биологии и медицины.

Разработанная модель scGPT представляет собой перспективную основу для широкого спектра применений в области геномики отдельных клеток, способствуя ускорению открытий в биологии и медицине. Особое значение имеет высокая степень согласованности — корреляция Спирмена, достигающая -0.972 — между вложениями регуляторов GC (содержания гуанин-цитозина) на различных слоях модели. Это свидетельствует о стабильности и надежности представлений, формируемых scGPT, и указывает на возможность эффективного использования модели для анализа и интерпретации сложных биологических процессов, а также для выявления ключевых функциональных модулей в клетках.

Исследование демонстрирует, что основополагающие модели для анализа отдельных клеток, подобные scGPT, структурируют представления генов в биологически интерпретируемую координатную систему. Это позволяет выявить закономерности в организации клеток и регуляторных связях, подобно тому, как художник создает гармоничную композицию. Как заметил Жан-Поль Сартр: «Существование предшествует сущности». В данном контексте, это означает, что структура данных и взаимосвязи между генами определяют биологическую сущность клетки, а не наоборот. Организованность этой системы, как подчеркивается в исследовании, является ключом к масштабируемости и интерпретируемости, в то время как хаотичные данные приводят к потере информации и затрудняют анализ.

Куда же дальше?

Представленные результаты, безусловно, открывают перспективные пути для понимания организации биологических знаний в пространстве, порождаемом моделями-основами для анализа отдельных клеток. Однако, гармония этой геометрии не должна вводить в заблуждение. Представленная координатная система — лишь одна из возможных, и вопрос о её универсальности остаётся открытым. Необходимо признать, что «пение» этого интерфейса может быть специфично для используемой архитектуры и данных, а попытки экстраполировать полученные закономерности на другие типы клеток или организмов потребуют осторожности.

Важно помнить, что любое представление, даже столь элегантное, является упрощением реальности. Поиск истинной «геометрии жизни» — задача, требующая не только вычислительной мощности, но и глубокого философского осмысления. Необходимо разрабатывать методы, позволяющие оценивать надёжность и воспроизводимость полученных координат, а также выявлять скрытые смещения и артефакты. Даже незаметная деталь может диссонировать, нарушая гармонию общей картины.

Будущие исследования должны быть направлены на интеграцию этих геометрических представлений с другими источниками биологической информации, такими как протеомика и метаболомика. Только тогда можно будет создать по-настоящему целостную модель клеточной организации, где каждый ген, каждая белковая молекула, каждая метаболическая реакция будет занимать своё заслуженное место в этом сложном и прекрасном оркестре.

Оригинал статьи: https://arxiv.org/pdf/2602.22247.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-01 03:06

🚀 Квантовые новости