Геометрия жизни: что скрывают модели геномных данных?

Автор: Денис Аветисян

Новое исследование систематически анализирует внутреннюю структуру моделей, обученных на данных одноклеточной геномики, чтобы понять, насколько хорошо они отражают реальные биологические закономерности.

В исследовании, охватившем девять категорий контента и 141 гипотезу, установлено, что лишь около 27 продемонстрировали положительные результаты при первичном контроле нулевой гипотезы, в то время как строгий аудит с использованием максимально-нулевой оценки сократил число выдержавших испытание гипотез менее чем до 15, что указывает на концентрацию надежных положительных результатов на уровне приблизительно 10%.

Исследование показывает, что геометрическая структура моделей геномных данных часто оказывается хрупкой, зависимой от конкретной области и требует строгой проверки с использованием нулевых моделей.

Несмотря на впечатляющие возможности биологических фундаментальных моделей в анализе данных одиночных клеток, вопрос о том, насколько осмысленно организовано внутреннее представление этих моделей, остается открытым. В работе «What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses» представлено систематическое исследование топологической и геометрической структуры, формирующейся в процессе обучения моделей scGPT и Geneformer. Полученные результаты указывают на то, что модели действительно кодируют биологически релевантную информацию о пространстве генов, однако эта структура оказывается хрупкой, зависимой от типа ткани и требует строгого контроля с использованием нулевых моделей. Какие новые методы интерпретации и валидации позволят в полной мере раскрыть потенциал этих моделей и обеспечить надежность получаемых биологических выводов?

Фундаментальные модели и кодирование биологических знаний

В последние годы стремительное развитие технологий одноклеточной геномики привело к экспоненциальному росту объемов получаемых данных. Огромные массивы информации, описывающие геном, транскриптом и другие характеристики отдельных клеток, требуют разработки принципиально новых аналитических инструментов. Традиционные методы обработки данных зачастую оказываются неспособны эффективно справиться с такими масштабами и сложностью, что создает потребность в более мощных и гибких подходах. В связи с этим, возникает необходимость в создании алгоритмов и программного обеспечения, способных не только хранить и обрабатывать эти данные, но и извлекать из них значимую биологическую информацию, выявлять закономерности и предсказывать поведение клеточных систем. Успешное решение этой задачи имеет решающее значение для прогресса в таких областях, как медицина, биотехнология и фундаментальные биологические исследования.

Современные фундаментальные модели, предварительно обученные на огромных массивах данных одноклеточной геномики, представляют собой многообещающий подход к выявлению сложных биологических взаимосвязей. Однако, несмотря на впечатляющую способность к прогнозированию, внутренняя структура и механизмы работы этих моделей остаются во многом непрозрачными. Невозможность детального понимания того, как именно модель кодирует и использует биологические знания, ограничивает доверие к её предсказаниям и препятствует раскрытию всего потенциала для дальнейших исследований. Изучение “чёрного ящика” этих моделей становится ключевой задачей для валидации результатов и углубления понимания фундаментальных биологических процессов.

Понимание механизмов кодирования биологической информации в основополагающих моделях является ключевым для оценки достоверности их прогнозов и реализации всего потенциала. Эти модели, обученные на огромных массивах данных одноклеточной геномики, способны выявлять сложные биологические взаимосвязи, однако “черный ящик” их внутреннего устройства требует детального изучения. Анализ того, как модель представляет и использует знания о клеточных типах, путях сигнализации и регуляторных сетях, позволяет не только верифицировать предсказания, но и выявить новые биологические принципы. Именно прозрачность в отношении кодирования знаний открывает путь к более надежным и интерпретируемым моделям, способным значительно ускорить исследования в области биологии и медицины, а также разработку новых терапевтических стратегий.

Анализ согласованности между scGPT и Geneformer (H24) показал, что наблюдаемые метрики значительно превосходят нулевые ожидания во всех четырех показателях и трех тканевых доменах, подтверждая сходимость моделей к схожей геометрической организации при независимом обучении.

Геометрическая деконструкция генных вложений в scGPT

Для генерации векторных представлений экспрессии генов в рамках исследования была использована модель scGPT — фундаментальная модель для геномики отдельных клеток. Входными данными для scGPT являются данные об экспрессии генов, полученные в результате секвенирования отдельных клеток. Модель преобразует эти данные в многомерные векторы, называемые эмбеддингами генов. Каждый вектор представляет собой сжатое представление экспрессии конкретного гена, учитывающее его взаимосвязь с другими генами в рассматриваемом наборе данных. Полученные эмбеддинги позволяют проводить количественный анализ и визуализацию взаимосвязей между генами, а также применять методы машинного обучения для выявления биологически значимых паттернов.

Анализ геометрии остаточного потока (residual stream) внутри модели scGPT показал, что векторные представления генов (embeddings) организованы не случайным образом. Данная структура позволяет предположить наличие интерпретируемых осей, отражающих биологические значения. В частности, визуализация и количественная оценка расположения генов в многомерном пространстве embeddings выявила кластеризацию генов, связанных с общими биологическими процессами или функциями. Наблюдаемая организация указывает на то, что scGPT, в процессе обучения, самоорганизует представления генов таким образом, чтобы близкие по функциональному профилю гены располагались в непосредственной близости друг от друга в пространстве embeddings, облегчая последующий анализ и интерпретацию данных об экспрессии генов.

Для количественной оценки взаимосвязей между генами в пространстве векторных представлений, сгенерированных scGPT, были рассчитаны ключевые геометрические характеристики. Геодезическое расстояние определялось как кратчайший путь между двумя генами на многообразии, отражая степень их функциональной близости. Параметр “дефект треугольника” (δ) измерял разницу между суммой углов треугольника, образованного тремя генами, и π радиан, указывая на локальную кривизну пространства и потенциальные отклонения от евклидовой геометрии. Более высокие значения дефекта треугольника могут свидетельствовать о сложных взаимосвязях или нелинейных взаимодействиях между генами, в то время как небольшие значения указывают на более прямые и линейные отношения.

Для выявления структурных особенностей в пространстве векторных представлений генов, полученных с помощью scGPT, был применен метод устойчивой гомологии. Этот метод позволяет идентифицировать петли и другие топологические особенности, такие как связные компоненты и дыры, которые могут соответствовать функциональным модулям или регуляторным цепям. Устойчивая гомология вычисляет так называемые «диаграммы устойчивости», показывающие, как долго существуют те или иные топологические признаки при различных уровнях фильтрации данных. Обнаруженные петли и циклы рассматриваются как индикаторы тесных взаимосвязей между генами, участвующими в общих биологических процессах, а их устойчивость указывает на значимость этих связей.

Геодезические расстояния превосходят евклидовы при разграничении регуляторных связей (H13), демонстрируя стабильное, хотя и незначительное (ΔAUROC ≈ 0.01), улучшение в средних слоях трансформера для различных разделений пулов генов.

Валидация геометрической структуры с использованием известных регуляторных взаимодействий

В рамках исследования выдвинута гипотеза о том, что геометрическое расположение генов в пространстве вложений (embedding space) отражает известные регуляторные взаимодействия. Предполагается, что гены, участвующие в общих регуляторных процессах, будут расположены ближе друг к другу в этом пространстве, чем гены, не связанные регуляторно. Это основано на предположении, что совместное изменение экспрессии генов, обусловленное регуляторными связями, приведет к формированию соответствующих отношений в пространстве, полученном методом снижения размерности. Геометрическая близость, таким образом, рассматривается как потенциальный индикатор функциональной связи и регуляторного влияния между генами.

Анализ знаковых регуляторных мотивов — комбинаций регуляторных факторов и их эффектов активации/репрессии — был проведен для определения корреляции между геометрической близостью генов в пространстве вложений и известными регуляторными взаимодействиями. Каждый мотив был представлен как вектор, отражающий направление и силу регуляторного воздействия. Затем измерялось расстояние между векторами мотивов и расстоянием между соответствующими генами в пространстве вложений. Статистически значимая корреляция между этими расстояниями подтверждала гипотезу о том, что геометрическая структура отражает функциональные связи между генами, опосредованные регуляторными факторами. Для каждого мотива проводилась оценка статистической значимости корреляции с использованием непараметрических тестов, таких как Spearman’s rank correlation coefficient.

Для валидации геометрической структуры и проверки гипотезы о связи между пространственным расположением генов во встраивающем пространстве и известными регуляторными взаимодействиями были использованы базы данных DoRothEA, TRRUST и STRING. DoRothEA предоставляет информацию о регуляторных связях, основанную на анализе экспрессии генов и данных ChIP-seq, в то время как TRRUST содержит курированный набор связей регуляторных факторов и их целевых генов, полученный из опубликованных исследований. База данных STRING, в свою очередь, объединяет информацию из различных источников, включая экспериментальные данные, базы данных взаимодействия белков и текстовые статьи, предоставляя обширную сеть регуляторных взаимодействий. Использование этих баз данных позволило получить надежные данные для сравнения с геометрическими отношениями между генами в пространстве встраивания и оценки статистической значимости наблюдаемых корреляций.

Для исключения ложноположительных корреляций и проверки достоверности выявленных связей между геометрическим представлением генов и регуляторными взаимодействиями был применен комплекс нуль-моделей. Использовались методы переупорядочивания связей с сохранением степени (degree-preserving rewiring), перестановки меток (label permutation) и перемешивания признаков (feature shuffling) для контроля за потенциальными искажающими факторами. Несмотря на применение этих методов, надежные сигналы оказались ограничены: из 25 проверенных строк только 15 выдержали строгую проверку по максимальному значению в нулевых моделях (max-null audit), что указывает на необходимость дальнейшей валидации полученных результатов.

Анализ масштабирования окрестностей <span class="katex-eq" data-katex-display="false">k</span>NN позволяет оценить, как геометрический сигнал меняется с локальным разрешением, дополняя понимание областей, кодирующих регуляторную информацию во вложенном многообразии. — Анализ масштабирования окрестностей $k$ NN позволяет оценить, как геометрический сигнал меняется с локальным разрешением, дополняя понимание областей, кодирующих регуляторную информацию во вложенном многообразии.

Автономное гипотетическое исследование для механической интерпретируемости

Разработан автоматизированный конвейер для проверки гипотез о функции генов, использующий большую языковую модель OpenAI Codex. Конвейер функционирует итеративно, генерируя, выполняя и оценивая гипотезы без непосредственного участия человека. Codex используется для формирования гипотез, которые затем проверяются на основе имеющихся данных. Результаты оценки используются для уточнения и улучшения последующих гипотез, обеспечивая автоматизированный цикл открытия и валидации функций генов. Такой подход позволяет систематически исследовать большое количество потенциальных взаимосвязей между генами и их функциями, превосходя возможности ручного анализа.

В основе формирования гипотез в разработанном конвейере лежит использование геометрических соотношений в пространстве вложений scGPT. Векторные представления генов, полученные с помощью scGPT, отображаются в многомерное пространство, где близость между векторами отражает функциональную схожесть генов. Конвейер использует эти геометрические отношения — расстояния и углы между векторами генов — для генерации гипотез о возможных функциональных взаимодействиях. Близость генов в пространстве вложений рассматривается как индикатор потенциальной кофунккциональности, что позволяет автоматически формировать гипотезы для последующей экспериментальной проверки. Использование геометрических свойств в пространстве вложений позволяет систематически исследовать функциональные связи генов, основываясь на данных, полученных моделью scGPT.

Для предотвращения утечки информации между обучающей и тестовой выборками при оценке гипотез о функциях генов была реализована процедура разделения пула генов на непересекающиеся подмножества. Это означало, что гены, использованные для обучения модели, полностью исключались из тестовой выборки, и наоборот. Такое разделение гарантировало, что оценка эффективности гипотез проводилась на независимых данных, что позволило получить более объективные и надежные результаты, исключая возможность завышения показателей из-за влияния генов, уже известных модели в процессе обучения.

Оценка работы пайплайна проводилась с использованием метрики AUROC, где достигнуто среднее увеличение ΔAUROC в 0.079 по 24 из 24 проверок. Однако, только 1 из 6 протестированных гипотез соответствовала строгому критерию нулевого разрыва (null-gap criterion). Систематический скрининг 141 гипотезы выявил увеличение ΔΔAUROC в 0.094 для взаимодействий между мотивами и сообществами, примененных под строгим контролем нулевых значений.

Анализ показал, что усиление мотивов (H123) значительно улучшает показатели <span class="katex-eq" data-katex-display="false">\Delta AUROC</span> по сравнению с геометрической базовой линией (H70) во всех тестовых группах и является единственной гипотезой, достигшей полного покрытия нулевого разрыва. — Анализ показал, что усиление мотивов (H123) значительно улучшает показатели $\Delta AUROC$ по сравнению с геометрической базовой линией (H70) во всех тестовых группах и является единственной гипотезой, достигшей полного покрытия нулевого разрыва.

Перспективы: к интерпретируемым и предсказательным фундаментальным моделям

Исследование демонстрирует значительный потенциал геометрического анализа в изучении внутренних механизмов фундаментальных моделей, применяемых в геномике отдельных клеток. Применяя методы, заимствованные из топологических и геометрических наук, удалось выявить скрытые структуры и закономерности в многомерных данных, генерируемых при секвенировании отдельных клеток. Этот подход позволяет не просто прогнозировать биологические состояния, но и понимать, как модель приходит к тем или иным выводам, раскрывая взаимосвязи между генами, белками и клеточными процессами. Визуализация данных в виде геометрических представлений значительно упрощает интерпретацию сложных моделей и способствует обнаружению новых биологических механизмов, ранее скрытых в “черном ящике” традиционных методов машинного обучения.

Сочетание геометрического анализа с автоматизированным тестированием гипотез открывает принципиально новые возможности для ускорения открытия новых биологических механизмов. Исследование демонстрирует, что визуализация данных в многомерном пространстве, основанная на геометрических принципах, позволяет выявлять закономерности и взаимосвязи, которые остаются незамеченными при традиционных подходах. Автоматизированный скрининг гипотез, основанный на этих геометрических наблюдениях, позволяет быстро оценивать правдоподобность различных биологических объяснений, существенно сокращая время и ресурсы, необходимые для экспериментальной проверки. Такой подход не только позволяет выявлять известные механизмы более эффективно, но и способствует обнаружению ранее неизвестных биологических процессов, расширяя наше понимание сложных систем живых организмов.

Дальнейшие исследования направлены на расширение возможностей данного подхода для анализа массивов данных большего объема и интеграцию с другими видами омиксных данных, включая геномику, протеомику и метаболомику. Сочетание геометрического анализа с данными из различных источников позволит создать более полную и детализированную картину биологических процессов. Такой мультиомиксный подход не только повысит точность прогнозирования, но и откроет новые возможности для выявления сложных взаимосвязей между различными молекулярными уровнями организации живых систем, способствуя более глубокому пониманию фундаментальных механизмов, лежащих в основе здоровья и болезни.

В конечном счете, данное исследование направлено на создание фундаментальных моделей, обладающих не только предсказательной силой, но и способностью к интерпретации, что позволит глубже понять сложные биологические системы. Эти модели призваны стать не просто «черными ящиками», выдающими результаты, а инструментами для выявления закономерностей и механизмов, лежащих в основе биологических процессов. Подтвержденная воспроизводимость результатов, демонстрируемая индексом Жаккара в 0.65 при различных начальных условиях, гарантирует надежность и устойчивость полученных выводов, что является критически важным для дальнейшего применения этих моделей в биологических исследованиях и медицине. Такой подход открывает перспективы для создания более эффективных методов диагностики, лечения и профилактики заболеваний.

Сравнение сигналов нулевого разрыва между методами упрочнения с использованием подписанных мотивов и секционной анизотропии демонстрирует четкую границу между надежными и хрупкими геометрическими результатами.

Исследование геометрической структуры, заложенной в фундаментальных моделях геномики отдельных клеток, демонстрирует необходимость тщательного контроля и валидации. Подобно тому, как архитектор стремится к гармонии формы и функции, данная работа подчеркивает хрупкость и зависимость от контекста закодированной биологической информации. В этом контексте особенно актуальны слова Джона Дьюи: «Образование — это не подготовка к жизни; образование — это сама жизнь». Поскольку фундаментальные модели становятся все более важными инструментами для понимания биологических процессов, их геометрическая интерпретируемость и надежность, подтвержденная строгими нулевыми моделями, являются не просто желательными, но и необходимыми для прогресса в этой области. Именно эта глубина понимания и ясность реализации, в конечном счете, и определяют ценность любого научного труда.

Куда же дальше?

Исследование, представленное здесь, выявляет закономерную хрупкость геометрической организации в фундаментальных моделях геномики отдельных клеток. Оно словно призывает к осторожности: каждая кажущаяся закономерность в пространстве внедрения требует строгой проверки на соответствие случайным ожиданиям. Иначе, рискуем принять шум за сигнал, а элегантность за случайность. Очевидно, что создание действительно интерпретируемых моделей требует не просто визуализации, а глубокого понимания того, что именно кодируется в этих многомерных пространствах.

Поиск устойчивых геометрических признаков, независимых от конкретных наборов данных и методов анализа, представляется ключевой задачей. Необходимо перейти от описания что моделируют эти пространства, к пониманию как они это делают. Автономный скрининг, упомянутый в работе, выглядит многообещающим направлением, но требует дальнейшей разработки в части метрик и критериев отбора.

В конечном итоге, истинная сила этих моделей проявится не в способности воспроизводить известные биологические факты, а в умении предсказывать новые. И тогда, возможно, геометрический облик этих пространств заговорит не криком случайных совпадений, а тихим шепотом глубокой биологической истины.

Оригинал статьи: https://arxiv.org/pdf/2602.22289.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-28 15:08

🚀 Квантовые новости