Белки по заказу: новый подход к созданию молекулярных связывателей

Автор: Денис Аветисян


Исследователи представили SeedProteo — модель, позволяющую конструировать белки с заданными свойствами, используя возможности диффузионных моделей и всесторонний учёт атомной структуры.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Для сложных мультицепочечных мишеней - H1 (димер), VEGF-A (димер) и TNF-αα (тример) - SeedProteo успешно сгенерировал связывающие молекулы (изображены пурпурным цветом), соответствующие заданным критериям успешности моделирования in silico.
Для сложных мультицепочечных мишеней — H1 (димер), VEGF-A (димер) и TNF-αα (тример) — SeedProteo успешно сгенерировал связывающие молекулы (изображены пурпурным цветом), соответствующие заданным критериям успешности моделирования in silico.

SeedProteo обеспечивает точный de novo дизайн белков, улучшая согласованность последовательности и структуры, и превосходит существующие методы в создании эффективных связывающих белков.

Разработка новых белков с заданными свойствами остается сложной задачей, требующей точного предсказания соответствия последовательности структуре. В статье ‘SeedProteo: Accurate De Novo All-Atom Design of Protein Binders’ представлена диффузионная модель для de novo дизайна белков на уровне всех атомов, эффективно интегрирующая механизмы самообусловливания. Модель демонстрирует превосходные результаты как в генерации белковых последовательностей, так и в дизайне связывающих белков, достигая наивысших показателей успеха среди открытых источников. Сможет ли SeedProteo стать ключевым инструментом в создании белков с заранее заданными функциями и открыть новые горизонты в биотехнологиях и медицине?


Преодолевая Ограничения Традиционного Проектирования Белка

Современные методы конструирования белков, такие как обратное сворачивание, часто сталкиваются с трудностями при моделировании сложности меж-атомных взаимодействий. В то время как эти подходы фокусируются на общей структуре, точное предсказание влияния каждого атома на стабильность и функцию белка представляет собой серьезную проблему. Недостаточное внимание к деталям этих взаимодействий приводит к тому, что разработанные белки могут обладать низкой стабильностью или не проявлять ожидаемой активности. Более того, сложность этих взаимодействий требует огромных вычислительных ресурсов, ограничивая возможности de novo дизайна белков с заданными свойствами. В результате, существующие методы часто оказываются неспособными создавать белки, которые соответствуют всем желаемым параметрам, подчеркивая необходимость разработки более совершенных подходов к моделированию и дизайну.

Современные методы проектирования белков, несмотря на значительный прогресс, часто сталкиваются с проблемой вычислительной сложности. Поиск оптимальной структуры белка с заданными свойствами требует огромных ресурсов, поскольку необходимо исследовать бесчисленное множество возможных конформаций. Существующие алгоритмы, как правило, не способны в полной мере учесть весь ландшафт конформаций, особенно гибкие петли и боковые цепи, что ограничивает возможности создания действительно новых, de novo белков. Неполное описание конформационного пространства приводит к тому, что рассчитанные структуры могут быть энергетически неоптимальными или нестабильными, что снижает эффективность и надежность процесса проектирования. Поэтому, разработка более эффективных и точных вычислительных методов, способных адекватно моделировать конформационную гибкость белков, остается ключевой задачей в области биоинженерии.

Точное моделирование межмолекулярных взаимодействий является фундаментальной задачей при создании белков с заданными функциями и устойчивостью, и в настоящее время представляет собой основное препятствие в данной области. Сложность заключается в учете всех сил, определяющих трехмерную структуру белка — от электростатических взаимодействий и ван-дер-ваальсовых сил до водородных связей и гидрофобного эффекта. Недостаточная точность в описании этих сил приводит к предсказанию структур, которые могут быть нестабильными или не способны выполнять требуемые функции. Современные вычислительные методы, несмотря на значительный прогресс, часто сталкиваются с трудностями при моделировании динамического характера этих взаимодействий и учета влияния окружающей среды, что ограничивает возможности рационального дизайна новых белков с желаемыми свойствами и открывает перспективные направления для разработки более совершенных алгоритмов и вычислительных ресурсов.

Сравнительный анализ разработанных связующих белков для десяти целевых белков показал эффективность и разнообразие подхода, превосходящего существующие открытые методы, оцениваемые с помощью метрик SeedFold.
Сравнительный анализ разработанных связующих белков для десяти целевых белков показал эффективность и разнообразие подхода, превосходящего существующие открытые методы, оцениваемые с помощью метрик SeedFold.

SeedProteo: Изучение Пространства Белковых Структур

SeedProteo использует диффузионную генеративную модель для изучения распределения структур белков с полным атомным разрешением, что позволяет создавать новые белковые дизайны. В основе метода лежит процесс постепенного добавления шума к структуре белка до полного искажения, а затем — обратное восстановление структуры из шума, обученное на большом наборе данных известных структур. Это позволяет модели изучить сложное многообразие конформаций белка и генерировать правдоподобные новые структуры, не ограничиваясь существующими в обучающем наборе. В отличие от методов, основанных на энергетических функциях или последовательностях аминокислот, SeedProteo напрямую моделирует распределение координат атомов, обеспечивая более точное и гибкое создание новых белковых структур.

Модель SeedProteo построена на архитектурной базе AlphaFold3, что позволяет ей использовать и развивать существующие возможности предсказания структуры белка. В отличие от предыдущих версий, SeedProteo делает акцент на точности моделирования всех атомов белка, а не только координирования α-углеродов. Это достигается за счет модификации слоев нейронной сети и оптимизации процесса обучения для повышения точности предсказания положения каждого атома в трехмерном пространстве. Помимо повышения точности, архитектура AlphaFold3 обеспечивает SeedProteo генеративные возможности, позволяя создавать новые, ранее не встречавшиеся структуры белка, соответствующие заданным критериям.

В отличие от традиционных методов проектирования белков, которые опираются исключительно на информацию о последовательности аминокислот или предопределенные энергетические функции, SeedProteo обучается непосредственно на данных о трехмерной структуре белковых молекул. Такой подход позволяет преодолеть ограничения, связанные с неполнотой информации о связи между последовательностью и структурой, а также избежать предвзятости, вносимой заранее заданными параметрами энергетических моделей. Обучение на структурных данных позволяет SeedProteo более эффективно исследовать пространство возможных конформаций белка и генерировать новые структуры с желаемыми свойствами, не ограничиваясь рамками, заданными априорными знаниями.

SeedProteo представляет собой фреймворк, который, изменяя входные каналы сети, позволяет адаптировать модель для генеративного дизайна, используя представление сворачивания, показанное на схеме.
SeedProteo представляет собой фреймворк, который, изменяя входные каналы сети, позволяет адаптировать модель для генеративного дизайна, используя представление сворачивания, показанное на схеме.

Архитектурные Инновации: Геометрия, Координаты и Последовательности

SeedProteo использует представление Atom14 для кодирования структуры белков, что позволяет захватывать ключевые геометрические детали, необходимые для точного моделирования. Atom14 представляет каждый атом белка четырнадцатью параметрами, включающими трехмерные координаты (x, y, z), тип атома, а также информацию о его окружении. Такой подход обеспечивает детальное описание конформации белка и взаимодействий между атомами, что критически важно для предсказания и проектирования новых белковых структур. Использование Atom14 позволяет моделировать не только основные структурные элементы, но и тонкие изменения в конформации, влияющие на функциональность белка.

Блоки Pairformer эффективно обрабатывают атомные координаты, используя механизм внимания для выявления пространственных взаимосвязей между атомами в белковой структуре. Это позволяет модели учитывать удалённые взаимодействия и формировать точные предсказания. Для сложной выборки последовательностей аминокислот используется Марковское случайное поле (MRF). MRF моделирует вероятности различных последовательностей, учитывая их совместимость со структурой, что обеспечивает генерацию разнообразных и физически правдоподобных белковых дизайнов. Использование MRF позволяет учитывать как локальные, так и глобальные зависимости между аминокислотами, оптимизируя процесс генерации последовательностей.

Для обеспечения точности и разнообразия предсказанных структур, модель обучается с использованием специализированных функций потерь. Функция Distogram Loss минимизирует отклонения в предсказанных расстояниях между аминокислотами, обеспечивая корректную геометрию. Smooth LDDT Loss (Local Distance Difference Test) штрафует неправдоподобные локальные структуры, способствуя формированию физически реалистичных конформаций. Coordinate Diffusion Loss, в свою очередь, способствует генерации разнообразных структур путем диффузии координат атомов в пространстве, что позволяет модели исследовать различные конформационные состояния и избегать коллапса в ограниченное число решений.

Предсказание вторичной структуры белков служит важным входным условием (conditioning input) для генеративного процесса в модели SeedProteo. Этот этап позволяет ограничить пространство возможных структурных решений, направляя генерацию в сторону физически правдоподобных конформаций. Использование информации о спиралях, петлях и β-листах позволяет модели формировать более реалистичные белковые каркасы, что повышает достоверность и биологическую релевантность сгенерированных структур. Ограничение пространства поиска на основе предсказанной вторичной структуры значительно улучшает эффективность и качество моделирования, особенно в задачах, требующих высокой точности и соответствия физическим принципам.

Подтверждение Возможности Проектирования и Расширение Области Применения

Модель SeedProteo продемонстрировала выдающиеся результаты в задаче генерации белков de novo, то есть создании новых белковых последовательностей без каких-либо исходных шаблонов. В ходе экспериментов, алгоритм успешно сгенерировал более 60% структурно валидных белков длиной в 1000 аминокислот, что значительно превосходит показатели существующих аналогов, которые в аналогичных условиях демонстрируют близкую к нулевой эффективность. Это свидетельствует о высокой способности SeedProteo создавать разнообразные и правдоподобные белковые структуры, открывая новые возможности для разработки белков с заданными свойствами и функциями.

Для подтверждения корректности созданных de novo протеиновых структур применяется SeedFold — модель, архитектурно схожая с AlphaFold3, оценивающая возможность их физической реализации и структурную правдоподобность. SeedFold позволяет не только проверить, насколько сгенерированные последовательности способны к спонтанному сворачиванию в стабильные трехмерные структуры, но и выявить потенциальные ошибки или нереалистичные элементы в дизайне. Этот этап валидации критически важен для обеспечения функциональности и надежности созданных протеинов, а также для фильтрации нежизнеспособных структур, прежде чем приступать к их экспериментальной реализации или дальнейшей оптимизации. Использование SeedFold как инструмента оценки значительно повышает доверие к результатам, полученным с помощью SeedProteo, и гарантирует, что созданные протеины соответствуют требованиям структурной целостности и биофизической стабильности.

Модель SeedProteo демонстрирует значительные возможности в области дизайна белков-связывателей, позволяя создавать структуры с потенциально высокой аффинностью к заданным молекулам-мишеням. В ходе тестирования на десяти эталонных задачах, SeedProteo показал наивысший процент успешного дизайна связывающих белков среди всех свободно доступных методов. Это указывает на перспективность использования модели для разработки новых терапевтических средств и биосенсоров, где критически важна способность белков специфически взаимодействовать с определенными молекулами. Успех в дизайне связывающих белков открывает широкие возможности для создания новых функциональных материалов и инструментов в биотехнологии.

Исследования демонстрируют, что SeedProteo стабильно превосходит существующие методы в создании реалистичных и разнообразных белковых структур. В 8 из 10 исследуемых целей модель показала более высокие показатели уникальных структурных кластеров и новизны, что свидетельствует о её способности генерировать нетривиальные белковые архитектуры. Ключевым подтверждением успешности разработанных конструкций является соответствие строгим критериям: Interface PAE менее 1.5, Complex RMSD менее 2.5 Å и Binder pTM score выше 0.8. Эти показатели свидетельствуют о высокой точности предсказанных взаимодействий и стабильности создаваемых белковых комплексов, что открывает новые возможности для применения в различных областях, включая разработку новых лекарств и материалов.

Повышение строгости пороговых значений позволяет более точно определить пригодность мономера к проектированию (подробности в Приложении 6).
Повышение строгости пороговых значений позволяет более точно определить пригодность мономера к проектированию (подробности в Приложении 6).

Исследование, представленное в данной работе, демонстрирует, что создание эффективных белковых структур требует целостного подхода, учитывающего не только последовательность аминокислот, но и их пространственное расположение. SeedProteo, как диффузионная модель, фокусируется на моделировании всех атомов белка, что позволяет добиться высокой точности в предсказании структуры и функциональности. Как говорил Жан-Поль Сартр: «Существование предшествует сущности». Это применимо и к белкам: их функциональная сущность определяется не только генетическим кодом, но и тем, как этот код реализуется в пространстве, формируя уникальную структуру, способную к взаимодействию и выполнению определенных задач. Модель SeedProteo, по сути, позволяет «создать существование» белка, начиная с его последовательности и заканчивая функциональной структурой.

Что дальше?

Представленная работа, безусловно, демонстрирует элегантность подхода к задаче de novo дизайна белков. Однако, кажущееся упрощение сложной биологической реальности посредством диффузионных моделей не должно вводить в заблуждение. Успех SeedProteo в создании связывающих белков — это лишь первый шаг. Необходимо учитывать, что последовательность и структура — это лишь видимая часть айсберга. Функциональная адаптивность, динамика и взаимодействие с клеточной средой остаются terra incognita. Каждая новая зависимость от алгоритмической точности — это скрытая цена свободы от непредсказуемости биологических систем.

Перспективным направлением представляется интеграция SeedProteo с моделями, учитывающими конформационные изменения и энергетические ландшафты белков в динамике. Особый интерес вызывает возможность учета посттрансляционных модификаций и их влияния на связывание. Более того, необходимо разработать методы верификации, выходящие за рамки чисто вычислительного моделирования. Экспериментальная проверка и итеративное уточнение дизайна остаются краеугольным камнем прогресса.

В конечном итоге, задача дизайна белков — это не просто создание структуры, а создание живой системы. Структура определяет поведение, но поведение формируется в контексте окружающей среды. Будущие исследования должны быть направлены на создание белков, способных не только связываться, но и адаптироваться, эволюционировать и взаимодействовать с миром вокруг.


Оригинал статьи: https://arxiv.org/pdf/2512.24192.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-04 10:16