Искусственный интеллект проектирует белки: новый подход к биомолекулярному дизайну

Автор: Денис Аветисян

Исследователи продемонстрировали, как большие языковые модели, управляющие специализированным программным обеспечением, могут автоматизировать процесс создания новых белков с заданными свойствами.

Система, представленная на рисунке, реализует многооборотное взаимодействие агента, где агент «Розетта» выбирает действие, а после получения от среды документации к нему, формирует вызов этого действия с соответствующими параметрами, что обеспечивает итеративный процесс уточнения и реализации намеченных целей.

В статье представлена система Agent Rosetta — LLM-агент, использующий программный пакет Rosetta для автоматизированного проектирования гетерополимеров, и показана важность адаптации окружения для интеграции универсального ИИ с научными инструментами.

Несмотря на значительные успехи машинного обучения в области проектирования белков, существующие подходы часто ограничены каноническими аминокислотами и узкими задачами. В работе « $Protein Design with Agent Rosetta: A Case Study for Specialized Scientific Agents$ » представлен Agent Rosetta — агент на основе больших языковых моделей (LLM), способный автоматизировать проектирование белков с использованием программного пакета Rosetta, включая не канонические строительные блоки. Показано, что правильно спроектированная среда позволяет LLM-агентам эффективно взаимодействовать со специализированным научным программным обеспечением, достигая сопоставимых результатов с экспертами и специализированными моделями. Какие еще перспективы открываются для применения LLM-агентов в автоматизации и расширении возможностей сложных научных рабочих процессов?

Задача de novo: Искусство и вызовы создания белков с нуля

Создание белков с заданными функциями представляет собой колоссальную задачу из-за практически безграничного разнообразия возможных аминокислотных последовательностей. Представьте себе, что необходимо найти единственную иголку в стоге сена, где сам стог сена содержит астрономическое количество соломинок. Каждый белок — это цепочка аминокислот, а число потенциальных комбинаций этих аминокислот настолько велико, что полный перебор всех вариантов попросту невозможен даже при использовании самых мощных современных компьютеров. Этот огромный «пространство последовательностей» требует разработки инновационных методов и алгоритмов, способных эффективно ориентироваться в нем и находить последовательности, которые сворачиваются в стабильные структуры и обладают желаемой биологической активностью. Поиск таких последовательностей — это не просто случайный подбор, а сложная задача оптимизации, требующая учета множества физико-химических факторов, определяющих структуру и функцию белка.

Традиционные подходы к созданию белков зачастую сталкиваются с проблемой достижения оптимального баланса между структурной стабильностью и функциональной новизной. Разработка белка с совершенно новой функцией требует значительных изменений в аминокислотной последовательности, что может привести к дестабилизации его трехмерной структуры. Попытки повысить стабильность часто приводят к консервативным изменениям, ограничивающим возможности для внедрения инновационных функций. В результате, многие разработанные белки либо недостаточно стабильны для практического применения, либо не демонстрируют желаемой функциональности, что подчеркивает необходимость разработки более совершенных методов, способных одновременно оптимизировать оба этих критически важных параметра. Поиск компромисса между стабильностью и функциональностью остается одной из главных задач в области проектирования белков de novo.

Точное предсказание структуры белка является краеугольным камнем в области de novo дизайна, однако представляет собой сложную вычислительную задачу. Определение трехмерной конформации, в которой белок достигает максимальной стабильности и функциональности, требует учета огромного числа возможных взаимодействий между аминокислотами. Существующие алгоритмы, хотя и значительно продвинулись, все еще сталкиваются с экспоненциальным ростом вычислительных затрат с увеличением размера и сложности проектируемой последовательности. Это обусловлено необходимостью поиска в колоссальном энергетическом ландшафте, где даже незначительные изменения в последовательности могут приводить к радикальным изменениям в структуре и, как следствие, в функции белка. Современные исследования направлены на разработку более эффективных алгоритмов, использующих машинное обучение и методы статистической термодинамики, чтобы преодолеть эти ограничения и сделать de novo дизайн белков более предсказуемым и доступным.

Для неканонического дизайна используются четыре белка.

Глубокое обучение на службе предсказания и оценки структуры

Модели глубокого обучения, такие как AlphaFold и ESMFold, значительно продвинули область предсказания структуры белков, достигнув беспрецедентной точности. Традиционные методы, основанные на гомологичном моделировании или предсказании с помощью шаблонов, часто демонстрировали ограниченную эффективность при работе с белками, структура которых ранее не была определена. AlphaFold, используя глубокие нейронные сети и эволюционные данные, способен предсказывать трехмерную структуру белка с точностью, сопоставимой с экспериментальными методами, такими как рентгеновская кристаллография и криоэлектронная микроскопия. ESMFold, основанный на модели ESM, обеспечивает быстрое и надежное предсказание структуры, используя только аминокислотную последовательность. Достижения этих моделей существенно сократили время и стоимость определения структуры белков, открывая новые возможности для исследований в области биологии, медицины и биотехнологий.

Модель ESMFold предоставляет быстрый и надежный метод оценки качества спроектированных белковых структур, используя метрику pLDDT (predicted local distance difference test). pLDDT представляет собой оценку от 0 до 100, указывающую на уверенность модели в предсказании расстояния между аминокислотами в локальной области структуры. Более высокие значения pLDDT соответствуют более высокой уверенности и, как правило, указывают на более точную структуру. ESMFold вычисляет pLDDT для каждой аминокислоты в предсказанной структуре, предоставляя детальную информацию о качестве различных ее участков. Эта метрика позволяет быстро идентифицировать потенциальные ошибки или области неопределенности в структуре, что облегчает процесс ее дальнейшей оптимизации и улучшения.

Использование моделей, таких как AlphaFold и ESMFold, значительно ускорило процесс проектирования белков. Возможность быстрого и точного предсказания структуры позволяет исследователям генерировать множество вариантов белковых последовательностей, оценивать их потенциальную стабильность и функциональность, и отбирать наиболее перспективные кандидаты для дальнейшей оптимизации и экспериментальной проверки. Этот итеративный подход, основанный на вычислительном моделировании, существенно сокращает время и ресурсы, необходимые для разработки новых белков с заданными свойствами, по сравнению с традиционными методами, основанными исключительно на экспериментальных данных.

Анализ на основе 1000 бутстрап-выборок из 8 испытаний из 16 показывает стабильно низкое значение RMSD и высокую достоверность pLDDT для ESMFold на протяжении всех шагов.

Автоматизация дизайна с помощью Rosetta и генеративных моделей

Комплекс Rosetta представляет собой мощную платформу для моделирования и проектирования белков, основанную на использовании энергетических функций и алгоритмов Монте-Карло. Энергетические функции оценивают стабильность и правдоподобие различных конформаций белка, учитывая взаимодействия между атомами. Алгоритмы Монте-Карло применяются для исследования пространства конформаций, случайным образом изменяя структуру белка и принимая или отклоняя изменения на основе энергетической оценки. Этот итеративный процесс позволяет находить структуры с минимальной энергией, которые соответствуют желаемым свойствам, и создавать новые белки с заданными характеристиками. Рост вычислительной мощности позволил значительно расширить возможности Rosetta для решения сложных задач в области структурной биологии и протеомного инжиниринга.

Генеративные модели, такие как ProteinMPNN, представляют собой алгоритмы глубокого обучения, способные предсказывать аминокислотные последовательности, совместимые с заданной трехмерной структурой белка. В отличие от традиционных методов, которые часто требуют обширных вычислений для оценки каждой возможной последовательности, ProteinMPNN использует обученную нейронную сеть для прямого предложения вероятных последовательностей, соответствующих целевой структуре. Этот подход значительно ускоряет процесс дизайна, позволяя исследователям генерировать большое количество потенциальных кандидатов, которые затем могут быть дополнительно оптимизированы и оценены с помощью таких инструментов, как Rosetta. Модель учитывает пространственные ограничения и энергетические предпочтения, что повышает вероятность получения функционально активных и стабильных белков.

RosettaScripts представляют собой язык сценариев, интегрированный в пакет Rosetta Macromolecular Modeling Suite, позволяющий автоматизировать и настраивать протоколы проектирования белков. Используя декларативный подход, исследователи могут определять последовательности шагов, включая выбор структурных фрагментов, манипуляции с остатками и оптимизацию энергии, без необходимости внесения изменений в базовый код Rosetta. Это обеспечивает высокую степень гибкости и позволяет эффективно исследовать широкий спектр вариантов дизайна, автоматизируя повторяющиеся задачи и облегчая выполнение масштабных вычислительных экспериментов. Возможность параметризации и модульности RosettaScripts позволяет легко адаптировать протоколы к конкретным задачам и требованиям, расширяя возможности моделирования и проектирования белков.

Анализ четырех структур ПDB показал, что успешная интеграция TRF в ядро белка требует определенных конструктивных решений, иллюстрированных на рисунке.

Agent Rosetta: Интеллектуальная система для автоматизированного дизайна

Агент Rosetta представляет собой инновационный подход к автоматизированному проектированию белков, объединяющий мощь больших языковых моделей с проверенными инструментами Rosetta. Данная система функционирует как автономный агент, способный самостоятельно решать сложные задачи в области дизайна белковых структур. В отличие от традиционных методов, требующих значительного ручного вмешательства, Агент Rosetta способен генерировать и оценивать варианты дизайна, используя возможности языковых моделей для понимания и применения принципов белковой инженерии. Это позволяет существенно ускорить процесс проектирования и исследовать более широкий спектр возможных решений, открывая новые горизонты в создании белков с заданными свойствами и функциями.

Разработанная платформа позволяет автоматизировать решение сложных задач в области проектирования белков, включая интеграцию неканонических аминокислот — строительных блоков, выходящих за рамки стандартного набора. Это открывает возможности для создания белков с уникальными свойствами и функциями, которые невозможно получить традиционными методами. Автоматизация процесса позволяет исследователям быстро и эффективно исследовать огромное пространство возможных вариантов, значительно ускоряя разработку новых биоматериалов, ферментов и терапевтических средств. Внедрение таких ограничений в процесс проектирования ранее требовало значительных усилий и экспертных знаний, однако, благодаря новой платформе, стало доступно для более широкого круга исследователей и потенциально может привести к прорывам в различных областях биотехнологий.

Разработанный агент Rosetta демонстрирует сопоставимую эффективность с моделью ProteinMPNN при проектировании последовательностей белков с фиксированным каркасом, достигая сравнимых значений среднеквадратичного отклонения (RMSD) в пределах допустимой погрешности в 0.20 Å на восьми различных целевых конформациях. Примечательно, что в условиях недостатка данных для проектирования с использованием неканонических аминокислот, агент Rosetta превосходит результаты, полученные экспертами-людьми. Это указывает на перспективность подхода, основанного на больших языковых моделях, для решения сложных задач в области белкового инжиниринга, особенно когда традиционные методы сталкиваются с ограничениями из-за нехватки данных.

Уточнение дизайна с помощью ограничений и валидации

В рамках RosettaScripts реализована гибкая система операций, позволяющая накладывать ограничения на аминокислотный состав и структуру проектируемых белков. Этот подход предоставляет исследователям возможность точно определять желаемые характеристики белковой цепи, например, задавать предпочтительные аминокислоты в определенных позициях или требовать определенные вторичные структуры. Такая прецизионная настройка достигается за счет использования скриптов, определяющих правила и ограничения, которым должна соответствовать спроектированная последовательность. Благодаря этому, RosettaScripts становится мощным инструментом для направленного дизайна белков с заданными свойствами, что открывает новые возможности в области биоинженерии и создания новых материалов.

Среднеквадратичное отклонение (RMSD) играет ключевую роль в оценке качества спроектированных белков, определяя степень их соответствия желаемой трехмерной структуре. Этот показатель измеряет среднее расстояние между атомами двух структур — спроектированной и целевой — и позволяет количественно оценить структурное сходство. Чем ниже значение RMSD, тем ближе структура спроектированного белка к желаемой конформации, что свидетельствует о более успешном дизайне. Использование RMSD в качестве метрики позволяет исследователям объективно сравнивать различные варианты дизайна и оптимизировать процессы создания белков с заданными свойствами, что особенно важно в таких областях, как разработка новых лекарств и биоматериалов. По сути, RMSD выступает в роли своеобразного “измерителя точности”, гарантируя, что спроектированный белок действительно соответствует поставленным задачам.

Система Agent Rosetta демонстрирует высокую надежность, достигая успешности выполнения задач не менее 86% при использовании различных больших языковых моделей (LLM) и при решении широкого спектра задач. Этот интегрированный подход, объединяющий автоматизацию на основе LLM, точное наложение ограничений и надежную валидацию, открывает новые возможности в области проектирования и конструирования белков. В частности, возможность автоматизированного внесения изменений в структуру белка с последующей проверкой на соответствие заданным параметрам, позволяет значительно ускорить процесс создания новых биомолекул с заданными свойствами, что может привести к прорывам в различных областях, от медицины до материаловедения.

Анализ медианных значений RMSD и pLDDT для ESMFold по восьми целевым конформациям позвоночника демонстрирует эффективность предсказания структуры белка.

Исследование демонстрирует, что эффективное взаимодействие с узкоспециализированными инструментами, такими как Rosetta, требует не просто доступа к ним, но и грамотного проектирования среды, в которой этот доступ осуществляется. Это особенно важно, когда речь идет о сложных задачах, вроде дизайна белков. Клод Шеннон отмечал: «Информация — это не количество, это возможность выбора». Эта фраза находит отклик в данной работе, поскольку именно возможность выбора оптимальной среды и параметров позволяет LLM-агенту, такому как Agent Rosetta, эффективно использовать потенциал Rosetta для решения поставленной задачи. Проектирование этой среды — ключевой аспект, позволяющий преодолеть разрыв между общими возможностями LLM и специализированными научными инструментами, открывая новые горизонты в области гетерополимерного дизайна.

Куда Дальше?

Представленная работа, автоматизируя процесс дизайна белков посредством Agent Rosetta, лишь аккуратно обозначила границы ответственности. Система, пусть и демонстрирующая функциональность, обнажила ключевую проблему: взаимодействие универсальных языковых моделей и специализированных инструментов требует не просто интеграции, но и тонкого понимания контекста, «окружающей среды». Иначе, подобно плохо спроектированному механизму, поломки будут неизбежны — и больно ощутимы.

Дальнейшее развитие неминуемо связано с углублением этого понимания. Недостаточно научить агента «использовать» Rosetta; необходимо, чтобы он понимал зачем и когда это делать, предвидя потенциальные ошибки и адаптируясь к непредсказуемым результатам. Акцент должен сместиться с простого автоматизма на создание действительно интеллектуальных систем, способных к самокоррекции и обучению на собственных ошибках.

В конечном итоге, успех подобного предприятия зависит не только от совершенствования алгоритмов, но и от разработки четкой и прозрачной структуры ответственности. Где заканчивается компетенция языковой модели и начинается — специализированного инструмента? Ответ на этот вопрос определит не только эффективность системы, но и её надежность — а значит, и цену, которую придется заплатить за возможные сбои.

Оригинал статьи: https://arxiv.org/pdf/2603.15952.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-18 17:26

🚀 Квантовые новости