Искусственный интеллект на службе лекарства: новый подход к поиску препаратов

Автор: Денис Аветисян

Исследователи продемонстрировали, что относительно небольшая модель искусственного интеллекта, обученная по специальной методике, может эффективно решать задачи поиска и разработки лекарств.

Разработана интегрированная среда MMAI Gym, объединяющая данные, обучение и эталонные тесты, что позволяет комплексно оценивать и совершенствовать алгоритмы машинного обучения в различных сценариях.

В статье представлена платформа MMAI Gym для обучения языковых моделей в области молекулярного обоснования и демонстрируется, что она позволяет достичь конкурентоспособных результатов без использования чрезмерно крупных моделей.

Несмотря на успехи больших языковых моделей, их применение к специализированным задачам, таким как открытие лекарств, часто требует значительных ресурсов и не гарантирует достижения необходимого уровня понимания. В работе ‘MMAI Gym for Science: Training Liquid Foundation Models for Drug Discovery’ представлена платформа MMAI Gym, предназначенная для обучения фундаментальных моделей ‘языку молекул’ и решения практических задач в области разработки лекарственных средств. Показано, что специально обученная, более компактная модель, Liquid Foundation Model (LFM), превосходит по своим характеристикам значительно более крупные универсальные или специализированные модели в ключевых задачах, включая оптимизацию молекул и предсказание фармакологических свойств. Не является ли такой подход, ориентированный на целенаправленное обучение, более эффективным путем к созданию интеллектуальных систем для решения сложных научных задач?

Молекулярный Лабиринт: Вызовы Рассуждений

Традиционные методы машинного обучения испытывают значительные трудности при работе со сложной графоподобной структурой молекулярных данных. Молекулы не являются последовательностями, подобно тексту или изображениям, а представляют собой сети атомов, связанных химическими связями. Это означает, что стандартные алгоритмы, разработанные для обработки последовательных данных, не могут эффективно учитывать пространственные взаимосвязи и химические свойства, определяющие поведение молекул. В результате, точность предсказания химических характеристик, таких как реакционная способность, растворимость или биологическая активность, существенно снижается. Неспособность адекватно представлять и анализировать эту сложную структуру ограничивает возможности применения машинного обучения в областях, требующих глубокого понимания молекулярных взаимодействий, включая разработку новых лекарственных препаратов и материалов.

Стандартные архитектуры Transformer, несмотря на свою эффективность в обработке последовательностей, сталкиваются с ограничениями при работе с молекулярными структурами, представленными в виде графов. Проблема заключается в том, что количество узлов (атомов) в сложных молекулах быстро растет, что приводит к экспоненциальному увеличению вычислительных затрат и требований к памяти. Это особенно критично для задач ретросинтеза, где необходимо исследовать огромное пространство возможных химических реакций и путей синтеза. По мере увеличения размера молекулы, способность Transformer эффективно улавливать долгосрочные зависимости между атомами и функциональными группами снижается, что приводит к ухудшению точности предсказаний и ограничению возможности моделировать сложные химические трансформации. В результате, для эффективного решения задач, связанных с молекулярным моделированием, требуется разработка специализированных архитектур и методов, способных преодолеть эти масштабируемые ограничения.

Современные методы, применяемые в исследовании и разработке лекарственных средств, часто сталкиваются с проблемой нехватки размеченных данных — информации, необходимой для обучения моделей машинного обучения. Этот дефицит становится существенным препятствием, замедляя процесс открытия новых соединений и увеличивая его стоимость. Обучение моделей, требующих обширных наборов данных, затруднено, поскольку получение и валидация таких данных — трудоемкий и дорогостоящий процесс. В связи с этим, все большее внимание уделяется разработке методов, способных эффективно обучаться на ограниченном количестве размеченных данных, используя, например, самообучение или обучение с подкреплением, что позволит значительно ускорить и удешевить процесс создания новых лекарств и материалов.

LFM2: Гибридная Архитектура для Эффективных Рассуждений

Модель Liquid Foundation Model (LFM2) представляет собой гибридную архитектуру, объединяющую преимущества моделей на основе пространств состояний (State Space Models, SSM) и механизмов внимания. В отличие от традиционных трансформеров, требующих квадратичного увеличения вычислительных ресурсов с ростом длины последовательности, LFM2 достигает субквадратичной сложности $O(N log N)$ или даже $O(N)$ , где N — длина последовательности. Это достигается за счет интеграции SSM для эффективной обработки длинных последовательностей и механизмов внимания для моделирования взаимосвязей между элементами последовательности. Комбинация этих подходов позволяет LFM2 эффективно масштабироваться для обработки более длинных последовательностей данных, сохраняя при этом высокую производительность в задачах, требующих понимания контекста.

Модель LFM2-2.6B использует комбинацию Gated Short Convolution и Grouped-Query Attention для ускорения обработки последовательностей. Gated Short Convolution позволяет эффективно захватывать локальные зависимости в данных, снижая вычислительную сложность по сравнению с полными свертками. Grouped-Query Attention, в свою очередь, уменьшает объем вычислений, связанных с механизмом внимания, за счет разделения ключей и значений на группы, что позволяет обрабатывать более длинные последовательности без значительного увеличения потребления памяти и времени вычислений. Такой подход позволяет достичь высокой скорости обработки данных, сохраняя при этом способность модели эффективно представлять и обрабатывать сложные зависимости в данных.

Предварительная нормализация RMSNorm играет ключевую роль в обеспечении стабильности и эффективности обучения больших языковых моделей, таких как LFM2. В отличие от традиционных методов нормализации, применяемых после слоев внимания и полносвязных слоев, RMSNorm применяется до них. Это позволяет избежать проблем, связанных с экспоненциальным ростом или затуханием активаций в процессе обратного распространения ошибки, что особенно актуально для глубоких и масштабных архитектур. Использование RMSNorm снижает потребность в тщательной инициализации весов и подборе скорости обучения, ускоряя процесс обучения и повышая его устойчивость к различным гиперпараметрам. $\text{RMSNorm}(x) = \frac{x}{\sqrt{\text{mean}(x^2) + \epsilon}}$ , где ε — небольшое число для предотвращения деления на ноль.

Гибридная языковая модель LFM2, основанная на последовательных операторах с использованием взвешенных коротких свёрток, обеспечивает повышенную производительность и эффективность при увеличении скорости предварительной обработки и декодирования <span class="katex-eq" data-katex-display="false"> (Amini et al., 2025) </span>. — Гибридная языковая модель LFM2, основанная на последовательных операторах с использованием взвешенных коротких свёрток, обеспечивает повышенную производительность и эффективность при увеличении скорости предварительной обработки и декодирования $(Amini et al., 2025)$ .

Адаптация и Оценка для Открытия Лекарств

Для адаптации модели LFM2 к конкретным задачам в области разработки лекарств используются методы тонкой настройки с применением контролируемого и подкрепляющего обучения. В качестве обучающих данных применяются наборы данных, такие как TDC (Target Discovery Compound). Контролируемое обучение позволяет модели научиться предсказывать желаемые результаты на основе размеченных данных, в то время как подкрепляющее обучение позволяет оптимизировать стратегию генерации молекул для достижения определенных целей, например, максимизации активности или минимизации токсичности. Комбинация этих подходов обеспечивает гибкость и эффективность адаптации LFM2 к широкому спектру задач, включая поиск новых соединений, оптимизацию существующих и предсказание свойств молекул.

Для достижения высокой производительности при тонкой настройке модели LFM2 в задачах открытия лекарств, критически важными являются алгоритмы оптимизации AdamW и Group Relative Policy Optimization. AdamW, являясь вариантом Adam, использует коррекцию веса, предотвращая переобучение и улучшая обобщающую способность модели. Group Relative Policy Optimization, в свою очередь, оптимизирует процесс обучения с подкреплением, эффективно исследуя пространство параметров и находя оптимальные решения для многоцелевой оптимизации, что особенно важно при ретросинтезе и редактировании функциональных групп. Комбинация этих алгоритмов обеспечивает стабильное и быстрое схождение обучения, позволяя LFM2 достигать передовых результатов на бенчмарках, таких как USPTO-50K, URSA-expert-2026, FGBench и MuMO-Instruct.

Тщательная оценка модели LFM2 проводилась на стандартных бенчмарках, включая USPTO-50K, URSA-expert-2026, FGBench и MuMO-Instruct, что позволило продемонстрировать ее превосходные результаты в задачах ретросинтеза, редактирования функциональных групп и многоцелевой оптимизации. В частности, на бенчмарке USPTO-50K для одношагового ретросинтеза LFM2 достигла передовых показателей по метрикам CC (Correctness and Completeness), превзойдя существующие модели в данной области. Полученные результаты подтверждают эффективность LFM2 в решении сложных задач поиска молекулярных путей и оптимизации химических реакций.

Использование обучения с пониженной точностью, а именно формата BF16 (Brain Floating Point 16), позволяет существенно снизить объем занимаемой памяти и ускорить процесс обучения модели LFM2 без значительной потери в производительности. BF16 является 16-битным форматом с плавающей точкой, который обеспечивает баланс между точностью и скоростью вычислений. Снижение точности с 32-битной (FP32) до 16-битной позволяет уменьшить требования к памяти, что особенно важно при работе с большими моделями и на оборудовании с ограниченными ресурсами, а также ускорить операции матричного умножения, критичные для глубокого обучения. В ходе экспериментов не было зафиксировано существенного ухудшения метрик качества модели при переходе на BF16, что подтверждает возможность эффективного использования данного подхода для обучения LFM2.

Модель LFM2-2.6B-MMAI, содержащая 2.6 миллиарда параметров, демонстрирует сопоставимые или передовые результаты в различных задачах молекулярного предсказания. Примечательно, что она часто превосходит модели, размер которых на порядок величины больше. В частности, модель достигает наилучшего общего процента успешности на наборе данных MuMO-Instruct и обеспечивает сопоставимую точность с современными моделями (State-of-the-Art) в задачах функционального рассуждения на наборе данных FGBench.

Расширение Инструментария: Представление Данных и Среда Обучения

Эффективное представление молекулярных структур достигается посредством токенизации строк SMILES и SELFIES. Данный подход позволяет преобразовать сложные химические формулы в последовательности токенов, понятные для языковых моделей. Вместо непосредственной обработки графических представлений молекул, модель оперирует с этими токенами, что значительно упрощает процесс обучения и повышает эффективность предсказаний. Токенизация позволяет модели выявлять закономерности в структуре молекул и устанавливать связи между структурой и свойствами, открывая возможности для разработки новых соединений с заданными характеристиками. Вместо анализа атомов и связей напрямую, модель учится предсказывать последовательности токенов, соответствующие определенным молекулярным свойствам, что обеспечивает более гибкий и масштабируемый подход к решению задач в области химии и фармакологии.

Для повышения эффективности языковых моделей в области разработки лекарств, была создана среда MMAI Gym — структурированная платформа для обучения и оценки. Данная платформа обеспечивает не просто формальное освоение навыков, но и развитие способности к логическому мышлению, специфичному для химической и биологической областей. MMAI Gym предоставляет тщательно подобранные задачи и сценарии, имитирующие реальные проблемы, с которыми сталкиваются исследователи при создании новых лекарственных препаратов. Это позволяет моделям не просто генерировать химические структуры, но и обосновывать свои решения, учитывая известные закономерности и принципы действия веществ, что критически важно для разработки безопасных и эффективных лекарств. Такой подход позволяет значительно улучшить качество и надежность предсказаний, а также расширить возможности применения языковых моделей в сфере фармацевтики.

Сочетание эффективной архитектуры, специализированного обучения и надежной системы оценки позволяет модели LFM2 выступать в роли мощного инструмента для предсказания свойств молекул и их проектирования. Разработчики достигли значительных успехов в оптимизации вычислительной эффективности модели, что позволяет ей обрабатывать сложные химические структуры с высокой скоростью. Специализированное обучение, ориентированное на задачи, связанные с молекулярной биологией и химией, значительно повысило точность предсказаний. Надежная система оценки, включающая разнообразные наборы данных и метрики, гарантирует, что LFM2 способна к обобщению и применению в реальных сценариях открытия лекарств и материаловедении. Таким образом, LFM2 представляет собой перспективное решение для исследователей, стремящихся ускорить процесс разработки новых соединений с заданными свойствами.

Представленная работа демонстрирует, что для достижения значимых результатов в области разработки лекарств не всегда требуется наращивание вычислительных мощностей и увеличение размеров моделей. Вместо этого, акцент делается на тщательно подобранном наборе данных и методах обучения, что позволяет относительно небольшим языковым моделям конкурировать с гигантами индустрии. В этом контексте, слова Винтона Серфа приобретают особое значение: «Контроль — это иллюзия, требующая SLA». Ведь попытки жестко контролировать все аспекты обучения модели обречены на провал, а истинный прогресс достигается через создание гибких, самообучающихся систем, способных адаптироваться к меняющимся условиям и находить неожиданные решения. Данное исследование подтверждает, что экосистема обучения, а не сама модель, является ключевым фактором успеха.

Что дальше?

Представленная работа, подобно садовнику, взрастившему сильное растение из скромного семени, ставит под вопрос непрекращающуюся гонку за размером в мире языковых моделей. Она намекает, что истинная сила кроется не в количестве параметров, а в искусстве их настройки и в качестве питательной среды — данных и методов обучения. Однако, тишина системы не должна обманывать. Каждая успешно решенная задача в области открытия лекарств порождает еще больше нерешенных, скрытых в тени кажущейся победы.

Следующим этапом, вероятно, станет не просто улучшение метрик, а понимание границ применимости таких моделей. Какие типы молекулярных взаимодействий остаются недоступными для понимания? Где возникают систематические ошибки, замаскированные под статистическую значимость? И самое главное — как эти модели будут взаимодействовать с человеческим интеллектом, а не заменять его? Ведь даже самый совершенный алгоритм — лишь инструмент, а не пророк.

Поиск оптимального баланса между размером модели, объемом данных и сложностью задачи — это не инженерная проблема, а скорее, искусство предвидения будущих сбоев. Каждый архитектурный выбор — это пророчество о потенциальной уязвимости. И пока система продолжает учиться, она неизбежно будет совершать ошибки — и в этом ее суть. Отладка никогда не закончится — просто однажды прекратят смотреть.

Оригинал статьи: https://arxiv.org/pdf/2603.03517.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-05 23:12

🚀 Квантовые новости