Автор: Денис Аветисян
Исследователи разработали систему, использующую искусственный интеллект для создания новых молекул, способных вызывать приятные запахи, преодолевая ограничения в области обонятельной науки.

Предложенная система объединяет вариационные автоэнкодеры и количественные соотношения структура-активность для генерации синтетически достижимых и перспективных молекул-одоррантов.
Несмотря на важность новых обонятельных молекул для парфюмерной и пищевой промышленности, эффективный поиск в огромном химическом пространстве остается сложной задачей. В данной работе, посвященной разработке ‘QSAR-Guided Generative Framework for the Discovery of Synthetically Viable Odorants’, предложен инновационный подход, сочетающий вариационный автоэнкодер (VAE) и количественную зависимость структура-активность (QSAR) для генерации новых, синтетически достижимых, ароматических соединений даже при ограниченном наборе обучающих данных. Полученные результаты демонстрируют, что предложенная модель не только формирует структурированное латентное пространство, отражающее вероятность запаха, но и генерирует соединения с новыми структурными каркасами, выходя за рамки простой модификации известных молекул. Открывает ли это путь к созданию принципиально новых ароматических профилей и расширению границ ольфакторной науки?
Декодирование аромата: вызов молекулярного представления
Предсказание запаха представляет собой исключительно сложную задачу, обусловленную нелинейной связью между молекулярной структурой и восприятием. Несмотря на кажущуюся простоту — молекула взаимодействует с обонятельными рецепторами — этот процесс оказывается поразительно многогранным. Один и тот же структурный мотив может вызывать совершенно различные запахи, а незначительные изменения в молекуле способны кардинально изменить её обонятельное впечатление. Эта сложность обусловлена не только физико-химическими свойствами молекулы, но и индивидуальными особенностями обонятельной системы, включая вариации в экспрессии обонятельных рецепторов и индивидуальном опыте. Поэтому, несмотря на значительный прогресс в области химии и нейробиологии, создание точной и универсальной модели предсказания запаха остается одной из самых трудных задач современной науки.
Традиционные методы анализа запахов, такие как газохроматография-масс-спектрометрия, часто оказываются недостаточными для полного описания обонятельного опыта. Определение запаха требует не только идентификации отдельных молекул, но и учета их взаимодействия с обонятельными рецепторами, а также субъективного восприятия. Поэтому, для точной оценки даже относительно простых ароматов, требуется проведение обширных экспериментов с участием обученных дегустаторов, что значительно увеличивает стоимость и продолжительность исследований. В результате, создание исчерпывающей базы данных запахов, учитывающей все нюансы восприятия, представляется сложной и дорогостоящей задачей, препятствующей развитию таких областей, как парфюмерия, пищевая промышленность и диагностика заболеваний.
Для создания эффективных вычислительных моделей, способных предсказывать запахи, необходимо разработать надежное представление молекулярных структур и их обонятельных свойств. Традиционные подходы, опирающиеся на простую связь между химической формулой и восприятием, оказываются недостаточными из-за сложности взаимодействия молекул с обонятельными рецепторами. Более перспективным является подход, учитывающий не только состав молекулы, но и ее трехмерную форму, поляризацию, а также способность к образованию водородных связей и других межмолекулярных взаимодействий. Такое представление, включающее детальное описание электронной структуры и конформационной гибкости молекулы, позволяет создать более точные алгоритмы, способные предсказывать интенсивность и характер запаха, что открывает возможности для автоматизированного дизайна ароматизаторов и разработки новых обонятельных технологий. Успех в этой области напрямую зависит от способности точно и компактно закодировать всю необходимую информацию о молекуле, чтобы компьютер мог эффективно ее обработать и сопоставить с субъективным опытом восприятия запаха.

Генеративный подход: постижение языка ароматов
Для представления молекулярных структур используется вариационный автоэнкодер (VAE), позволяющий получить сжатое представление в виде «латентного пространства». VAE преобразует входные данные — SMILES-строки, описывающие молекулу — в вектор меньшей размерности, сохраняющий ключевые характеристики структуры. Латентное пространство организовано таким образом, что близкие векторы соответствуют молекулам со схожими свойствами, что позволяет эффективно исследовать химическое пространство и проводить генерацию новых молекул. Размерность латентного пространства является гиперпараметром модели и определяет степень сжатия информации о молекуле.
В основе нашей системы лежит вариационный автоэнкодер (VAE), принимающий на вход SMILES-строку — текстовое представление молекулярной структуры. SMILES-строка преобразуется VAE в вектор меньшей размерности, представляющий собой сжатое кодирование существенных характеристик молекулы. Этот процесс кодирования позволяет снизить вычислительную сложность последующих операций и выделить наиболее значимые признаки, определяющие свойства молекулы, такие как её форма, функциональные группы и общая структура. Векторное представление служит основой для обучения модели и генерации новых молекулярных структур.
В архитектуру вариационного автоэнкодера (VAE) интегрирован модуль предсказания запаха (Odor Prediction Head), предназначенный для оценки вероятности наличия у молекулы различимого обонятельного восприятия. Этот модуль представляет собой нейронную сеть, обученную на размеченных данных о молекулах и их запахах. Входными данными для модуля служат векторы, полученные из скрытого пространства VAE, а выходным — вероятность, выраженная в диапазоне от 0 до 1, отражающая степень вероятности того, что молекула обладает ощутимым запахом. Использование данного модуля позволяет VAE не только генерировать новые молекулярные структуры, но и предварительно оценивать их потенциальные обонятельные свойства.
Обучение латентного пространства позволяет вариационному автоэнкодеру (VAE) генерировать новые молекулярные структуры, обладающие предсказуемыми обонятельными свойствами. В процессе генерации VAE использует полученное сжатое представление молекул для создания новых ‘Smiles строк’, соответствующих потенциально пахнущим соединениям. Вероятность наличия у сгенерированной молекулы различимого запаха оценивается с помощью интегрированной ‘головы предсказания запаха’ (Odor Prediction Head), что позволяет отбирать соединения с наиболее вероятными обонятельными характеристиками. Этот процесс позволяет создавать новые молекулы, не встречающиеся в исходном наборе данных, с прогнозируемыми запахами.

Уточнение модели: учет смещения данных и валидация
Для решения проблемы дисбаланса классов в обучающих данных используется метод SMOTE (Synthetic Minority Oversampling Technique). SMOTE позволяет генерировать синтетические образцы для недостаточно представленных классов ароматических соединений, что повышает эффективность QSAR (Quantitative Structure-Activity Relationship) модели. Этот подход позволяет модели более адекватно обучаться на всех классах соединений, предотвращая смещение в сторону преобладающих классов и улучшая общую точность прогнозирования активности ароматических соединений.
Модель количественной зависимости структура-активность (QSAR) играет ключевую роль в обучении «головы предсказания запаха», обеспечивая необходимый контролирующий сигнал. Использование QSAR позволяет достичь высокой точности предсказания вероятности запаха, подтвержденной значением F1-меры в 0.97. Данный подход предполагает, что QSAR модель, обученная на известных структурах и запахах, предоставляет надежные метки для обучения компонента, отвечающего за предсказание запаха новых молекул, тем самым повышая общую эффективность системы.
Для валидации производительности VAE использовался датасет ‘Unique Good Scents Dataset’, представляющий собой набор молекул с известными запахами. Анализ сгенерированных VAE молекул показал, что большая часть предложенных структур обладает химической правдоподобностью и соответствует характеристикам, ожидаемым от пахучих соединений. Это подтверждает способность модели генерировать не только существующие, но и потенциально новые молекулы, которые могут обладать определенным запахом, что открывает возможности для дальнейших исследований в области дизайна ароматизаторов и разработки новых запахов.
Для повышения эффективности модели используются молекулярные дескрипторы, выступающие в роли информативных признаков как для вариационного автоэнкодера (VAE), так и для модели количественных соотношений структура-активность (QSAR). Эти дескрипторы, представляющие собой числовые значения, характеризующие структурные и физико-химические свойства молекул, позволяют модели более эффективно различать и прогнозировать запахи. Использование молекулярных дескрипторов значительно улучшает способность модели к обобщению и повышает точность предсказаний, поскольку они предоставляют информацию, которая не всегда явно закодирована в самой структуре молекулы.

К молекулярному дизайну: синтезируемость и безопасность
Для обеспечения практической реализации разработанных молекул, проводится оценка их синтетической доступности с использованием ретросинтетического анализа. Этот подход позволяет определить, насколько реально произвести каждое соединение в лабораторных условиях, исходя из известных химических реакций и доступных исходных веществ. Важно отметить, что в рамках данной работы, 100% сгенерированных молекул были успешно проанализированы и для каждой из них были идентифицированы конкретные синтетические пути, что гарантирует их потенциальную возможность создания и дальнейшего изучения.
Для обеспечения безопасности создаваемых молекул применяется профилирование ADMET — комплексный анализ, прогнозирующий их всасывание, распределение, метаболизм, выведение и токсичность. Этот процесс позволяет оценить, как соединение будет взаимодействовать с биологическими системами, предсказывая потенциальные риски и неблагоприятные эффекты еще на этапе компьютерного моделирования. В рамках данного подхода, алгоритмы машинного обучения анализируют структурные особенности молекул, выявляя фрагменты, которые могут обусловить нежелательные фармакокинетические или токсикологические свойства. Такой предиктивный анализ позволяет отсеивать небезопасные соединения на ранних стадиях разработки, существенно снижая риски и затраты, связанные с дальнейшими экспериментальными исследованиями.
Для подтверждения стабильности и предсказуемых свойств разработанных молекул, в процесс проектирования интегрированы квантово-механические расчеты. Эти вычисления позволяют определить электронную структуру, энергетические уровни и реакционную способность соединений, выявляя потенциально нестабильные или нежелательные характеристики на стадии проектирования. Такой подход, основанный на принципах квантовой механики, позволяет с высокой точностью предсказывать физико-химические свойства молекул, такие как дипольный момент, поляризуемость и спектральные характеристики, обеспечивая тем самым создание соединений с заданными свойствами и повышенной надежностью. Использование квантово-механических методов значительно повышает вероятность успешного синтеза и применения разработанных молекул в различных областях, от материаловедения до фармацевтики.
Автоэнкодер (VAE), обученный на обширной базе данных ChemBL, продемонстрировал способность к изучению фундаментальных принципов молекулярного строения. Этот процесс позволяет генерировать новые молекулы, обладающие уникальными ароматическими свойствами. Примечательно, что 74.4% сгенерированных соединений представляют собой скачки по новым молекулярным каркасам, то есть обладают структурными особенностями, ранее не встречавшимися в базе данных. Более того, доступность прекурсоров для синтеза этих молекул превышает 70%, что указывает на реалистичность их получения в лабораторных условиях и открывает возможности для дальнейших исследований в области ароматических веществ и парфюмерии.

Без чёткого определения задачи любое решение — шум. Исследование, представленное в данной работе, демонстрирует стремление к математической чистоте в области молекулярного дизайна. Авторы, используя генеративные модели и количественные соотношения структура-активность, стремятся создать не просто работающие, но и доказуемо эффективные молекулы-одоранты. Этот подход, фокусирующийся на латентном пространстве и предсказуемости свойств, соответствует принципу, что алгоритм должен быть верифицирован, а не полагаться на эмпирические данные. Как отмечал Джеймс Максвелл: «Наука — это упорядоченное знание» (Наука есть упорядоченное знание). Эта фраза подчеркивает важность строгой логики и обоснованности, которые являются основой представленного исследования.
Куда Далее?
Представленная работа, безусловно, демонстрирует потенциал генеративных моделей в области обоняния. Однако, если решение кажется магией — значит, инвариант не раскрыт. Простое увеличение размера обучающей выборки QSAR-данных, хотя и необходимое, не решит фундаментальную проблему: недостаточность понимания связи между молекулярной структурой и восприятием запаха. Следующим шагом представляется не просто генерация «новых» молекул, но и разработка теоретической базы, позволяющей предсказывать обонятельные свойства, а не полагаться исключительно на эмпирические корреляции.
Особое внимание следует уделить проблеме валидации. “Успешная” генерация, подтвержденная лишь расчетами QSAR, — это, мягко говоря, недостаточно. Необходимы экспериментальные подтверждения, и здесь кроется сложность: субъективность обонятельного восприятия и высокая стоимость синтеза и анализа. Автоматизация экспериментальной валидации, возможно, с использованием “электронного носа”, представляется перспективным направлением, но и здесь следует помнить о границах применимости подобных устройств.
В конечном счете, истинный прогресс в данной области требует не просто улучшения алгоритмов, а более глубокого понимания биологических механизмов обоняния. Если генеративная модель способна предложить структуру, которая, согласно расчетам, должна обладать определенным запахом, но этот запах не подтверждается экспериментом — ошибка не в модели, а в нашем понимании химии запахов. И это, пожалуй, самое важное.
Оригинал статьи: https://arxiv.org/pdf/2512.23080.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Восполняя пробелы в знаниях: Как языковые модели учатся делать выводы
- Квантовый Монте-Карло: Моделирование рождения электрон-позитронных пар
- Квантовый скачок из Андхра-Прадеш: что это значит?
- Виртуальная примерка без границ: EVTAR учится у образов
- Геометрия на пределе: как алгоритмы оптимизации превосходят языковые модели
- Оптимизация партийных запросов: Метод имитации отжига против градиентных подходов
- Скрытая сложность: Необратимые преобразования в квантовых схемах
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
2026-01-01 00:00