Химик-Искусственник: Новый тест для интеллекта в химии

Автор: Денис Аветисян


Исследователи представили MolQuest — платформу, позволяющую оценить способность искусственного интеллекта самостоятельно определять молекулярные структуры на основе экспериментальных данных.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
В исследовании Molquest сравниваются подходы больших языковых моделей и химиков-людей к химическому мышлению и принятию решений, демонстрируя различия в стратегиях решения задач, связанных с молекулярными структурами и реакциями.
В исследовании Molquest сравниваются подходы больших языковых моделей и химиков-людей к химическому мышлению и принятию решений, демонстрируя различия в стратегиях решения задач, связанных с молекулярными структурами и реакциями.

MolQuest — это динамичный бенчмарк для оценки способности больших языковых моделей к абдуктивному рассуждению в задаче определения химической структуры.

Несмотря на значительный потенциал больших языковых моделей (LLM) в научных открытиях, систематическая оценка их способности к динамическому рассуждению в реальных исследовательских сценариях остается недостаточной. В настоящей работе представлена новая платформа ‘MolQuest: A Benchmark for Agentic Evaluation of Abductive Reasoning in Chemical Structure Elucidation’ — агентская среда для оценки LLM в задаче установления молекулярной структуры на основе аутентичных экспериментальных данных. Полученные результаты демонстрируют, что даже самые современные модели показывают низкую точность — около 50% — в имитации работы химика, требующей планирования экспериментов и интеграции разнородных спектральных данных. Каковы перспективы создания LLM, способных активно участвовать в научном процессе и решать сложные задачи химического анализа?


Погоня за иллюзией: LLM и сложность научных задач

Несмотря на впечатляющие успехи больших языковых моделей (LLM) в различных областях, их применение к сложным научным задачам, таким как определение молекулярной структуры, сталкивается с существенными ограничениями. LLM демонстрируют трудности в стратегическом мышлении и последовательном принятии решений, необходимых для решения многоступенчатых научных проблем. В отличие от человека-ученого, способного планировать эксперименты, анализировать промежуточные результаты и корректировать стратегию, LLM зачастую оперируют статистическими закономерностями, а не глубоким пониманием принципов химии или физики. Это приводит к неспособности эффективно справляться с задачами, требующими гибкости и адаптации к новым данным, что существенно ограничивает их потенциал в научных исследованиях и открытиях.

Существующие эталоны оценки, такие как ChembBench и ChemiQ, безусловно, представляют ценность для первичной проверки возможностей больших языковых моделей в химии. Однако, их статичная природа и ограниченная сложность зачастую не позволяют в полной мере оценить способность модели к проведению полноценного научного исследования. Эти тесты, как правило, концентрируются на однократных предсказаниях или решении изолированных задач, не отражая динамичный и итеративный характер реальной научной работы, где решения принимаются последовательно, опираясь на результаты предыдущих шагов и требующие адаптации к новым данным. Для адекватной оценки требуется создание более сложных эталонов, моделирующих многоступенчатые эксперименты и позволяющих оценить способность модели к стратегическому планированию и коррекции курса в процессе решения научной задачи.

Существующие методы оценки возможностей больших языковых моделей (LLM) в научной сфере часто опираются на статические наборы данных, что не позволяет в полной мере отразить динамику реальных исследовательских процессов. В настоящих научных изысканиях эксперименты редко проводятся однократно; скорее, это итеративный цикл, включающий анализ результатов, корректировку стратегии и повторные испытания. Оценка, ограничивающаяся статичными данными, не учитывает способность модели адаптироваться к новым данным, делать логические выводы на основе промежуточных результатов и эффективно планировать последовательность действий для достижения научной цели. Таким образом, для адекватной оценки потенциала LLM в решении сложных научных задач необходимо разрабатывать методы оценки, имитирующие итеративный и адаптивный характер реальных научных рабочих процессов, где модель должна демонстрировать не только знание фактов, но и умение применять их в динамично меняющейся обстановке.

Определение молекулярной структуры представлено как задача поиска решения при заданных ограничениях (Constraint Satisfaction Problem).
Определение молекулярной структуры представлено как задача поиска решения при заданных ограничениях (Constraint Satisfaction Problem).

MolQuest: Динамический полигон для искусственного интеллекта-химика

MolQuest представляет собой инновационную агентскую платформу, предназначенную для оценки больших языковых моделей (LLM) в контексте установления структуры молекул, воспроизводя итеративный процесс, характерный для реальных научных исследований. В отличие от традиционных статических бенчмарков, MolQuest создает динамическую среду, в которой LLM, выступая в роли агента, активно собирает данные, имитирующие результаты масс-спектрометрии и ЯМР-спектроскопии, и на их основе уточняет свои гипотезы о молекулярной структуре. Платформа позволяет оценивать способность LLM к последовательному анализу экспериментальных данных и адаптации стратегии исследования, что делает ее более приближенной к реальным задачам, стоящим перед химиками и молекулярными биологами.

В отличие от статических бенчмарков, MolQuest представляет собой динамическую среду, в которой языковая модель (LLM), выступая в роли агента, должна активно собирать данные, имитирующие результаты масс-спектрометрии и ЯМР-спектроскопии. Этот процесс включает в себя не просто анализ предоставленной информации, но и инициирование “экспериментов” для получения дополнительных данных, необходимых для уточнения гипотез о молекулярной структуре. LLM формирует и проверяет гипотезы, основываясь на собранных данных, итеративно улучшая свою оценку молекулы. Такой подход моделирует реальный научный процесс, где исследователи активно взаимодействуют с экспериментальными данными для решения сложной задачи.

В основе MolQuest лежит принцип абдуктивного рассуждения, требующий от языковой модели (LLM) вывода наиболее вероятной молекулярной структуры на основании неполных и потенциально зашумленных экспериментальных данных. В отличие от дедуктивного подхода, где истинность заключения гарантируется истинностью предпосылок, абдукция предполагает построение наилучшего объяснения наблюдаемым данным. В MolQuest LLM, выступая в роли агента, получает результаты моделируемых спектрометрических измерений (масс-спектрометрия и ЯМР), которые могут содержать погрешности и не полностью определять структуру молекулы. Модель должна использовать эти данные для формирования и проверки гипотез о молекулярной структуре, выбирая наиболее правдоподобное решение, даже при наличии неопределенности.

Визуализация химического пространства эталонного набора молекул, полученная с помощью молекулярных отпечатков и снижения размерности t-SNE, позволяет оценить распределение молекул в многомерном пространстве признаков.
Визуализация химического пространства эталонного набора молекул, полученная с помощью молекулярных отпечатков и снижения размерности t-SNE, позволяет оценить распределение молекул в многомерном пространстве признаков.

Калибровка и консервативность: оценка не только точности

Оценка моделей предсказания молекулярных структур в MolQuest включает не только финальную точность, но и калибровку — соответствие между уверенностью модели в своем предсказании и фактической корректностью результата. Высокая калибровка означает, что модель правильно оценивает свою уверенность: когда она предсказывает структуру с высокой уверенностью, предсказание действительно верно в большинстве случаев, и наоборот. Низкая калибровка указывает на то, что модель может быть слишком самоуверенной в неверных предсказаниях или недостаточно уверенной в верных, что критически важно для надежности и воспроизводимости научных результатов. Оценка калибровки позволяет выявить модели, которые не только дают точные предсказания, но и способны адекватно оценивать степень своей уверенности.

В рамках бенчмарка MolQuest особое внимание уделяется сохранению химической формулы предсказанных молекул. Модель Gemini 3 Pro продемонстрировала показатель в 93.57% по этому критерию, что свидетельствует о высокой степени соответствия предсказанных структур фундаментальным химическим принципам и эмпирическим данным. Данный показатель отражает способность модели генерировать химически валидные структуры, в которых количество атомов каждого элемента соответствует ожидаемому, что критически важно для достоверности и применимости результатов в научных исследованиях и разработках.

В рамках MolQuest, оценка стратегического планирования моделей Gemini 3 Flash и Pro проводилась с использованием Agent-Based Framework. Результаты показали, что обе модели в среднем требуют 4.7-4.8 раундов взаимодействия для получения необходимой информации и формирования предсказания. Данный показатель свидетельствует об эффективном использовании моделей ресурсов и оптимизации процесса поиска решений, что является важным критерием оценки качества интеллектуальных систем в области молекулярного моделирования.

Тепловая карта матрицы парного сходства для эталонного набора молекул, рассчитанная на основе молекулярных отпечатков, позволяет визуализировать степень взаимосвязи между ними.
Тепловая карта матрицы парного сходства для эталонного набора молекул, рассчитанная на основе молекулярных отпечатков, позволяет визуализировать степень взаимосвязи между ними.

К надежному ИИ для научных рабочих процессов

Платформа MolQuest предоставляет уникальную возможность сравнительного анализа производительности различных больших языковых моделей (LLM), включая GPT-5.2, Gemini 3-Pro и Qwen-3-Max, в строго контролируемых и сложных условиях. Этот подход позволяет объективно оценить способности каждой модели в решении научных задач, что особенно важно для разработки надежных инструментов искусственного интеллекта. Результаты исследований, полученные на базе MolQuest, демонстрируют передовые показатели точности определения структуры молекул: Gemini 3 Flash достигает точности в 51.51%, а Gemini 3 Pro — 48.30%. Такие количественные оценки, полученные в единой среде, способствуют прогрессу в области применения LLM для научных исследований и разработки новых материалов.

Платформа MolQuest спроектирована таким образом, чтобы стимулировать создание интеллектуальных агентов, способных к активному обучению и адаптации к новым данным, что отражает итеративный характер научного исследования. В отличие от статических систем, MolQuest предоставляет динамичную среду, где агенты могут получать обратную связь, корректировать свои стратегии и совершенствовать свои навыки решения сложных задач в области молекулярной химии. Это создаст замкнутый цикл, в котором ученые смогут проверять и уточнять гипотезы, сгенерированные искусственным интеллектом, а ИИ сможет учиться на обратной связи от экспертов, постоянно совершенствуя свои алгоритмы и повышая точность прогнозов. Это в конечном итоге ускорит процесс научных открытий и позволит исследовать более сложные и многогранные задачи.

Платформа MolQuest акцентирует внимание на калибровке и сохранении химических формул, что является ключевым фактором для создания не только точных, но и надёжных, научно обоснованных систем искусственного интеллекта. Исследования, проведенные в рамках платформы, демонстрируют, что модель Claude Opus 4.5 достигает точности в 9.18 на 1 миллион токенов, что свидетельствует о значительном прогрессе в области верификации и валидации результатов, генерируемых ИИ в научных вычислениях. Подчеркивая важность этих принципов, MolQuest способствует развитию ИИ, способного не просто выдавать ответы, а и демонстрировать внутреннюю согласованность и соответствие фундаментальным научным законам, что критически важно для доверия к результатам и их дальнейшего использования в исследованиях.

Представленная схема иллюстрирует последовательность этапов обработки данных, начиная со сбора и заканчивая анализом результатов.
Представленная схема иллюстрирует последовательность этапов обработки данных, начиная со сбора и заканчивая анализом результатов.

Расширение горизонтов: ИИ-управляемое научное открытие

В дальнейшем планируется интеграция MolQuest с конвейерами данных, управляемыми человеком, что позволит экспертам проверять и уточнять гипотезы, сгенерированные искусственным интеллектом. Такой подход, сочетающий вычислительную мощь ИИ с критическим мышлением ученых, призван повысить надежность и значимость полученных результатов. Ученые смогут не только оценивать правдоподобность предложенных MolQuest молекулярных структур, но и вносить коррективы, основываясь на собственном опыте и знаниях предметной области.

Разработка MolQuest открывает перспективы для решения широкого круга сложных научных задач, выходящих за рамки первоначального применения. Исследователи планируют адаптировать этот фреймворк для изучения проблемы сворачивания белков — фундаментального процесса в биологии, а также для открытия новых материалов с заданными свойствами. Успешная реализация этих направлений позволит значительно ускорить процесс разработки лекарств и создание инновационных технологий. Применение MolQuest к этим разнообразным областям не только подтвердит универсальность подхода, но и выявит потенциальные улучшения в алгоритмах и методах анализа данных, что, в свою очередь, приведет к созданию более эффективных инструментов для научных исследований в целом.

В перспективе, ключевой задачей является создание искусственного интеллекта, способного не просто помогать ученым в анализе данных и моделировании, но и самостоятельно формулировать научные гипотезы и проверять их экспериментально. Такой автономный подход позволит значительно ускорить темпы научных открытий, освободив исследователей от рутинных задач и предоставив возможность сосредоточиться на более сложных и творческих аспектах работы. Автономные системы, способные к самообучению и генерации новых идей, потенциально могут решать научные проблемы, которые ранее казались неразрешимыми, открывая новые горизонты в различных областях знания — от медицины и биологии до физики и материаловедения. Разработка подобных систем требует преодоления значительных технических сложностей, но потенциальные выгоды для науки и человечества делают эту задачу чрезвычайно важной и перспективной.

Представленная схема иллюстрирует последовательность этапов обработки данных, начиная со сбора и заканчивая анализом результатов.
Представленная схема иллюстрирует последовательность этапов обработки данных, начиная со сбора и заканчивая анализом результатов.

Исследование представляет собой очередное подтверждение того, что даже самые передовые модели нуждаются в строгой проверке в условиях, приближенных к реальным. MolQuest, как динамичный бенчмарк, позволяет оценить способность больших языковых моделей действовать как химики, самостоятельно определяя молекулярные структуры. Это, конечно, далёко от идеальной лаборатории, но хотя бы заставляет задуматься о границах возможностей ИИ в науке. Как заметила Барбара Лисков: «Программы должны быть спроектированы так, чтобы их можно было изменить без внесения ошибок». Здесь это особенно актуально: структура MolQuest позволяет модифицировать условия и данные, выявляя слабые места моделей и стимулируя их развитие. Иначе, рано или поздно, все эти «революционные» подходы превратятся в очередной техдолг.

Что дальше?

Представленный бенчмарк MolQuest, безусловно, является очередным шагом в попытке научить алгоритмы имитировать деятельность химика. Однако, стоит помнить, что каждая «интеллектуальная» система рано или поздно сталкивается с реальностью производственных ограничений. Модели могут элегантно выводить структуры из данных, но вопрос в том, насколько быстро эти выводы рухнут под натиском неполных данных, ошибок измерений и, что самое главное, человеческого фактора. Сложность не в алгоритме, а в хаосе лаборатории.

Будущие исследования, вероятно, сосредоточатся на увеличении масштаба и сложности бенчмарка. Но, возможно, более продуктивным направлением будет разработка систем, способных не просто предлагать решения, а оценивать степень их надежности и предсказывать потенциальные проблемы. Необходимо отойти от иллюзии «автономного химика» и сосредоточиться на создании инструментов, усиливающих возможности реальных специалистов. Нам не нужно больше микросервисов для определения молекул — нам нужно меньше иллюзий о том, что их можно определить идеально.

В конечном счете, MolQuest — это лишь очередной рубеж в бесконечной гонке за автоматизацией. И, как показывает история, каждая «революционная» технология завтра станет техдолгом. Заманчиво строить модели, но важнее — понимать, что даже самая совершенная система не сможет заменить критическое мышление и опыт настоящего химика.


Оригинал статьи: https://arxiv.org/pdf/2603.25253.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-27 13:36