Автор: Денис Аветисян
Исследователи разработали систему, способную автоматически создавать оптимальные признаки для предсказания свойств материалов, значительно повышая эффективность материаловедческих исследований.

Представлен фреймворк Automat, использующий агента на основе большой языковой модели для автономного проектирования композиционных дескрипторов, демонстрирующий улучшенные результаты по сравнению с существующими методами.
Традиционные подходы к машинному обучению в материаловедении часто требуют ручной разработки признаков, ограничивая скорость и эффективность поиска новых материалов. В данной работе, посвященной ‘Agentic Design of Compositional Descriptors via Autoresearch for Materials Science Applications’, представлен фреймворк Automat, использующий агента на основе большой языковой модели для автономного проектирования дескрипторов состава для предсказания свойств материалов. Показано, что Automat превосходит существующие методы, такие как дробный состав и Magpie, демонстрируя конкурентоспособные результаты в предсказании ширины запрещенной зоны неорганических материалов и температур Кюри ферромагнетиков. Какие перспективы открываются для дальнейшего развития автономных агентов в области материаловедения и смогут ли они полностью автоматизировать процесс открытия новых материалов?
Вызов предсказания свойств материалов
Предсказание свойств материалов исключительно по их химическому составу является ключевым фактором в ускорении открытия новых материалов с заданными характеристиками. Однако, эта задача представляет собой значительную сложность, обусловленную нелинейностью связи между составом и свойствами, а также огромным разнообразием возможных комбинаций элементов. Точное моделирование требует учета квантово-механических эффектов и сложных взаимодействий между атомами, что затрудняется вычислительными ограничениями. Более того, экспериментальная проверка свойств каждого потенциального материала нереальна из-за огромного объема работы, поэтому разработка надежных и эффективных методов предсказания свойств приобретает критическое значение для материаловедения и смежных областей. Успешное решение данной задачи позволит существенно сократить время и затраты на разработку новых технологий, открывая возможности для создания материалов с беспрецедентными характеристиками.
Традиционные методы предсказания свойств материалов, основанные на вручную разработанных дескрипторах, зачастую оказываются недостаточно гибкими для адекватного описания сложных взаимосвязей между составом и характеристиками вещества. Эти дескрипторы, как правило, представляют собой набор заранее определенных физических или химических параметров, которые исследователи выбирают на основе своего опыта и интуиции. Однако, применительно к новым, сложным материалам, особенно к соединениям с нестандартными составами или сложными кристаллическими структурами, подобный подход может упустить важные факторы, влияющие на свойства. Неспособность учесть нелинейные зависимости, синергетические эффекты между элементами или тонкие изменения в структуре приводит к снижению точности предсказаний и ограничивает возможности автоматизированного поиска новых материалов с заданными характеристиками. Поэтому возникает потребность в методах, способных автоматически выявлять и учитывать сложные композиционные взаимосвязи, не требуя предварительного знания о них.
Огромное количество потенциальных материалов, превышающее все разумные пределы ручного анализа, делает автоматизированные подходы к разработке дескрипторов и предсказанию свойств не просто желательными, а абсолютно необходимыми. Поскольку число комбинаций элементов и их возможных структур экспоненциально растет, традиционные методы, основанные на ручном создании характеристик материалов, становятся непрактичными. Автоматизация позволяет исследовать гораздо более широкое пространство материалов, выявлять закономерности, которые остались бы незамеченными, и ускорить открытие новых веществ с заданными свойствами. Разработка алгоритмов, способных самостоятельно извлекать значимые признаки из химических формул и структур, открывает путь к предсказательной науке о материалах и значительно сокращает время и ресурсы, необходимые для инноваций в различных областях — от энергетики до медицины.

Automat: Автономный поиск композиционных дескрипторов
Automat представляет собой систему автоматизированного поиска, предназначенную для автономной разработки композиционных дескрипторов для предсказания свойств материалов. Данная платформа функционирует как итеративный процесс, в котором происходит предложение, реализация и оценка кандидатов в дескрипторы без непосредственного участия человека. Ключевой особенностью является способность системы самостоятельно генерировать и оптимизировать дескрипторы, что позволяет автоматизировать трудоемкий процесс ручного создания и валидации, традиционно применяемый в материаловедении и машинном обучении.
В основе Automat лежит итеративный процесс генерации и оценки композиционных дескрипторов с использованием большой языковой модели GPT-5.5. Модель последовательно предлагает кандидаты на дескрипторы, которые затем автоматически реализуются в виде вычислимого кода. Далее, предложенные дескрипторы оцениваются на основе их способности предсказывать свойства материалов, используя метрики, определяемые задачей. Результаты оценки используются для корректировки стратегии генерации дескрипторов, формируя замкнутый цикл обратной связи, направленный на оптимизацию производительности и выявление наиболее эффективных признаков.
Процесс работы Automat управляется циклом обратной связи, использующим валидационный набор данных, не участвующий в обучении. Этот подход позволяет оценивать способность разработанных композиционных дескрипторов к обобщению — предсказанию свойств новых материалов, не включенных в обучающую выборку. Валидационный набор данных используется для расчета метрик производительности дескрипторов и корректировки стратегии их разработки, что предотвращает переобучение — ситуацию, когда модель хорошо работает на обучающих данных, но плохо на новых. Регулярная оценка на валидационном наборе данных обеспечивает стабильность и надежность предсказаний, повышая точность и применимость разработанных дескрипторов для широкого спектра материалов.
В основе работы Automat лежит принцип расширения существующих дескрипторов, таких как Фракционное Составление (Fractional Composition) и дескрипторы Magpie, а не создание новых с нуля. Такой подход позволяет значительно сократить время и вычислительные затраты, используя уже проверенные и зарекомендовавшие себя признаки материалов. Automat анализирует существующие дескрипторы, выявляет их ограничения и предлагает модификации или дополнения, направленные на улучшение предсказательной способности модели. Это достигается путем добавления новых членов, комбинаций или преобразований к исходным дескрипторам, что позволяет более эффективно учитывать сложные взаимосвязи между составом материала и его свойствами.

Расширение пространства дескрипторов
Automat успешно генерирует разнообразные дескрипторы состава, включая дескрипторы степени окисления и дескрипторы баланса зарядов, которые позволяют детально учитывать нюансы химического состава материала. Дескрипторы степени окисления определяют формальный заряд атомов в соединении, что важно для понимания его химических свойств и реакционной способности. Дескрипторы баланса зарядов, в свою очередь, отражают электронейтральность соединения, учитывая вклады всех атомов и ионов. Автоматическое вычисление этих дескрипторов на основе химической формулы обеспечивает объективную и воспроизводимую характеристику состава, что является ключевым для последующего моделирования и прогнозирования свойств материалов.
Автоматически генерируемые дескрипторы, основанные исключительно на химической формуле материала, превосходят традиционные методы анализа состава за счет более детального учета валентности и степени окисления каждого элемента. В отличие от подходов, ограничивающихся простым подсчетом атомов, данная методика позволяет вычислять такие параметры, как суммарный заряд и баланс окисления, предоставляя количественную оценку электронного состояния материала. Это расширение информационного поля позволяет более точно характеризовать состав и прогнозировать свойства, особенно в сложных системах, где даже незначительные изменения в составе могут существенно влиять на функциональные характеристики.
В рамках разработанной системы эффективно интегрируются дескрипторы, характеризующие магнитное упорядочение, в частности, дескрипторы магнитных подрешеток. Эти дескрипторы, вычисляемые автоматически на основе кристаллической структуры и магнитных моментов, позволяют количественно оценить влияние магнитных взаимодействий на свойства материалов. Особую ценность они представляют при прогнозировании температуры Кюри T_C, определяющей переход из ферромагнитного в парамагнитное состояние, поскольку учитывают как величину, так и направление магнитных моментов в различных подрешетках.
Автоматически сгенерированные дескрипторы, включающие информацию о составе и магнитных свойствах материалов, используются в качестве входных признаков для модели случайного леса (Random Forest). Этот подход позволяет модели эффективно обучаться на основе количественных характеристик состава и предсказывать различные свойства материалов с высокой точностью. Использование Random Forest, в частности, обеспечивает устойчивость к переобучению и позволяет оценивать важность каждого дескриптора для конкретной предсказываемой характеристики, что способствует дальнейшей оптимизации набора признаков и повышению точности предсказаний.

Валидация и влияние на предсказание свойств
Модель случайного леса, обученная на дескрипторах, автоматически сгенерированных системой Automat, продемонстрировала высокую предсказательную способность как для экспериментальной ширины запрещенной зоны, так и для температуры Кюри. Этот подход позволяет с высокой точностью прогнозировать ключевые свойства материалов, используя лишь автоматически извлеченные характеристики, что значительно упрощает процесс поиска новых соединений с заданными параметрами. Предсказательная сила модели подтверждается как низким значением средней абсолютной ошибки (MAE), так и высоким коэффициентом детерминации R^2, что свидетельствует о надежности и адекватности полученных результатов и открывает возможности для эффективного скрининга материалов с требуемыми свойствами.
Тщательная оценка предложенного подхода с использованием кросс-валидации подтвердила его надежность и способность к обобщению. Данный метод позволил убедиться в том, что модель стабильно демонстрирует высокую точность предсказаний не только на обучающей выборке, но и на новых, ранее не виденных данных. Кросс-валидация, включающая в себя многократное разделение данных на обучающие и тестовые подмножества, позволила минимизировать риск переобучения и убедиться в том, что полученные результаты отражают истинную закономерность, а не случайные особенности конкретной выборки. Такой подход гарантирует, что модель способна эффективно прогнозировать свойства материалов даже в случае незначительных изменений в структуре данных, что критически важно для практического применения в материаловедении и ускорения процесса открытия новых материалов с заданными характеристиками.
Автоматизированная система Automat значительно упрощает процесс открытия новых материалов благодаря своей способности к автономной оптимизации дескрипторов. Традиционно, создание эффективных дескрипторов, определяющих свойства материала, требовало значительных усилий и экспертных знаний в области материаловедения и машинного обучения. Automat же самостоятельно выявляет наиболее релевантные признаки, устраняя необходимость в ручном подборе и инженерной доработке. Это не только экономит время и ресурсы, но и позволяет исследовать более широкий спектр материалов и свойств, открывая возможности для быстрого и эффективного поиска соединений с заданными характеристиками. Автономная оптимизация дескрипторов позволяет существенно ускорить цикл открытия материалов, снижая затраты на исследования и разработки.
Автоматизированный подход, реализованный в системе Automat, открывает новые возможности для ускорения поиска перспективных материалов с заданными свойствами. Используя алгоритмы машинного обучения и самостоятельно оптимизируя набор дескрипторов, система значительно сокращает время, необходимое для выявления веществ, обладающих требуемыми характеристиками, такими как ширина запрещенной зоны или температура Кюри. Этот процесс позволяет исследователям сосредоточиться на анализе и верификации предсказанных материалов, а не на трудоемкой ручной разработке признаков. Благодаря повышению эффективности поиска, Automat способствует более быстрому внедрению инновационных материалов в различные области науки и техники, от электроники до энергетики.
В ходе тестирования, система Automat продемонстрировала высокую точность в предсказании экспериментальной ширины запрещенной зоны, достигнув средней абсолютной ошибки (MAE) в 0.352 эВ. Это представляет собой значительное улучшение — на 12.7% — по сравнению с лучшим из существующих базовых методов, показавшим результат в 0.407 эВ. Такая высокая степень точности указывает на эффективность разработанных системой Automat дескрипторов и алгоритмов в моделировании энергетических характеристик материалов, что открывает возможности для целенаправленного поиска новых соединений с заданными оптическими свойствами. Достигнутое снижение ошибки свидетельствует о перспективности подхода для автоматизации процесса материаловедения и ускорения открытия инновационных материалов.
В ходе исследований продемонстрировано, что система Automat достигла значительных успехов в предсказании температуры Кюри. Точность предсказаний, измеренная как средняя абсолютная ошибка (MAE) на тестовом наборе данных, составила 67.13 K. Данный результат превосходит показатели базовой модели на 7.1%, которая демонстрирует MAE в 72.16 K. Такое улучшение свидетельствует о высокой эффективности разработанного подхода и его потенциале для ускорения поиска новых материалов с заданными магнитными свойствами, что особенно важно для разработки передовых технологий в области магнетизма и материаловедения.
Результаты тестирования продемонстрировали высокую прогностическую способность модели Automat при определении ключевых свойств материалов. В частности, значение коэффициента детерминации R^2 для предсказания ширины запрещенной зоны достигло 0.706, что значительно превосходит показатель базовой модели, равный 0.646. Еще более впечатляющим является результат для температуры Кюри, где Automat показал R^2 в 0.849, превзойдя базовый уровень в 0.836. Эти показатели свидетельствуют о значительно улучшенной способности модели объяснять дисперсию в данных и, следовательно, более точно предсказывать целевые свойства материалов.
Исследование, представленное в данной работе, подчеркивает важность системного подхода к созданию композиционных дескрипторов для предсказания свойств материалов. Автоматизированный фреймворк Automat, используя возможности LLM-агента, демонстрирует, что закономерности в данных раскрываются наиболее эффективно при строгой логике и креативном исследовании границ. Как отмечал Гегель: «Всё действительное рационально, и всё рациональное действительно». Эта фраза отражает суть представленной работы: автоматизированный поиск дескрипторов, основанный на рациональном анализе данных, приводит к действительно значимым результатам в области материаловедения и открывает новые возможности для ускорения открытия материалов.
Куда двигаться дальше?
Представленная работа, хотя и демонстрирует перспективность автоматизированного проектирования композиционных дескрипторов, лишь приоткрывает дверь в сложный мир материаловедческих исследований. Воспроизводимость полученных результатов, как и в любой области, активно использующей машинное обучение, остается критическим вопросом. Простое повышение метрик качества предсказаний не является самоцелью; необходимо понимать, какие физические принципы лежат в основе разработанных дескрипторов, и как эти дескрипторы соотносятся с известными закономерностями в материалах.
Перспективным направлением представляется не просто автоматический поиск дескрипторов, а создание систем, способных генерировать гипотезы о взаимосвязях между составом, структурой и свойствами материалов, а затем проверять эти гипотезы с использованием как вычислительных, так и экспериментальных данных. Автоматизированный «научный агент» должен уметь не только находить корреляции, но и формулировать объяснения, а также оценивать достоверность полученных знаний.
В конечном итоге, задача состоит не в замене ученого машиной, а в создании интеллектуального инструмента, способного расширить возможности человеческого разума в исследовании материального мира. Ирония заключается в том, что для достижения этой цели необходимо глубокое понимание не только алгоритмов машинного обучения, но и фундаментальных законов физики и химии, а также креативного подхода к постановке и решению научных задач.
Оригинал статьи: https://arxiv.org/pdf/2605.14671.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Искусственный интеллект, который учится играть: новая платформа для стабильного обучения агентов
- Видеть детали: новый подход к мультимодальному восприятию
- Автопилот нового поколения: Единая модель для понимания, планирования и предвидения
- Разум как отражение: новая архитектура интеллекта
- Эхо разума: как итеративные модели учатся в цикле.
- Квантовые вычисления: линейная алгебра на службе симуляции
- Видеогенераторы и скрытые правила мира: смогут ли они понять невысказанное?
- Восстановление электронной структуры материалов с помощью машинного обучения
- Квантовая электродинамика и сильные корреляции: новый взгляд на взаимодействие света и материи
- Квантовые вычисления: Новый взгляд на оценку ресурсов
2026-05-15 18:34