Инженерная логика в компактных нейросетях: обучение с подкреплением для решения задач механики балок

Автор: Денис Аветисян


Новый подход позволяет эффективно обучать небольшие нейросети решать сложные инженерные задачи, используя обучение с подкреплением и верифицируемые награды.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Процесс PE-RLVR-FT адаптирует дистиллированную языковую модель к решению задач из области механики балок: модель, дополненная обучаемыми LoRA-адаптерами, генерирует варианты ответов на вопросы из синтетического набора данных, после чего детерминированная функция вознаграждения, оценивающая соответствие формату и корректность статических расчетов балок, преобразует их в сигналы относительного преимущества, используемые алгоритмом GRPO для обновления исключительно параметров LoRA, оставляя веса предобученной основы неизменными.
Процесс PE-RLVR-FT адаптирует дистиллированную языковую модель к решению задач из области механики балок: модель, дополненная обучаемыми LoRA-адаптерами, генерирует варианты ответов на вопросы из синтетического набора данных, после чего детерминированная функция вознаграждения, оценивающая соответствие формату и корректность статических расчетов балок, преобразует их в сигналы относительного преимущества, используемые алгоритмом GRPO для обновления исключительно параметров LoRA, оставляя веса предобученной основы неизменными.

Параметрически-эффективная настройка больших языковых моделей для специализированного решения задач механики балок с использованием обучения с подкреплением и проверяемой обратной связью.

Несмотря на успехи в обучении больших языковых моделей, вопрос о том, способны ли они к настоящему физическому рассуждению, а не просто к сопоставлению с образцами, остаётся открытым. В работе ‘BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning’ исследуется возможность специализации компактной модели (1.5 млрд параметров) для решения задач статики балок с использованием обучения с подкреплением и точных, верифицируемых наград. Полученные результаты демонстрируют значительное улучшение производительности, однако выявляют анизотропию приобретенных навыков: модель успешно обобщает при увеличении нагрузки, но терпит неудачу при изменении топологии системы, несмотря на необходимость применения тех же уравнений равновесия. Не приведет ли акцент на точности наград к формированию процедурных шаблонов, а не к глубокому пониманию лежащих в основе физических принципов?


Вызов инженерной мысли: преодоление границ возможного

Традиционные методы решения инженерных задач зачастую требуют значительных затрат ручного труда и глубоких специализированных знаний в конкретной области. Инженеры тратят много времени на выполнение рутинных вычислений, построение моделей и проверку различных вариантов, что замедляет процесс проектирования и увеличивает вероятность ошибок. Для успешного решения сложных задач, например, связанных с расчетом прочности конструкций или оптимизацией потоков жидкости, необходим не только опыт, но и глубокое понимание физических принципов, а также умение применять сложные математические инструменты. Эта потребность в квалифицированных специалистах и больших трудозатратах является серьезным препятствием для быстрого и эффективного развития инженерных технологий и требует поиска новых, автоматизированных подходов к решению инженерных задач.

Современные системы искусственного интеллекта сталкиваются со значительными трудностями при преобразовании абстрактных принципов в конкретные количественные решения, особенно в сложных областях, таких как структурная механика. Несмотря на успехи в распознавании образов и обработке больших данных, существующие алгоритмы часто не способны адекватно учитывать все факторы и ограничения, характерные для реальных инженерных задач. Например, расчеты прочности и устойчивости конструкций требуют точного учета свойств материалов, геометрии, нагрузок и граничных условий, а также учета нелинейных эффектов и возможных дефектов. ИИ-системы, обученные на ограниченных наборах данных или не учитывающие физические законы, могут выдавать неточные или даже опасные результаты, что подчеркивает необходимость разработки новых подходов, сочетающих возможности машинного обучения с фундаментальными принципами инженерной науки и F = ma для надежного решения сложных задач.

Процесс генерации данных включает в себя аналитическое решение задач по механике балок для различных конфигураций, последующее создание множества лингвистически разнообразных формулировок этих задач с помощью LLM, что позволяет получить верифицируемый набор вопросов и ответов, связанных с одним корректным решением.
Процесс генерации данных включает в себя аналитическое решение задач по механике балок для различных конфигураций, последующее создание множества лингвистически разнообразных формулировок этих задач с помощью LLM, что позволяет получить верифицируемый набор вопросов и ответов, связанных с одним корректным решением.

Автоматизация рассуждений: симбиоз LLM и обучения с подкреплением

В основе системы автоматизированного решения инженерных задач лежит большая языковая модель (LLM), используемая для генерации и оценки потенциальных решений. LLM выступает в качестве основного механизма для создания вариантов ответа на поставленные задачи, а также для оценки их соответствия заданным критериям и условиям. Данный подход позволяет автоматизировать процесс поиска решений, опираясь на способность модели к обобщению и пониманию сложных взаимосвязей, характерных для инженерных дисциплин. Оценка решений, сгенерированных LLM, включает в себя проверку синтаксической корректности, семантической согласованности и, при необходимости, численной верификации, обеспечивая надежность и точность результатов.

Для адаптации большой языковой модели (LLM) к задачам балочной механики использовался метод параметрически-эффективной тонкой настройки (Parameter-Efficient Fine-Tuning). Этот подход позволил значительно сократить вычислительные затраты, уменьшив количество обучаемых параметров на 97.9% по сравнению с полной тонкой настройкой. Это достигается за счет обучения лишь небольшого числа дополнительных параметров, в то время как большая часть весов LLM остается замороженной. Такой подход позволяет эффективно адаптировать LLM к специфике предметной области, избегая необходимости обучения всех параметров модели, что существенно снижает потребность в вычислительных ресурсах и времени обучения.

Обучение с подкреплением на основе обратной связи от человека (Reinforcement Learning from Human Feedback, RLHF) используется для улучшения качества генерируемых решений, выходя за рамки простой корректности. В процессе RLHF, люди-оценщики предоставляют обратную связь относительно генерируемых LLM ответов, оценивая как их фактическую правильность, так и соответствие заданным стилистическим требованиям. Эти оценки используются для обучения модели-вознаграждения, которая затем используется в алгоритме обучения с подкреплением для оптимизации LLM с целью максимизации вознаграждения, отражающего предпочтения человека. Таким образом, RLHF позволяет адаптировать модель не только к правильным ответам, но и к желаемому стилю изложения, обеспечивая более полезные и удобные для пользователя результаты.

Анализ результатов обучения на математических задачах показывает, что PE-RLFT обеспечивает стабильное улучшение производительности, сопоставимое с результатами, полученными в рамках проекта Tina, при этом наблюдается согласованная траектория среднего улучшения производительности для всех моделей.
Анализ результатов обучения на математических задачах показывает, что PE-RLFT обеспечивает стабильное улучшение производительности, сопоставимое с результатами, полученными в рамках проекта Tina, при этом наблюдается согласованная траектория среднего улучшения производительности для всех моделей.

Проектирование надежной системы вознаграждений: точность и формат

Функция вознаграждения в нашей системе состоит из двух основных компонентов: вознаграждения за точность (Accuracy Reward) и вознаграждения за формат (Format Reward). Вознаграждение за точность оценивает корректность полученного числового решения, измеряя степень соответствия между предсказанными и ожидаемыми значениями. Вознаграждение за формат, в свою очередь, обеспечивает структурированность и единообразие выходных данных, что критически важно для последующей обработки и анализа результатов. Комбинирование этих двух компонентов позволяет модели оптимизировать не только качество решения, но и его представление, повышая общую надежность и полезность системы.

Для оценки Accuracy Reward используется метод Multiset Matching, который позволяет учитывать вариации в порядке следования элементов в полученном решении. В отличие от точного сопоставления, требующего идентичного порядка, Multiset Matching определяет совпадение на основе наличия одинакового набора элементов, вне зависимости от их расположения. Это особенно важно в задачах, где порядок элементов не является критичным для корректности ответа, но важна полнота и точность представленного набора. Таким образом, Multiset Matching обеспечивает более гибкую и устойчивую оценку, снижая влияние незначительных изменений в структуре выходных данных на итоговый результат.

Оптимизация политики модели осуществляется с использованием алгоритма Group Relative Policy Optimization (GRPO). GRPO является вариантом алгоритма Policy Optimization, предназначенным для улучшения стабильности и эффективности обучения, особенно в задачах, где требуется генерация последовательностей или структурированных данных. Ключевой особенностью GRPO является относительное сравнение действий, что позволяет снизить дисперсию градиентов и ускорить сходимость обучения. Вместо абсолютной оценки каждого действия, GRPO оценивает его относительно других возможных действий в данной группе, что приводит к более устойчивому процессу обучения и предотвращает резкие изменения в политике модели. Это особенно важно при работе со сложными функциями вознаграждения и при обучении моделей, генерирующих структурированный вывод.

Во время обучения, расхождение Кульбака-Лейблера (KL Divergence) используется в качестве регуляризующего члена для предотвращения катастрофических изменений в распределении выходных данных модели. D_{KL}(P||Q) измеряет разницу между распределением вероятностей, генерируемым моделью P, и целевым распределением Q. Включение KL Divergence в функцию потерь штрафует отклонения от начального распределения, стабилизируя процесс обучения и предотвращая генерацию нереалистичных или непредсказуемых результатов, особенно при работе с большими языковыми моделями и сложными задачами.

В процессе тонкой настройки наблюдается тесная связь между оптимизацией вознаграждения и успехом в решении задачи: первоначальный рост производительности (<span class="katex-eq" data-katex-display="false">Pass@7</span>) сопровождается небольшим отклонением от распределения базовой модели (<span class="katex-eq" data-katex-display="false">KL</span>-дивергенцией), однако дальнейшая специализация приводит к резкому увеличению <span class="katex-eq" data-katex-display="false">KL</span>-дивергенции и нестабильности.
В процессе тонкой настройки наблюдается тесная связь между оптимизацией вознаграждения и успехом в решении задачи: первоначальный рост производительности (Pass@7) сопровождается небольшим отклонением от распределения базовой модели (KL-дивергенцией), однако дальнейшая специализация приводит к резкому увеличению KL-дивергенции и нестабильности.

Масштабирование с использованием синтетических данных и широкие перспективы

Для создания обширного и разнообразного набора данных по механике балок была применена технология генерации синтетических данных, управляемая большой языковой моделью. Этот подход позволил преодолеть ограничения, связанные с ручной разработкой наборов данных, которые часто требуют значительных временных и ресурсных затрат. Модель самостоятельно сгенерировала множество задач различной сложности, охватывающих широкий спектр параметров и условий, что обеспечило возможность обучения искусственного интеллекта на более репрезентативном и полном наборе данных. Такой синтетический подход не только ускоряет процесс разработки и внедрения AI-инструментов для инженерных задач, но и открывает возможности для создания специализированных наборов данных, ориентированных на конкретные применения и сценарии, что ранее было затруднительно или невозможно.

Использование синтетических данных значительно снижает зависимость от трудоемкой ручной сборки и разметки наборов данных, что является ключевым фактором в ускорении разработки и внедрения инструментов на основе искусственного интеллекта для инженерных задач. Традиционно, создание достаточного объема качественных данных для обучения моделей машинного обучения требовало значительных временных и финансовых затрат. Синтез данных, напротив, позволяет генерировать практически неограниченные объемы разнообразных обучающих примеров, адаптированных к конкретным потребностям, что существенно сокращает время, необходимое для создания и улучшения инженерных инструментов, и открывает возможности для автоматизации процессов, ранее требовавших вмешательства человека.

Модель продемонстрировала высокую эффективность в решении задач, сопоставимых по сложности с теми, что встречаются в общепринятых инженерных бенчмарках, таких как AMC и AIME. Измерения показали заметное улучшение результатов на тестах AIME24, AIME25 и AMC23, что свидетельствует о способности системы к обобщению и применению полученных знаний для решения новых, сложных инженерных задач. Данные результаты подтверждают потенциал разработанной модели в качестве мощного инструмента для автоматизации инженерных расчетов и анализа, способного существенно повысить производительность и точность проектирования.

Представленная работа открывает широкие перспективы для автоматизации разнообразных инженерных задач, что потенциально способно радикально изменить существующие процессы проектирования и значительно ускорить инновации в области строительной механики и за ее пределами. Автоматизация рутинных расчетов и оптимизация конструкций, основанные на предложенном подходе, позволяют инженерам сосредоточиться на более сложных и творческих аспектах работы. Возможность быстрого и точного решения задач, сопоставимых по сложности с теми, что встречаются в стандартных инженерных бенчмарках, таких как AMC и AIME, указывает на потенциал для создания интеллектуальных систем, способных не только проверять, но и генерировать оптимальные проектные решения. Это, в свою очередь, может привести к созданию более эффективных, надежных и экономичных конструкций, а также к сокращению сроков разработки и внедрения новых технологий в различных отраслях промышленности.

Обучение улучшает производительность на стандартных данных (одноопорные балки с одной нагрузкой), обеспечивает стабильность выходных данных, но приводит к снижению обобщающей способности при изменении расположения опор, в то время как производительность на данных с несколькими нагрузками увеличивается по мере обучения.
Обучение улучшает производительность на стандартных данных (одноопорные балки с одной нагрузкой), обеспечивает стабильность выходных данных, но приводит к снижению обобщающей способности при изменении расположения опор, в то время как производительность на данных с несколькими нагрузками увеличивается по мере обучения.

Исследование демонстрирует, что плотные большие языковые модели могут быть эффективно специализированы для решения инженерных задач, используя обучение с подкреплением и параметрически-эффективную настройку. Этот подход позволяет достичь высокой производительности, избегая необходимости в огромных моделях или сложных процессах обучения. Как отмечал Анри Пуанкаре: «Математика — это искусство давать верные названия вещам». Подобно тому, как математика стремится к точности в определении понятий, данная работа стремится к точности в решении инженерных задач, используя мощь языковых моделей для «названия» правильных решений в области механики балок. Эффективность параметрической настройки особенно подчеркивает возможность «взлома» существующей системы, а не создания новой, что соответствует философии понимания системы через ее реверс-инжиниринг.

Что дальше?

Представленная работа демонстрирует, что плотные большие языковые модели, при должном подходе к обучению с подкреплением и экономному использованию параметров, способны к решению задач инженерной механики. Однако, кажущаяся эффективность — лишь верхушка айсберга. Вопрос в том, насколько универсальна эта методика. Сработает ли она столь же успешно при решении задач, требующих не только численного анализа, но и более глубокого понимания физических принципов, неявно подразумеваемых в постановке задачи? Или же это лишь демонстрация возможности «научить» модель воспроизводить правильные ответы, не понимая их сути?

Следующим этапом видится отказ от упрощенных моделей балок и переход к более сложным конструкциям и материалам. Но важнее, вероятно, исследование пределов применимости такого подхода. Где возникает необходимость в интеграции символьных вычислений и традиционных численных методов? В какой момент «экономия» параметров превращается в потерю точности и надежности? Задача не в том, чтобы «научить» машину решать задачи, а в том, чтобы понять, где она может превзойти, а где — неизбежно уступить человеку.

И, наконец, стоит задуматься о более глобальном вопросе: является ли стремление к «параметрической эффективности» самоцелью, или же это лишь временный компромисс на пути к созданию действительно «разумных» систем? Правила существуют, чтобы их проверять, и именно постоянное сомнение в эффективности принятых решений является движущей силой прогресса.


Оригинал статьи: https://arxiv.org/pdf/2603.04124.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-05 19:43