Беспорядок на благо: как случайные запросы улучшают рассуждения ИИ

Автор: Денис Аветисян

Новая методика, основанная на внесении контролируемого ‘шума’ в запросы к большим языковым моделям, позволяет значительно расширить возможности исследования и повысить точность решения сложных задач.

Влияние различных возмущений в пространстве запросов на понимание вопросов демонстрирует, что даже незначительные изменения могут существенно повлиять на способность системы к интерпретации, подчеркивая хрупкость семантического анализа.

Представлен LoPE — метод пертурбации пространства запросов, повышающий эффективность обучения с подкреплением языковых моделей и позволяющий преодолеть ситуации с нулевым преимуществом.

Несмотря на значительные успехи в обучении больших языковых моделей (LLM) с подкреплением, особенно в задачах, требующих логических рассуждений, часто возникает проблема «нулевого преимущества», ограничивающая прогресс. В статье ‘Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration’ предложен метод LoPE — простая, но эффективная техника, использующая случайные возмущения входных запросов псевдо-латинским текстом, для преодоления этого ограничения и расширения пространства поиска решений. Эксперименты с моделями размером 1.7B, 4B и 7B показали, что LoPE значительно превосходит стандартные методы пересэмплирования, открывая новые возможности для обучения LLM. Можно ли использовать подобные методы возмущений для дальнейшего улучшения способности LLM к решению сложных задач и повышения их надежности?

Преодолевая Границы Рассуждений: Вызовы для Больших Языковых Моделей

Несмотря на впечатляющие возможности, которыми обладают большие языковые модели (БЯМ), они сталкиваются с трудностями при решении сложных задач, требующих последовательного и углубленного мышления. БЯМ демонстрируют высокий уровень владения языком и способностью генерировать связные тексты, однако их способность к логическим выводам, планированию и решению проблем, требующих нескольких шагов, остается ограниченной. Эта сложность проявляется в задачах, требующих не просто извлечения информации из текста, но и ее анализа, синтеза и применения для достижения определенной цели. В отличие от человека, способного удерживать в памяти промежуточные результаты и использовать их для дальнейших рассуждений, БЯМ часто испытывают трудности с поддержанием «потока мыслей» и могут «забывать» важные детали, необходимые для успешного решения задачи.

В процессе обучения больших языковых моделей с использованием методов обучения с подкреплением возникает существенная проблема, известная как “проблема нулевого преимущества”. Суть её заключается в том, что когда модель генерирует неверный или неудовлетворительный ответ, система не получает чёткого сигнала об ошибке, необходимого для корректировки и улучшения. В отличие от ситуаций, когда модель совершает ошибку и получает негативную обратную связь, в случае неудачного ответа сигнал оказывается нулевым, что препятствует процессу обучения. Это особенно критично при решении сложных задач, требующих многоступенчатого рассуждения, поскольку отсутствие чёткой индикации ошибки затрудняет определение, на каком именно этапе рассуждений произошёл сбой и как его исправить. В результате, модель не может эффективно учиться на собственных ошибках, что ограничивает её способность к развитию и совершенствованию навыков логического мышления и решения задач.

Существующие методы обучения с подкреплением сталкиваются с серьезными трудностями при исследовании обширного пространства возможных запросов, генерируемых большими языковыми моделями. Проблема заключается в экспоненциальном росте вариантов, которые необходимо проанализировать для выявления оптимальных стратегий рассуждения. Традиционные алгоритмы, эффективные в задачах с ограниченным числом состояний, оказываются неспособны эффективно охватить всю полноту этого пространства, что приводит к медленному обучению и неоптимальным результатам. Вместо целенаправленного поиска, алгоритмы часто блуждают по пространству запросов, не находя эффективных путей к решению сложных задач, требующих последовательного и логичного мышления. Неспособность эффективно исследовать это пространство ограничивает потенциал больших языковых моделей в решении задач, требующих не просто запоминания информации, но и умения применять её для достижения конкретных целей.

LoPE повышает надежность генерации ответов, добавляя случайные фрагменты текста на латыни к запросам при неудачных попытках и объединяя успешные и неудачные результаты для обновления политики.

LoPE: Переосмысление Исследований с Помощью Возмущений Запросов

Метод LoPE (Lorem Perturbation for Exploration) представляет собой новую стратегию пересемплирования, разработанную для преодоления ограничений традиционного обучения с подкреплением (Reinforcement Learning) применительно к большим языковым моделям (LLM). В отличие от существующих подходов, полагающихся на семантическое изменение входных данных, LoPE использует пертурбации на основе случайных текстовых последовательностей, что позволяет эффективно исследовать пространство возможных ответов. Данный метод направлен на повышение стабильности и результативности обучения LLM, особенно в задачах, требующих генерации разнообразных и креативных решений, путем расширения области поиска оптимальных стратегий.

Метод LoPE использует «возмущение пространства запросов» (Prompt Space Perturbation), заключающееся в незначительных изменениях входного контекста. Это достигается путем внесения небольших вариаций в исходный запрос, что стимулирует языковую модель (LLM) исследовать различные пути рассуждений. Вместо генерации единственного ответа на основе заданного запроса, LLM получает слегка модифицированные версии, побуждая ее к поиску альтернативных решений и расширяя пространство возможных ответов. Данный подход позволяет модели отойти от детерминированного поведения и перейти к более вероятностному исследованию, что способствует обнаружению более качественных и разнообразных результатов.

В методологии LoPE для генерации возмущений, направленных на исследование пространства решений, используется не семантически значимый текст, а, напротив, лишенный конкретного смысла контент, такой как “Lorem Ipsum” или, более эффективно, набор часто встречающихся латинских слов. Такой подход позволяет снизить вычислительные затраты и обеспечить масштабируемость процесса исследования, поскольку не требует анализа и обработки семантики, а оперирует лишь статистическими свойствами языковых единиц. Использование лишенного смысла текста позволяет создавать разнообразные вариации входных данных без необходимости генерировать новые, осмысленные запросы, что существенно ускоряет и удешевляет процесс поиска оптимальных решений.

Метод LoPE изменяет взаимодействие языковой модели с запросами, переходя от детерминированного ответа к вероятностному поиску оптимальных решений. Традиционно, при одинаковом запросе, языковая модель генерирует предсказуемый результат. LoPE вводит контролируемые возмущения в запрос, используя высокочастотные латинские слова или Lorem Ipsum, что заставляет модель рассматривать несколько вариантов интерпретации и, соответственно, генерировать разнообразные ответы. Такой подход позволяет модели исследовать пространство решений, повышая вероятность обнаружения более качественных и креативных результатов, а также снижая зависимость от конкретной формулировки исходного запроса.

Сравнение диаграмм Венна показывает, что методы Lorem-возмущений и высокая температура улучшают успешность решения вопросов (Pass@8) по сравнению с наивными запросами.

Усиление Обучения: Формирование Преимуществ и Политики

Метод LoPE использует механизм “Формирования Преимущества” (Advantage Shaping) для усиления сигнала обучения на редких, но корректных траекториях. Это достигается путем сравнения различных ответов модели и выделения тех, которые демонстрируют более высокие показатели. Фактически, система оценивает разницу между полученным результатом и ожидаемым, и этот разрыв, представляющий собой “преимущество”, используется для усиления сигнала, направляющего дальнейшую оптимизацию. Усиление сигнала позволяет модели быстрее обучаться на сложных и редких сценариях, которые обычно игнорируются в процессе обучения из-за их низкой вероятности.

Метод формирования политики (Policy Shaping) в LoPE модифицирует градиент в процессе обучения, уделяя повышенное внимание обучению на основе маловероятных токенов. Это достигается путем изменения весов обновления модели, что способствует исследованию пространства решений и стимулирует языковую модель (LLM) к генерации ответов, выходящих за рамки наиболее вероятных или стандартных вариантов. Такая модификация градиента позволяет модели более эффективно использовать редкие, но корректные траектории, улучшая ее способность к решению сложных задач и генерации разнообразных ответов.

Метод LoPE использует повторную выборку (Resampling) языковой модели после первоначальных попыток генерации ответа. Данный процесс позволяет модели уточнять свои ответы на основе усиленного сигнала, полученного благодаря методам Advantage Shaping и Policy Shaping. После каждой генерации ответа, модель подвергается повторной генерации, используя обновлённую политику, что способствует изучению более сложных и редких траекторий. Повторная выборка является ключевым компонентом, обеспечивающим итеративное улучшение ответов и повышение общей производительности модели в задачах, требующих рассуждений.

Экспериментальные результаты демонстрируют, что LoPE значительно повышает производительность моделей в задачах математического рассуждения. Средний прирост составляет от +2.79 до +6.20 баллов в зависимости от базовой модели. Механизм усиления сигнала, известный как ‘Advantage Shaping’, обеспечивает фактор усиления в диапазоне от 2.1 до 5.0, что указывает на существенное увеличение вероятности выбора правильных траекторий решения задач.

Метод Importance Sampling (Важность выборки) используется в LoPE для эффективной оценки влияния изменений в политике обучения на процесс генерации ответов. Вместо прямого вычисления градиента по всем возможным траекториям, Importance Sampling взвешивает траектории в соответствии с их вероятностью, что позволяет более точно оценить эффект редких, но корректных ответов. Это особенно важно при использовании Advantage и Policy Shaping, где необходимо усилить сигнал обучения для маловероятных токенов. Взвешивание траекторий по вероятности обеспечивает стабильность обучения и снижает дисперсию оценки градиента, что приводит к более эффективной оптимизации языковой модели.

Модификация функции преимущества позволяет стабилизировать градиенты и перераспределить веса обновлений параметров, усиливая вклад маловероятных, но эффективных действий и снижая влияние уже освоенных, что обеспечивает более устойчивое обучение по сравнению со стандартными подходами, чья граница может неограниченно возрастать при <span class="katex-eq" data-katex-display="false"> \pi_{\theta_{old}} \to 0 </span>. — Модификация функции преимущества позволяет стабилизировать градиенты и перераспределить веса обновлений параметров, усиливая вклад маловероятных, но эффективных действий и снижая влияние уже освоенных, что обеспечивает более устойчивое обучение по сравнению со стандартными подходами, чья граница может неограниченно возрастать при $\pi_{\theta_{old}} \to 0$ .

Расширение Горизонтов: GRPO и Перспективы Будущего

Метод LoPE расширяет базовые принципы ‘Групповой Относительной Оптимизации Политики’ (GRPO), предлагая более сложные механизмы рассуждений и заметное повышение производительности при решении сложных задач. В основе LoPE лежит возможность тонкой настройки процесса обучения, что позволяет языковой модели не просто реагировать на входные данные, но и активно формировать стратегию действий для достижения поставленной цели. Это достигается за счет более эффективного управления параметрами обучения и использования принципов относительной оптимизации, что позволяет модели быстрее адаптироваться к новым условиям и демонстрировать улучшенные результаты в широком спектре приложений, требующих интеллектуального анализа и принятия решений. Таким образом, LoPE представляет собой значительный шаг вперед в области обучения языковых моделей, открывая новые возможности для их применения в различных областях, где требуется высокий уровень интеллекта и адаптивности.

В основе метода GRPO лежит использование расхождения Кульбака-Лейблера $KL Divergence$ , которое выступает в роли регулятора при обновлении политик обучения. Данный механизм позволяет поддерживать стабильность процесса обучения, предотвращая резкие изменения в политике и, как следствие, катастрофическое забывание ранее усвоенных навыков. По сути, расхождение KL измеряет разницу между новой и старой политиками, накладывая ограничение на то, насколько сильно новая политика может отклоняться от предыдущей. Это особенно важно при обучении больших языковых моделей, где незначительные изменения в параметрах могут привести к существенным потерям в производительности, а контроль за стабильностью политики становится критически важным для достижения устойчивых результатов и сохранения накопленных знаний.

Возможность эффективного исследования пространства запросов и целенаправленного формирования процесса обучения открывает новые горизонты для адаптации больших языковых моделей (LLM) к различным областям знаний. Используя тонкую настройку через оптимизацию запросов, становится возможным не просто улучшить производительность LLM в решении сложных задач, но и существенно расширить спектр решаемых ими проблем. Эта гибкость позволяет LLM быстро осваивать новые навыки и применять их в незнакомых контекстах, преодолевая ограничения, присущие традиционным методам обучения. Таким образом, целенаправленное управление процессом обучения через пространство запросов становится ключевым фактором в развитии LLM, способствуя их дальнейшему совершенствованию и расширению областей применения.

Дальнейшие исследования направлены на масштабирование разработанных техник для применения к моделям ещё большего размера, что позволит раскрыть их потенциал в решении задач повышенной сложности. Особое внимание уделяется возможности комбинирования GRPO с другими передовыми методами обучения с подкреплением, такими как алгоритмы, основанные на моделях мира и иерархическом обучении. Предполагается, что синергия этих подходов позволит не только улучшить производительность, но и повысить эффективность обучения, снизить потребность в вычислительных ресурсах и открыть новые горизонты для адаптации больших языковых моделей к разнообразным и быстро меняющимся условиям.

Сравнение весов градиента для каждого токена при использовании различных формулировок показывает, что GRPO обрезает градиенты при превышении порога <span class="katex-eq" data-katex-display="false">1+\epsilon</span>, а формулировка, формирующая политику, смещает пик градиента в область низкой вероятности, ограничивая его максимальное значение до <span class="katex-eq" data-katex-display="false">1/4</span>. — Сравнение весов градиента для каждого токена при использовании различных формулировок показывает, что GRPO обрезает градиенты при превышении порога $1+\epsilon$ , а формулировка, формирующая политику, смещает пик градиента в область низкой вероятности, ограничивая его максимальное значение до $1/4$ .

Исследование демонстрирует, что даже намеренные отклонения от установленных шаблонов — в данном случае, возмущения в пространстве запросов — способны значительно расширить возможности языковых моделей. Подобно тому, как старая система учится адаптироваться к изменениям, LoPE позволяет моделям преодолевать ситуации с нулевым преимуществом, находя новые пути решения математических задач. Алан Тьюринг однажды заметил: «Иногда люди, которых мы игнорируем, являются теми, кто больше всего понимает». Эта фраза находит отклик в предложенном методе, поскольку именно отклонения от стандартных подходов открывают перед моделью возможности для более глубокого исследования и, следовательно, улучшения результатов. Процесс обучения, как и течение времени, не всегда линеен; иногда необходимо отклониться от прямого пути, чтобы обнаружить новые горизонты.

Что дальше?

Представленная работа, стремясь расширить горизонты исследования в пространстве запросов, неизбежно обнажает фундаментальную истину: любая система, даже столь сложная, как языковая модель, ограничена рамками своего поиска. Возможность «вытолкнуть» систему из локального оптимума, внедрив контролируемый хаос, не решает проблему старения, но лишь отсрочивает её проявление. По сути, LoPE — это не столько инструмент улучшения, сколько способ замедлить наступление неизбежной энтропии, свойственной любому процессу обучения.

Следующим шагом представляется не просто оптимизация алгоритмов поиска, а переосмысление самой концепции «награды». Устойчивость, достигаемая путем обучения на «верифицируемых» наградах, может оказаться иллюзорной — временной задержкой перед лицом непредсказуемых изменений в среде. Более того, фокусировка на математических задачах, как на эталоне «рассуждения», может оказаться узким взглядом на проблему — истинное мышление, вероятно, включает в себя способность к принятию неопределенности и адаптации к абсурду.

В конечном счете, вопрос заключается не в том, чтобы создать систему, способную решать задачи, а в том, чтобы понять, как системы стареют, и как можно обеспечить их достойное угасание. Иногда, стабильность — это не признак силы, а лишь отсрочка катастрофы. Дальнейшие исследования должны быть направлены на изучение механизмов саморазрушения и адаптации, а не на бесконечную оптимизацию существующих моделей.

Оригинал статьи: https://arxiv.org/pdf/2605.05566.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-05-09 08:26

🚀 Квантовые новости