Искусство подсказки: как добиться большего с меньшим

Автор: Денис Аветисян


Новое исследование показывает, что эффективность оптимизации запросов к большим языковым моделям напрямую зависит от разброса наград, и предлагает способ повысить её точность.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Разнообразие системных запросов демонстрирует вариативность улучшения вознаграждения при обучении на одном запросе AIME, подчеркивая влияние стратегии запроса на эффективность обучения.
Разнообразие системных запросов демонстрирует вариативность улучшения вознаграждения при обучении на одном запросе AIME, подчеркивая влияние стратегии запроса на эффективность обучения.

Предложена методика p1p1, фильтрующая запросы с высокой дисперсией для улучшения оптимизации, особенно в задачах, требующих логического мышления.

Оптимизация запросов для больших языковых моделей часто сталкивается с парадоксом: улучшение производительности требует значительных вычислительных ресурсов и больших объемов данных. В данной работе, ‘$p1$: Better Prompt Optimization with Fewer Prompts’, исследуется, какие факторы определяют эффективность оптимизации системных запросов и предлагается новый подход к выбору обучающих данных. Показано, что успех оптимизации напрямую зависит от дисперсии вознаграждений между различными системными запросами, и что уменьшение этой дисперсии при увеличении количества пользовательских запросов может снизить эффективность обучения. Предложенный метод $p1$ позволяет отбирать небольшое подмножество пользовательских запросов, обеспечивающих максимальную дисперсию, тем самым упрощая и ускоряя оптимизацию. Сможет ли подобный подход существенно снизить затраты на адаптацию языковых моделей к новым задачам и повысить их обобщающую способность?


Вызов точного следования инструкциям

Несмотря на впечатляющую способность генерировать связный и правдоподобный текст, современные большие языковые модели (БЯМ) часто демонстрируют непостоянство в точности рассуждений и выполнении инструкций. Эта проблема заключается не в отсутствии лингвистических навыков, а в сложностях с последовательным применением логики и пониманием контекста, необходимых для надежного решения задач. БЯМ могут успешно имитировать человеческую речь, но зачастую им не хватает способности к глубокому анализу и критическому мышлению, что приводит к ошибкам в ситуациях, требующих более чем простого сопоставления шаблонов. Таким образом, хотя генерация текста может быть впечатляющей, надежность и точность выполнения конкретных задач остаются ключевым вызовом в развитии этих технологий.

Надежность работы больших языковых моделей (LLM) напрямую зависит от тщательной настройки так называемого «System Prompt» — начальной инструкции, которая определяет поведение модели и задает контекст для последующей генерации текста. Этот System Prompt функционирует как своего рода «руководство» для LLM, направляя её в решении конкретной задачи и влияя на качество и релевантность ответа. Недостаточно продуманный или некорректно сформулированный System Prompt может привести к непредсказуемым результатам, ошибкам в рассуждениях и отклонению от поставленной цели, даже если сама модель обладает впечатляющими возможностями генерации текста. Таким образом, оптимизация System Prompt является ключевым фактором для обеспечения стабильной и достоверной работы LLM в различных приложениях.

Традиционные методы разработки запросов для больших языковых моделей зачастую носят хаотичный и несистематический характер. Вместо целенаправленной оптимизации, основанной на анализе результатов и выявлении закономерностей, настройка запросов происходит эмпирическим путем, методом проб и ошибок. Такой подход требует значительных временных затрат и не гарантирует достижения стабильно высоких показателей производительности. В результате, даже небольшие изменения в формулировке запроса могут привести к существенным колебаниям в качестве генерируемого текста, что затрудняет надежное использование моделей в практических приложениях. Отсутствие стандартизированных методик оптимизации и автоматизированных инструментов для анализа эффективности запросов является серьезным препятствием для широкого внедрения больших языковых моделей в различные сферы деятельности.

Модель <span class="katex-eq" data-katex-display="false">p_1</span> демонстрирует превосходство над базовой моделью и существующими методами, что подтверждается усредненными результатами по 64 генерациям для каждого запроса, полученными при использовании оптимизированных системных подсказок AIME 24 и Qwen3-4B-Instruct-2507 на Qwen3-30B-A3B-Instruct-2507.
Модель p_1 демонстрирует превосходство над базовой моделью и существующими методами, что подтверждается усредненными результатами по 64 генерациям для каждого запроса, полученными при использовании оптимизированных системных подсказок AIME 24 и Qwen3-4B-Instruct-2507 на Qwen3-30B-A3B-Instruct-2507.

Автоматические стратегии оптимизации подсказок

Оптимизация промптов направлена на поиск системных промптов, которые максимизируют производительность больших языковых моделей (LLM) при выполнении конкретной задачи. Этот процесс включает в себя итеративное изменение формулировки промпта с целью улучшения метрик, определяющих успешность выполнения задачи, таких как точность, полнота или соответствие заданным критериям. По сути, задача оптимизации заключается в нахождении оптимального текстового запроса, который наиболее эффективно направляет LLM к желаемому результату, учитывая специфику модели и характер решаемой задачи.

Автоматизированные методы оптимизации промптов, такие как эволюционный поиск и обучение с подкреплением (RL), предоставляют структурированные подходы к исследованию пространства возможных промптов. Эволюционный поиск имитирует процесс естественного отбора, генерируя и оценивая различные варианты промптов, отбирая наиболее эффективные для дальнейшей итерации. Обучение с подкреплением, в свою очередь, рассматривает оптимизацию промпта как задачу принятия решений, где агент (алгоритм) получает вознаграждение за промпты, приводящие к желаемым результатам от языковой модели. Оба подхода позволяют систематически исследовать огромное количество комбинаций слов и фраз, выявляя промпты, значительно улучшающие производительность модели в конкретной задаче, без необходимости ручного подбора и тестирования.

Алгоритм GRPO, относящийся к классу обучения с подкреплением, использует мета-промпт в качестве ключевого элемента процесса оптимизации. Мета-промпт представляет собой специализированный промпт, предназначенный для оценки и направления эволюции системного промпта. Он предоставляет LLM критерии для самооценки качества сгенерированных ответов и, таким образом, определяет направление поиска оптимального промпта. В отличие от прямого поиска, GRPO использует мета-промпт для определения «вознаграждения» за каждое изменение в системном промпте, позволяя алгоритму RL итеративно улучшать его эффективность в решении поставленной задачи. Это позволяет GRPO динамически адаптироваться к различным задачам и находить промпты, максимизирующие производительность LLM.

Разрешение неоднозначности и повышение эффективности

Разброс ответов, генерируемых языковой моделью (LLM), напрямую влияет на достоверность сигналов вознаграждения в процессе оптимизации промптов. Высокая вариативность ответов при оценке одного и того же промпта приводит к увеличению стандартного отклонения сигнала вознаграждения, что затрудняет определение истинной ценности промпта и снижает эффективность алгоритмов оптимизации. Нестабильные сигналы вознаграждения могут привести к ошибочным выводам о качестве промпта и замедлить сходимость процесса оптимизации, поскольку модель будет колебаться между различными вариантами промптов без достижения стабильного улучшения. Для повышения надежности сигналов вознаграждения необходимо учитывать и минимизировать дисперсию ответов, либо использовать методы, устойчивые к шуму и вариативности.

Высокая дисперсия вознаграждений (Reward Variance) может служить индикатором того, что запрос последовательно генерирует разнообразные ответы. Это указывает на способность языковой модели к более глубокому пониманию задачи и способности учитывать различные аспекты при генерации ответа. В отличие от запросов, которые приводят к однообразным, предсказуемым ответам, запросы с высокой дисперсией демонстрируют способность модели исследовать различные варианты решения, что может свидетельствовать о более развитой семантической обработке и способности к контекстуальному анализу. Анализ дисперсии позволяет идентифицировать запросы, которые стимулируют модель к более сложному и гибкому поведению.

Метод p1p1 осуществляет фильтрацию пользовательских запросов на основе разброса оценок (Reward Variance). В ходе оптимизации запросов, приоритет отдается тем, которые демонстрируют наибольший разброс в ответах модели, поскольку это указывает на более глубокое понимание задачи и потенциал для обучения. Экспериментальные данные подтверждают, что применение данного метода фильтрации значительно улучшает результаты оптимизации, повышая эффективность и стабильность процесса.

Анализ дисперсии показывает, что на IFBench вариативность вознаграждения сильнее зависит от выбора системного промпта, чем от сэмплированных ответов, в то время как на AIME наблюдается обратная ситуация, что затрудняет определение оптимального промпта из-за низкой вариативности.
Анализ дисперсии показывает, что на IFBench вариативность вознаграждения сильнее зависит от выбора системного промпта, чем от сэмплированных ответов, в то время как на AIME наблюдается обратная ситуация, что затрудняет определение оптимального промпта из-за низкой вариативности.

Оценка оптимизированных подсказок в задачах рассуждения

Для оценки эффективности разработанных методов оптимизации запросов, были проведены испытания на сложных наборах данных, включающих AIME, HMMT и IFBench. Результаты показали заметное улучшение производительности на этих бенчмарках, что свидетельствует о способности оптимизированных запросов эффективно решать задачи, требующие логического мышления и анализа. Полученные выигрыши в производительности подтверждают, что предложенный подход к автоматической оптимизации запросов позволяет значительно повысить качество ответов языковых моделей на сложные вопросы и задачи, требующие глубокого понимания контекста.

Для оценки способности оптимизированных подсказок к переносу знаний, исследователи применили их к более крупной языковой модели — Qwen3-30B-A3B-Instruct-2507. Этот шаг позволил установить, сохраняется ли улучшение производительности, достигнутое на меньших моделях, при использовании с более сложной архитектурой. Результаты продемонстрировали, что оптимизированные подсказки успешно адаптируются к новой модели, обеспечивая значительный прирост в решении задач, требующих сложных рассуждений. Такой перенос знаний подтверждает универсальность предложенного метода автоматической оптимизации подсказок и его потенциальную применимость к широкому спектру языковых моделей, независимо от их размера и архитектуры.

Исследования показали заметное увеличение эффективности при решении сложных задач, требующих логического мышления, благодаря применению автоматической оптимизации подсказок. Полученные результаты однозначно подтверждают действенность предложенного метода, превосходящего как стандартные подходы, так и более ресурсоемкие методы обучения с подкреплением, использующие полные наборы данных. Это свидетельствует о значительном потенциале автоматической оптимизации подсказок для повышения способности больших языковых моделей к решению задач, требующих глубокого анализа и рассуждений.

Обучение с использованием <span class="katex-eq" data-katex-display="false">M \in \{1, 2\}</span> обеспечивает стабильное повышение вознаграждения и точности оценки на эталонных наборах IFBench и AIME.
Обучение с использованием M \in \{1, 2\} обеспечивает стабильное повышение вознаграждения и точности оценки на эталонных наборах IFBench и AIME.

Перспективы развития промпт-инжиниринга

Методы, подобные GEPA — эволюционной технике оптимизации запросов, открывают новые горизонты в процессе поиска наиболее эффективных промптов. GEPA, имитируя принципы естественного отбора, позволяет автоматически генерировать и оценивать множество вариантов запросов, постепенно улучшая их качество и способность вызывать желаемые ответы от больших языковых моделей. Этот подход, в отличие от ручного создания промптов или простых методов перебора, способен обнаруживать неочевидные и сложные конструкции, которые значительно повышают производительность ИИ-систем. Исследователи полагают, что дальнейшее развитие GEPA и подобных эволюционных алгоритмов позволит существенно расширить возможности промпт-инжиниринга, делая взаимодействие с ИИ более интуитивным и результативным, а также снижая зависимость от экспертных знаний в данной области.

Дальнейшее изучение взаимосвязи между разбросом вознаграждений, фильтрацией подсказок и их переносимостью представляется критически важным для развития эффективного взаимодействия с большими языковыми моделями. Разброс вознаграждений, отражающий стабильность и надежность оценки ответов, напрямую влияет на качество оптимизированных подсказок. Эффективная фильтрация позволяет отсеивать нерелевантные или вредные подсказки, повышая безопасность и предсказуемость работы системы. Однако, оптимизированные подсказки должны демонстрировать не только высокую производительность в текущей задаче, но и способность к переносу на схожие задачи и модели. Понимание того, как эти три аспекта — разброс вознаграждений, фильтрация и переносимость — влияют друг на друга, позволит создавать более универсальные и надежные системы искусственного интеллекта, способные адаптироваться к различным условиям и задачам.

Автоматическая оптимизация запросов, в сочетании с передовыми большими языковыми моделями, такими как Qwen3-4B-Instruct-2507, открывает возможности для создания искусственного интеллекта, отличающегося как высокой производительностью, так и надежностью. Этот подход позволяет преодолеть ограничения, связанные с ручным созданием запросов, которые часто требуют значительных усилий и экспертных знаний. Автоматизируя процесс поиска оптимальных формулировок, системы могут самостоятельно адаптироваться к конкретным задачам и данным, обеспечивая более точные и последовательные результаты. Подобные решения особенно важны в критически важных областях, где надежность и предсказуемость работы ИИ имеют первостепенное значение, поскольку позволяют минимизировать риски, связанные с непредсказуемым поведением моделей.

Анализ дисперсии ответов и системных запросов для AIME и IFBench показывает, что изменение параметра <span class="katex-eq" data-katex-display="false">KK</span> при фиксированном <span class="katex-eq" data-katex-display="false">M=128</span> и одновременное изменение обоих параметров приводит к различным уровням вариативности, при этом соотношение дисперсии системных запросов к дисперсии ответов позволяет оценить стабильность системы.
Анализ дисперсии ответов и системных запросов для AIME и IFBench показывает, что изменение параметра KK при фиксированном M=128 и одновременное изменение обоих параметров приводит к различным уровням вариативности, при этом соотношение дисперсии системных запросов к дисперсии ответов позволяет оценить стабильность системы.

Исследование демонстрирует, что эффективность оптимизации промптов напрямую зависит от дисперсии вознаграждений — чем выше вариативность, тем сложнее достичь стабильных результатов. Авторы предлагают метод p1p1, фокусирующийся на отборе промптов с высокой дисперсией для повышения эффективности оптимизации, особенно в задачах, требующих сложных рассуждений. Это напоминает о глубокой мысли Джона фон Неймана: «В науке не бывает абсолютно правильных ответов, есть лишь более или менее точные модели реальности». Ведь каждая ошибка в процессе оптимизации — это, по сути, сигнал о несоответствии модели и реальности, требующий корректировки. Как и в любой системе, старение неизбежно, но осознанный подход к анализу и коррекции дисперсии позволяет продлить ее функциональность и точность.

Куда же дальше?

Представленная работа, исследуя влияние дисперсии на эффективность оптимизации подсказок, лишь подтверждает старую истину: любая архитектура обречена на старение, а её улучшения — на ещё более быстрое. Выявление роли высокодисперсных подсказок в процессе обучения больших языковых моделей — это не столько прорыв, сколько констатация факта, что даже самые современные системы чувствительны к шуму, к случайностям, которые неминуемо сопровождают любой процесс генерации. Данный метод фильтрации данных, p1p1, можно рассматривать как временное облегчение симптомов, но не как лекарство от самой болезни — ограниченности и подверженности ошибкам.

Очевидно, что дальнейшее развитие исследований должно быть направлено не только на оптимизацию существующих архитектур, но и на поиск принципиально новых подходов к обучению. Вопрос не в том, как заставить систему лучше выполнять заданные задачи, а в том, как создать систему, способную адаптироваться к меняющимся условиям и самостоятельно определять свои цели. Текущая гонка за параметрами и обучающими данными лишь откладывает неизбежное — момент, когда существующие модели перестанут соответствовать требованиям времени.

И всё же, стоит признать, что каждое, даже самое незначительное улучшение, продлевает жизнь системе, даёт ей возможность просуществовать ещё немного дольше. А это, в конечном счете, и есть главная задача науки — не создавать вечные двигатели, а лишь замедлять неизбежный процесс старения.


Оригинал статьи: https://arxiv.org/pdf/2604.08801.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-13 17:44