Память на века: Как научить ИИ долгосрочному планированию

Автор: Денис Аветисян

Новая система Memex(RL) позволяет агентам искусственного интеллекта эффективно хранить и использовать прошлый опыт для выполнения сложных задач, требующих долгосрочного планирования.

Система, представленная на рисунке, оптимизирует работу с длинными последовательностями действий, заменяя обширные траектории использования инструментов сжатыми, индексированными сводками, при этом сохраняя детали в отдельном хранилище, что позволяет повторно извлекать и внедрять точный контент по индексу для эффективного выполнения задач в условиях ограниченного контекстного окна.

Memex(RL) использует индексированную память опыта и обучение с подкреплением для повышения производительности LLM-агентов в задачах с горизонтом планирования.

Ограниченные размеры контекстных окон являются существенным препятствием для эффективной работы больших языковых моделей (LLM) в задачах, требующих долгосрочного планирования. В статье ‘Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory’ представлен механизм Memex, использующий индексированную память опыта и обучение с подкреплением для сжатия контекста без потери критически важной информации. Memex позволяет агентам сохранять целостность прошлых взаимодействий, извлекая их по мере необходимости, что значительно повышает эффективность решения задач с горизонтом планирования. Сможет ли данный подход радикально расширить возможности LLM в сложных областях, требующих долгосрочной памяти и адаптации?

Долгосрочное планирование: вызов для агентов в сложных средах

Для успешного выполнения задач в сложных интерактивных средах, таких как ALFWorld, агентам необходимы способности к рассуждениям, охватывающим длительные временные горизонты. В отличие от простых, одношаговых действий, выполнение многоэтапных задач требует от агента не только понимания текущей ситуации, но и сохранения информации о предыдущих шагах и планирования будущих действий. Способность к долгосрочному планированию позволяет агенту учитывать последствия своих действий на протяжении всей последовательности операций, что критически важно для достижения поставленной цели. По сути, успешное функционирование в таких средах требует от агента построения и поддержания внутренней модели задачи, позволяющей предвидеть будущие события и адаптироваться к меняющимся условиям, а также эффективно использовать накопленный опыт.

Традиционные методы искусственного интеллекта, применимые к решению задач в сложных, динамичных средах, зачастую демонстрируют ограниченную эффективность при выполнении длительных последовательностей действий. Проблема заключается в том, что с каждым шагом планирования и выполнения, информация о начальных условиях и промежуточных целях постепенно искажается или теряется. Это приводит к несогласованности действий, когда агент отклоняется от оптимальной стратегии или забывает о ключевых аспектах задачи. В результате, даже небольшие ошибки на ранних этапах могут накапливаться и приводить к полному провалу миссии, особенно в сценариях, требующих точного соблюдения последовательности операций и учета множества взаимосвязанных факторов. Эффективное удержание контекста на протяжении длительного периода времени является критически важным для успеха в подобных задачах, но традиционные подходы часто оказываются неспособны обеспечить необходимую стабильность и релевантность информации.

Для успешного выполнения сложных задач в динамичных средах, таких как интерактивные виртуальные миры, агенты нуждаются в эффективном управлении так называемым “рабочим контекстом”. Этот контекст представляет собой динамично обновляемый набор ключевой информации, позволяющий агенту сохранять релевантность действий на протяжении длительных последовательностей. Вместо запоминания всех деталей окружающей среды, агент должен уметь выделять и удерживать только наиболее важные аспекты, отфильтровывая избыточный шум. Подобный механизм позволяет избежать перегрузки системы, сохраняя при этом возможность принятия обоснованных решений на каждом шагу. Эффективное управление рабочим контекстом является критически важным для достижения успеха в задачах, требующих долгосрочного планирования и адаптации к меняющимся условиям, позволяя агенту поддерживать когерентность действий и избегать ошибок, вызванных потерей важной информации.

В процессе обучения величина штрафа снижается с <span class="katex-eq" data-katex-display="false">-0.4</span> до приблизительно <span class="katex-eq" data-katex-display="false">-0.1</span>, что свидетельствует об улучшении выполнения задачи агентом и эффективном использовании стратегий CompressExperience и ReadExperience для оптимизации длины рабочего контекста. — В процессе обучения величина штрафа снижается с $-0.4$ до приблизительно $-0.1$ , что свидетельствует об улучшении выполнения задачи агентом и эффективном использовании стратегий CompressExperience и ReadExperience для оптимизации длины рабочего контекста.

LLM-агент: основа для воплощенного разума

Агент, основанный на больших языковых моделях (LLM), представляет собой систему, объединяющую возможности генерации и понимания естественного языка с надежной структурой действий и памяти. Эта архитектура позволяет агенту не просто генерировать текст, но и активно взаимодействовать со средой посредством выполнения определенных действий. Структура памяти обеспечивает сохранение и использование информации о предыдущих взаимодействиях и полученных результатах, что необходимо для адаптации к новым ситуациям и достижения поставленных целей. Ключевым компонентом является возможность агента последовательно планировать и выполнять действия, опираясь на внутреннее представление о состоянии среды и доступных инструментах.

Агент использует инструменты «Выполнить действие» (Execute Action) и «Завершить» (Finish) для взаимодействия с окружающей средой и сигнализации об окончании задачи. Инструмент «Выполнить действие» позволяет агенту производить действия в среде, определяемые входными параметрами и текущим состоянием. Инструмент «Завершить» служит сигналом для завершения процесса выполнения задачи и может быть использован для активации последующих этапов или завершения работы агента. Оба инструмента являются ключевыми компонентами системы, обеспечивая механизм для активного взаимодействия с окружающей средой и четкого определения момента завершения задачи.

В основе функционирования агента лежит зависимость от формирования вознаграждений (Reward Shaping), которое представляет собой процесс проектирования функции вознаграждения для усиления желаемого поведения в процессе обучения с подкреплением. Это достигается путем предоставления промежуточных вознаграждений за действия, приближающие агента к целевому состоянию, даже если полное решение задачи еще не достигнуто. Эффективное формирование вознаграждений критически важно для преодоления проблемы разреженности вознаграждений, когда полезные действия не приводят к немедленному вознаграждению, что затрудняет обучение агента. Правильно спроектированная функция вознаграждения направляет процесс обучения, обеспечивая более быструю сходимость и повышение общей производительности агента в решении поставленной задачи.

В процессе обучения количество сжатий памяти уменьшается с 6.5 до 3 по мере повышения эффективности выполнения задач, в то время как количество извлечений возрастает с 1 до 6-7, что указывает на то, что обучение с подкреплением усиливает, а не подавляет поведение извлечения информации.

Индексированная память опыта: архивирование и извлечение знаний

Для решения проблемы долгосрочной памяти в системе реализован механизм «Индексированной Памяти Опыта». Данная система представляет собой внешнее хранилище, предназначенное для архивирования накопленного опыта агента. В отличие от непосредственного хранения в оперативной памяти, этот подход позволяет преодолеть ограничения по объему и обеспечивает доступ к информации, полученной в ходе предыдущих взаимодействий. Индексированная структура хранения обеспечивает эффективный поиск и извлечение релевантных данных для использования в текущих задачах, что критически важно для адаптации и обучения агента.

Для решения проблемы долгосрочной памяти, агент использует механизм сжатия опыта и его последующей архивации во внешней базе данных. Процесс «CompressExperience» заключается в преобразовании текущего опыта в компактное представление, минимизирующее объем занимаемой памяти. Это сжатое представление, содержащее ключевую информацию о произошедшем, сохраняется в базе данных для последующего использования. Такой подход позволяет агенту сохранять значительный объем информации о прошлом опыте, не ограничиваясь объемами оперативной памяти, и обеспечивает возможность доступа к этим данным в будущем.

Для использования накопленного опыта, агент способен осуществлять операцию ‘ReadExperience’, извлекая информацию из внешней базы данных ‘Indexed Experience Memory’. Этот процесс позволяет агенту получать доступ к ранее обработанным ситуациям и соответствующим решениям, что необходимо для адаптации к новым обстоятельствам и повышения эффективности действий. Извлеченные данные используются для корректировки текущей стратегии, оптимизации принятия решений и избежания повторения ошибок, тем самым обеспечивая непрерывное обучение и улучшение производительности агента в динамичной среде.

Процесс сжатия и извлечения опыта напрямую зависит от текущего ‘Статуса Контекста’ для эффективного управления ограничениями памяти. ‘Статус Контекста’ определяет приоритетность и релевантность хранимых данных, позволяя агенту динамически выбирать, какие эпизоды опыта сжимать и архивировать, а какие — извлекать для текущей ситуации. Это позволяет избежать переполнения памяти и обеспечивает доступ к наиболее значимой информации, необходимой для адаптации и принятия решений. Более высокий приоритет ‘Статуса Контекста’ может приводить к более тщательному сжатию и хранению информации, в то время как низкий приоритет может стимулировать агрессивное удаление устаревших данных.

Обучение с использованием MemexRL значительно повышает процент успешного выполнения задач, увеличивая его с начальных 24.2% до более чем 90%, что подтверждает эффективность Memex-агента в решении поставленных задач.

Влияние на долгосрочный воплощенный ИИ

Предложенная архитектура принципиально отличается от систем, ориентированных исключительно на выполнение отдельных задач. Она позволяет агентам не просто достигать поставленной цели, но и накапливать опыт, извлекать уроки из прошлых взаимодействий и применять полученные знания в совершенно новых, ранее не встречавшихся ситуациях. Такой подход открывает возможности для создания действительно адаптивных систем искусственного интеллекта, способных к обобщению и самостоятельному обучению в динамично меняющейся среде, что является важным шагом на пути к созданию универсального искусственного интеллекта.

Архивирование и последующий поиск ранее полученного опыта позволяет агентам непрерывно обучаться и улучшать свои результаты с течением времени. В отличие от систем, полагающихся исключительно на кратковременную память, данный подход обеспечивает сохранение ценной информации о прошлых взаимодействиях со средой. Агент способен не просто запоминать конкретные решения, но и извлекать уроки из этих решений, применяя их к новым, ранее не встречавшимся ситуациям. Этот процесс аналогичен формированию опыта у живых организмов, где прошлые события влияют на текущее поведение и повышают вероятность успешного решения задач в будущем. Благодаря возможности повторного использования знаний, агент демонстрирует устойчивое повышение эффективности и адаптируется к изменяющимся условиям, что существенно расширяет его возможности в долгосрочной перспективе.

Архитектура, разделяющая кратковременное обучение на основе контекста и долгосрочную память, позволяет создавать более масштабируемые и устойчивые системы искусственного интеллекта. Традиционно, модели ИИ полагаются на огромный контекст для каждой новой задачи, что приводит к вычислительным ограничениям и трудностям в обобщении опыта. Отделение этих функций позволяет агенту быстро адаптироваться к текущим обстоятельствам, используя кратковременную память для обработки непосредственной информации, и одновременно сохранять и извлекать ценный опыт из долгосрочной памяти. Такой подход значительно снижает потребность в огромном контексте при решении задач, обеспечивая более эффективное использование ресурсов и повышая способность к обучению на протяжении длительного времени, что особенно важно для сложных, динамичных сред.

Агент Memex продемонстрировал значительное повышение эффективности выполнения задач в модифицированной среде ALFWorld, достигнув 85,6% успешных результатов. Это существенный скачок по сравнению с первоначальным показателем в 24,2%, что указывает на высокую способность системы к обучению и адаптации. Полученные данные свидетельствуют о том, что предложенная архитектура позволяет агенту не просто выполнять конкретные задания, но и эффективно накапливать опыт, используя его для улучшения результатов в новых, схожих ситуациях. Подобное повышение производительности открывает новые перспективы для создания более автономных и интеллектуальных систем искусственного интеллекта, способных к длительному и непрерывному обучению.

В ходе исследования удалось существенно оптимизировать объем рабочей памяти агента Memex. Изначально требуемый для эффективной работы объем контекста составлял 16934 токена, что представляло собой значительную вычислительную нагрузку. Благодаря разработанной архитектуре, включающей механизм архивирования и извлечения опыта, пиковый объем рабочей памяти был снижен до 9634 токенов. Данное сокращение не только повышает эффективность алгоритма, снижая потребность в вычислительных ресурсах, но и открывает возможности для масштабирования системы и применения ее в средах с ограниченными ресурсами. Уменьшение объема контекста позволяет агенту быстрее обрабатывать информацию и принимать решения, что положительно сказывается на его общей производительности и способности к обучению.

Исследование, представленное в данной работе, демонстрирует стремление к упрощению сложных систем, что находит отклик в словах Кena Thompson: «Простота — высшая степень совершенства». Авторы Memex, подобно опытным мастерам, стремятся к лаконичности, отбрасывая избыточность в процессе управления контекстом. Вместо того чтобы накапливать огромные объемы информации, система использует Indexed Experience Memory для сжатия данных, сохраняя при этом ключевые моменты из прошлого опыта. Этот подход, как и философия Thompson, подчеркивает, что истинная эффективность достигается не за счет сложности, а за счет умения выделить самое главное и отбросить лишнее, позволяя агенту действовать более эффективно в долгосрочной перспективе.

Что Дальше?

Представленная работа, несомненно, демонстрирует потенциал индексированной памяти опыта для расширения горизонтов агентов, основанных на больших языковых моделях. Однако, увлечение объёмом памяти часто заслоняет более фундаментальный вопрос: что действительно необходимо сохранить? Упрощение — не всегда потеря, порой — обретение ясности. Эффективность сжатия контекста, хоть и улучшена, остаётся зависимой от заранее заданных параметров. Неизбежно возникает потребность в адаптивных механизмах, способных самостоятельно определять релевантность информации.

В перспективе, истинный прогресс лежит не в увеличении объёма хранимого, а в развитии способности к абстракции. Агент должен не просто помнить, но и понимать. Способность к построению причинно-следственных связей, к выявлению общих принципов — вот что позволит преодолеть ограничения текущих подходов. Иначе, мы рискуем создать лишь более сложный архив, а не разумную систему.

Настоящая проверка ждёт в условиях неполноты и неопределённости. Способность к обобщению, к экстраполяции на новые, не встречавшиеся ранее ситуации — вот критерий, определяющий ценность любого агента. И пока эта способность не будет продемонстрирована в полной мере, все усилия по оптимизации памяти останутся лишь тактическими улучшениями, а не стратегическим прорывом.

Оригинал статьи: https://arxiv.org/pdf/2603.04257.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-05 23:10

🚀 Квантовые новости