Рекомендации будущего: Агенты искусственного интеллекта на службе пользователя

Автор: Денис Аветисян


Новая архитектура RecGPT-V2 использует возможности больших языковых моделей и мультиагентных систем для создания принципиально новых, более эффективных рекомендаций.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Архитектура RecGPT-V2 представляет собой комплексную систему, предназначенную для генерации и анализа последовательностей, демонстрируя потенциал масштабируемых рекуррентных моделей в задачах обработки естественного языка и за его пределами.
Архитектура RecGPT-V2 представляет собой комплексную систему, предназначенную для генерации и анализа последовательностей, демонстрируя потенциал масштабируемых рекуррентных моделей в задачах обработки естественного языка и за его пределами.

RecGPT-V2 представляет собой агентическую систему, использующую обучение с подкреплением и контекстуальное рассуждение для значительного повышения вовлеченности пользователей и оптимизации производительности рекомендательных систем.

Несмотря на успехи больших языковых моделей (LLM) в рекомендательных системах, существующие подходы часто страдают от вычислительной неэффективности и недостаточной гибкости. В данной работе, представленной в ‘RecGPT-V2 Technical Report’, предложена новая архитектура, использующая многоагентную систему и обучение с подкреплением для улучшения качества рекомендаций и объяснимости результатов. Достигнутые улучшения, включая повышение CTR на 2.98% и снижение потребления GPU на 60%, демонстрируют значительный прогресс в области LLM-ориентированных рекомендаций. Возможно ли дальнейшее масштабирование подобных систем и адаптация их к различным сценариям использования, обеспечивая более персонализированный и эффективный пользовательский опыт?


Пределы Традиционных Рекомендательных Систем

Современные рекомендательные системы, даже те, что используют глубокое обучение, часто сталкиваются с трудностями при понимании сложного пользовательского намерения и обладают ограниченной способностью к обобщению. Это связано с тем, что алгоритмы нередко упрощают представление о предпочтениях пользователя, сосредотачиваясь на явных сигналах, таких как история покупок или просмотров, и упуская из виду скрытые мотивы и контекст. В результате, система может предлагать релевантные, но не всегда желаемые или неожиданные варианты, не учитывая, например, текущее настроение пользователя или его долгосрочные интересы. Ограниченная способность к обобщению проявляется в трудностях адаптации к новым пользователям или новым товарам, требуя значительного объема данных для эффективной работы и приводя к «холодному старту» — неспособности предложить релевантные рекомендации в отсутствие достаточной информации.

Существующие системы рекомендаций зачастую опираются на упрощенные модели поведения пользователей, что существенно ограничивает их способность предлагать действительно персонализированный и разнообразный контент. Вместо глубокого анализа индивидуальных предпочтений, многие алгоритмы ограничиваются фиксацией лишь самых очевидных паттернов — например, история покупок или просмотров. Это приводит к эффекту “информационного пузыря”, когда пользователю предлагается лишь то, что, вероятно, соответствует его предыдущим действиям, игнорируя потенциально интересные, но менее очевидные варианты. В результате, системы упускают возможность открыть для пользователя новые интересы и предпочтения, что снижает общую удовлетворенность и эффективность рекомендаций. Недостаточное внимание к нюансам и контексту поведения пользователей препятствует формированию действительно индивидуального подхода и ограничивает возможности диверсификации предлагаемого контента.

Существенная проблема современных систем рекомендаций заключается в эффективном захвате и анализе огромного и постоянно меняющегося пространства пользовательских предпочтений и характеристик предлагаемых товаров. Простое отслеживание истории покупок или оценок оказывается недостаточным для понимания сложных мотивов и контекста, в котором формируется интерес пользователя. Системы вынуждены оперировать с многомерными данными, учитывая не только явные предпочтения, но и скрытые связи между товарами, сезонность, социальные тренды и другие факторы. Эффективное представление и обработка этих данных требуют разработки новых алгоритмов и архитектур, способных к масштабированию и адаптации к изменяющимся условиям. Именно преодоление этой сложности является ключевым шагом к созданию по-настоящему интеллектуальных систем, способных предвосхищать потребности пользователя и предлагать релевантные и разнообразные рекомендации.

RecGPT-V2 демонстрирует улучшенные онлайн-показатели в Taobao, значительное снижение вычислительных затрат и более точное отслеживание сезонных трендов, таких как спрос на товары к Хэллоуину и зиме, по сравнению с RecGPT-V1.
RecGPT-V2 демонстрирует улучшенные онлайн-показатели в Taobao, значительное снижение вычислительных затрат и более точное отслеживание сезонных трендов, таких как спрос на товары к Хэллоуину и зиме, по сравнению с RecGPT-V1.

RecGPT-V2: Агентный Фреймворк для Интеллектуальных Рекомендаций

RecGPT-V2 использует иерархическую многоагентную систему, в которой сложный анализ пользовательских намерений разделяется между скоординированными специализированными агентами. Данный подход позволяет декомпозировать задачу на более мелкие, управляемые подзадачи, что повышает эффективность обработки запросов и способствует увеличению разнообразия генерируемых рекомендаций. Каждый агент специализируется на определенном аспекте анализа намерений, например, на выявлении ключевых сущностей, определении контекста или прогнозировании предпочтений, и взаимодействует с другими агентами для формирования целостного понимания запроса пользователя. Координация между агентами осуществляется посредством механизмов обмена информацией и согласования действий, что обеспечивает совместное решение задачи и оптимизацию конечного результата.

В основе работы RecGPT-V2 лежит гибридный вывод представлений (Hybrid Representation Inference), направленный на повышение вычислительной эффективности. Для сжатия токенов, отражающих поведение пользователя, используется атомизированное кодирование сущностей (Atomized Entity Encoding). Данный подход позволяет существенно снизить потребление ресурсов GPU — зафиксировано уменьшение на 60% по сравнению с предыдущими реализациями. Это достигается за счет представления данных о пользователях в виде отдельных, дискретных элементов, что упрощает и ускоряет процесс обработки и поиска релевантных рекомендаций.

В RecGPT-V2 для генерации объяснений и адаптации к изменяющимся контекстным сигналам используется мета-подсказка (Meta-Prompting). Данный подход позволяет системе динамически формировать запросы к языковой модели, определяя, какую информацию необходимо предоставить пользователю для обоснования рекомендаций. Мета-подсказки включают в себя инструкции, описывающие желаемый формат объяснения, уровень детализации и релевантные факторы, влияющие на рекомендацию. Благодаря этому, RecGPT-V2 не просто предсказывает предпочтения пользователя, но и предоставляет прозрачные и понятные объяснения, учитывающие текущий контекст и индивидуальные особенности.

RecGPT-V2 использует обучение с подкреплением с ограничениями (Constrained Reinforcement Learning) для одновременной оптимизации нескольких целевых показателей. В отличие от стандартных алгоритмов RL, которые фокусируются исключительно на максимизации награды, RecGPT-V2 учитывает практические ограничения, такие как бюджетные ограничения, требования к разнообразию рекомендаций и допустимые временные рамки. Это достигается путем введения штрафных функций в функцию потерь, которые наказывают агента за нарушение заданных ограничений. Алгоритм стремится найти оптимальную политику, которая максимизирует суммарную награду, одновременно поддерживая соблюдение всех установленных ограничений, что обеспечивает более реалистичные и применимые результаты в реальных сценариях рекомендаций.

В отличие от RecGPT-V1, использующего изолированные пути рассуждений, RecGPT-V2 применяет иерархическую систему многоагентных взаимодействий (глобальный планировщик, распределённые эксперты и арбитр решений), что позволяет снизить когнитивную избыточность за счёт скоординированного разложения намерений.
В отличие от RecGPT-V1, использующего изолированные пути рассуждений, RecGPT-V2 применяет иерархическую систему многоагентных взаимодействий (глобальный планировщик, распределённые эксперты и арбитр решений), что позволяет снизить когнитивную избыточность за счёт скоординированного разложения намерений.

Строгая Оценка и Прирост Производительности

Для более детальной оценки качества рекомендаций была разработана система Agent-as-a-Judge, представляющая собой фреймворк, имитирующий когнитивные процессы человека. Данная система является развитием предыдущей работы LLM-as-a-Judge и обеспечивает более нюансированную оценку, выходящую за рамки простых метрик точности. В отличие от традиционных методов, Agent-as-a-Judge учитывает комплексные факторы, такие как релевантность, разнообразие и новизну рекомендаций, что позволяет получить более полное представление об их качестве и эффективности.

Модель RecGPT-V2 демонстрирует значительное улучшение ключевых метрик по сравнению с RecGPT-V1, как в точности рекомендаций, так и в их разнообразии. Подтверждение этих улучшений было получено с использованием метода Listwise Learning-to-Rank, который позволяет оценивать качество ранжирования списков рекомендованных элементов. Данный метод учитывает порядок элементов в списке и оптимизирует его для повышения релевантности и разнообразия предлагаемого контента. В ходе валидации RecGPT-V2 превзошла RecGPT-V1 по показателям точности (accuracy) и разнообразия (diversity), что свидетельствует о более эффективном алгоритме ранжирования.

Для подтверждения практической применимости, RecGPT-V2 был протестирован в онлайн A/B тесте на платформе Taobao. Результаты показали значительное улучшение ключевых метрик: количество просмотров страниц товаров (Item Page Views, IPV) увеличилось на 3.40%, коэффициент кликабельности (Click-Through Rate, CTR) вырос на 3.01%, а показатель новизны предлагаемых товаров (Novelty Exposure Rate, NER) увеличился на 11.46%. Данные результаты подтверждают эффективность RecGPT-V2 в реальных условиях эксплуатации и демонстрируют его способность повышать вовлеченность пользователей и расширять ассортимент предлагаемых товаров.

Система
Система «Агент как Судья» имитирует человеческую оценку, разбивая качество на отдельные аспекты, которые независимо оцениваются и затем объединяются в трехбалльную систему («Отлично»/»Средне»/»Плохо»).

К Объяснимым и Контекстуально-Осведомлённым Рекомендациям

Система RecGPT-V2 обеспечивает пользователей не просто рекомендациями, а понятными и практически применимыми объяснениями, раскрывающими причины выбора конкретных товаров. Интегрируя различные контекстуальные сигналы — время суток, местоположение, предыдущие взаимодействия — и используя механизмы генерации объяснений, система формирует осмысленные обоснования для каждого предложения. Это позволяет пользователям лучше понимать логику рекомендаций, повышая доверие к системе и способствуя более осознанным решениям о покупке. Вместо простого перечисления товаров, RecGPT-V2 предоставляет информацию о том, почему данный товар может быть интересен, основываясь на индивидуальных предпочтениях и текущем контексте.

Подобный подход к формированию рекомендаций не только укрепляет доверие пользователей и повышает их удовлетворенность, но и открывает возможности для неожиданных, но релевантных открытий. Вместо предсказуемых предложений, система способна представлять пользователям товары или контент, которые они, возможно, не искали бы самостоятельно, но которые соответствуют их скрытым интересам и предпочтениям. Это стимулирует исследование новых областей и расширяет горизонты выбора, создавая более приятный и полезный пользовательский опыт, выходящий за рамки простого удовлетворения текущих потребностей.

Система RecGPT-V2 демонстрирует повышенную эффективность благодаря способности к прогнозированию тегов товаров, что позволяет формировать более точные рекомендации, учитывающие предпочтения пользователя и характеристики предлагаемых позиций. Этот подход к персонализации не только улучшает пользовательский опыт, но и оказывает измеримое влияние на ключевые бизнес-показатели: наблюдается увеличение объёма транзакций на $2.11\%$ и рост валовой стоимости продаж на $3.39\%$. Прогнозирование тегов позволяет системе понимать контекст каждого товара и сопоставлять его с индивидуальными интересами пользователя, что в конечном итоге приводит к более релевантным предложениям и, как следствие, к увеличению конверсии и общей прибыльности платформы.

RecGPT-V2, использующая гибридное представление и разделенные этапы предварительной обработки и декодирования, значительно повышает эффективность использования GPU и общую вычислительную производительность по сравнению с RecGPT-V1.
RecGPT-V2, использующая гибридное представление и разделенные этапы предварительной обработки и декодирования, значительно повышает эффективность использования GPU и общую вычислительную производительность по сравнению с RecGPT-V1.

Исследование RecGPT-V2 демонстрирует, что эффективные рекомендательные системы — это не просто алгоритмы, а сложные, взаимодействующие агенты. Как отмечает Роберт Тарьян: «Структуры данных и алгоритмы — это лишь инструменты. Важно понимать, как они взаимодействуют друг с другом и как они влияют на общую систему». В данном случае, использование многоагентного подхода и обучение с подкреплением позволяет RecGPT-V2 адаптироваться к меняющимся потребностям пользователей и повышать эффективность системы. Контекстное рассуждение, являющееся ключевым аспектом разработки, позволяет системе учитывать нюансы поведения пользователя, что, в свою очередь, ведет к более персонализированным и релевантным рекомендациям. Это подтверждает идею о том, что долговечность системы определяется не ее статичной структурой, а способностью к динамической адаптации.

Куда же дальше?

Представленная работа, словно версионирование сложной системы, зафиксировала определенный момент в развитии рекомендательных систем. Однако, стрела времени неумолимо указывает на необходимость рефакторинга. Успехи, достигнутые благодаря агентному подходу и использованию больших языковых моделей, обнажают новые горизонты, но и подчеркивают существующие ограничения. Вопрос не в том, насколько «умны» агенты, а в том, как обеспечить их устойчивость к непредсказуемости человеческого поведения и эволюции данных.

Особого внимания заслуживает проблема объяснимости. Даже если система демонстрирует впечатляющие результаты в онлайн A/B тестировании, понимание почему она принимает те или иные решения остается критически важным. В конечном счете, доверие пользователя формируется не только на основе эффективности, но и на прозрачности логики системы. Искусственный интеллект, лишенный внутренней согласованности, подобен замку из песка — красив, но обречен на разрушение.

Будущие исследования должны быть направлены на разработку более надежных метрик оценки, учитывающих долгосрочное взаимодействие с пользователем и адаптивность к изменяющимся условиям. Все системы стареют — вопрос лишь в том, делают ли они это достойно. Иными словами, недостаточно создать систему, способную удовлетворить текущие потребности; необходимо спроектировать ее таким образом, чтобы она могла эволюционировать вместе со временем.


Оригинал статьи: https://arxiv.org/pdf/2512.14503.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-18 05:59