Умный поиск знаний: как обучение с подкреплением улучшает работу языковых моделей

Автор: Денис Аветисян


Исследование показывает, что обучение с подкреплением помогает языковым моделям эффективнее использовать уже имеющиеся знания, а не приобретать новые.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
Сравнительный анализ скрытых состояний моделей QwQ-32B, Qwen2.5-32B-Instruct и DeepSeek-R1-Distill-Qwen-32B показывает, что хотя знания в базовых и
Сравнительный анализ скрытых состояний моделей QwQ-32B, Qwen2.5-32B-Instruct и DeepSeek-R1-Distill-Qwen-32B показывает, что хотя знания в базовых и «рассуждающих» моделях кодируются схожим образом, различия в представлении вопросов, особенно в последнем слое ($AR_{Reason} vs. A_{Base}$ и $QR_{Reason} vs. Q_{Base}$), указывают на различные стратегии навигации по этим знаниям, при этом вопросы демонстрируют большую дивергенцию представлений, чем ответы.

Работа демонстрирует, что улучшение навигации по иерархическим знаниям в больших языковых моделях снижает ‘налог на согласование’ и предлагает новые подходы к обучению.

Распространено мнение, что обучение с подкреплением, улучшая рассуждения больших языковых моделей (LLM), неизбежно приводит к ухудшению их способности к запоминанию фактов. В работе ‘Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs’ показано, что модели, обученные с подкреплением, демонстрируют превосходство над базовыми и моделями, обученными с учителем, в задачах, требующих воспроизведения знаний, особенно в случае иерархически структурированных данных, таких как медицинские коды. Авторы утверждают, что этот эффект связан не с приобретением новых данных, а с улучшением навыков навигации и поиска в существующих знаниях внутри модели. Не является ли это свидетельством того, что обучение с подкреплением оптимизирует процедурные знания, а не фактические, открывая новые пути для повышения эффективности и надёжности LLM?


За пределами параметров: ограничения параметрического знания

Большие языковые модели (LLM) демонстрируют впечатляющую способность улавливать статистические взаимосвязи в данных, эффективно храня знания в своих параметрах. Однако “параметрическое знание” испытывает трудности при решении сложных задач, что приводит к снижению точности фактической информации. Простое масштабирование LLM недостаточно. Необходим новый подход к представлению и доступу к знаниям, позволяющий преодолеть эти ограничения.

Иерархия знаний: навигация и структурированные запросы

В качестве альтернативы исключительно параметрическому подходу, все больше внимания уделяется иерархическим структурам знаний. Эти структуры, организованные слоями концепций, позволяют эффективно представлять и систематизировать информацию. Извлечение информации осуществляется прямым извлечением или иерархической навигацией. Эффективность навигации зависит от применяемых стратегий. Структурированное побуждение (Structured Prompting) позволяет снизить разрыв в производительности моделей, например, DeepSeek-V3 и DeepSeek-R1, на 7 процентных пунктов при работе с набором данных MedConceptsQA.

Сравнительный анализ производительности моделей DeepSeek-V3 и DeepSeek-R1 при использовании различных стратегий запросов – прямого вопросно-ответного подхода (Шаблон 1), цепочки рассуждений (Шаблон 2) и структурированного запроса (Шаблон 3) – на наборе данных MedConceptsQA показывает, что ответы классифицируются на четыре категории в зависимости от количества правильных оценок в трех независимых запусках: “Все неверно” (0/3), “Большинство неверно” (1/3), “Большинство верно” (2/3) и “Все верно” (3/3).
Сравнительный анализ производительности моделей DeepSeek-V3 и DeepSeek-R1 при использовании различных стратегий запросов – прямого вопросно-ответного подхода (Шаблон 1), цепочки рассуждений (Шаблон 2) и структурированного запроса (Шаблон 3) – на наборе данных MedConceptsQA показывает, что ответы классифицируются на четыре категории в зависимости от количества правильных оценок в трех независимых запусках: “Все неверно” (0/3), “Большинство неверно” (1/3), “Большинство верно” (2/3) и “Все верно” (3/3).

Оценка точности навигации: путь к истине

Точность иерархической навигации может быть количественно оценена с помощью метрики «Соответствие пути» ($Path\ Matching\ Score$). Применение этих методов к наборам данных, таким как «MedConceptsQA» и «Международная патентная классификация», обеспечивает строгую оценку возможностей LLM в области рассуждений. Обучение с подкреплением улучшает производительность на 24 процентных пункта в наборе данных «MedConceptsQA». Анализ показывает увеличение разрыва в производительности на 5-9 процентных пунктов при увеличении глубины поиска, подчеркивая превосходство моделей, усиленных механизмами рассуждений.

Совершенствование рассуждений: пост-обучение и когнитивные каркасы

Техники пост-обучения, такие как контролируемая тонкая настройка и обучение с подкреплением на основе обратной связи от человека, совершенствуют способность LLM эффективно ориентироваться в структуре знаний. Обучение с подкреплением, ориентированное на рассуждения, может быть усилено когнитивными каркасами, улучшающими навыки рассуждений. Модели не просто генерируют ответы, но демонстрируют логическую последовательность. Оценки косинусного сходства показывают, что фактические представления сохраняются (0.85-0.92), в то время как процесс обработки запросов трансформируется (0.65-0.73).

Исследование демонстрирует, что усиление обучения позволяет большим языковым моделям эффективнее ориентироваться в уже существующей иерархической структуре знаний, а не приобретать новые. Этот подход пересматривает концепцию “налога на согласование” (alignment tax), указывая на возможность оптимизации существующих парадигм обучения. Как отмечал Дональд Дэвис: “Простота — высшая степень совершенства.” Эта мысль находит отражение в работе, поскольку авторы стремятся к оптимизации процесса навигации по знаниям, избегая излишней сложности и фокусируясь на эффективном использовании уже имеющейся информации. Вместо добавления новых слоев знаний, исследование подчеркивает важность улучшения способности модели находить и использовать то, что она уже знает.

Что дальше?

Представленная работа, констатируя улучшение навигации по иерархическим знаниям в больших языковых моделях посредством обучения с подкреплением, лишь подчеркивает фундаментальную проблему. Успех не в накоплении информации, а в эффективном использовании уже существующей. Иллюзия “налога на согласование” рассеивается, уступая место пониманию, что ограничения моделей кроются не в неспособности “выучить” факты, а в сложности организации и доступа к ним. Очевидно, что фокус исследований должен сместиться с увеличения объема данных на оптимизацию структур, облегчающих их внутреннюю организацию.

Остается открытым вопрос о границах эффективности подобного подхода. Улучшение навигации – это лишь симптом, а не лекарство. Модель, умело манипулирующая знаниями, но лишенная истинного понимания, остается сложным механизмом, способным лишь к имитации. Необходимо изучить, как навигационные стратегии, выработанные посредством обучения с подкреплением, соотносятся с когнитивными процессами, наблюдаемыми в биологических системах.

Дальнейшие исследования должны быть направлены на разработку метрик, оценивающих не только точность ответа, но и эффективность процесса поиска информации внутри модели. Стремление к простоте и ясности – вот что действительно необходимо. Усложнение структуры ради усложнения – это путь в никуда. Оптимизация внутренней организации, а не наращивание объема данных – вот истинный путь к созданию действительно интеллектуальных систем.


Оригинал статьи: https://arxiv.org/pdf/2511.05933.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-11 23:42