Автор: Денис Аветисян
Исследование показывает, что обучение с подкреплением помогает языковым моделям эффективнее использовать уже имеющиеся знания, а не приобретать новые.

Работа демонстрирует, что улучшение навигации по иерархическим знаниям в больших языковых моделях снижает ‘налог на согласование’ и предлагает новые подходы к обучению.
Распространено мнение, что обучение с подкреплением, улучшая рассуждения больших языковых моделей (LLM), неизбежно приводит к ухудшению их способности к запоминанию фактов. В работе ‘Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs’ показано, что модели, обученные с подкреплением, демонстрируют превосходство над базовыми и моделями, обученными с учителем, в задачах, требующих воспроизведения знаний, особенно в случае иерархически структурированных данных, таких как медицинские коды. Авторы утверждают, что этот эффект связан не с приобретением новых данных, а с улучшением навыков навигации и поиска в существующих знаниях внутри модели. Не является ли это свидетельством того, что обучение с подкреплением оптимизирует процедурные знания, а не фактические, открывая новые пути для повышения эффективности и надёжности LLM?
За пределами параметров: ограничения параметрического знания
Большие языковые модели (LLM) демонстрируют впечатляющую способность улавливать статистические взаимосвязи в данных, эффективно храня знания в своих параметрах. Однако “параметрическое знание” испытывает трудности при решении сложных задач, что приводит к снижению точности фактической информации. Простое масштабирование LLM недостаточно. Необходим новый подход к представлению и доступу к знаниям, позволяющий преодолеть эти ограничения.
Иерархия знаний: навигация и структурированные запросы
В качестве альтернативы исключительно параметрическому подходу, все больше внимания уделяется иерархическим структурам знаний. Эти структуры, организованные слоями концепций, позволяют эффективно представлять и систематизировать информацию. Извлечение информации осуществляется прямым извлечением или иерархической навигацией. Эффективность навигации зависит от применяемых стратегий. Структурированное побуждение (Structured Prompting) позволяет снизить разрыв в производительности моделей, например, DeepSeek-V3 и DeepSeek-R1, на 7 процентных пунктов при работе с набором данных MedConceptsQA.

Оценка точности навигации: путь к истине
Точность иерархической навигации может быть количественно оценена с помощью метрики «Соответствие пути» ($Path\ Matching\ Score$). Применение этих методов к наборам данных, таким как «MedConceptsQA» и «Международная патентная классификация», обеспечивает строгую оценку возможностей LLM в области рассуждений. Обучение с подкреплением улучшает производительность на 24 процентных пункта в наборе данных «MedConceptsQA». Анализ показывает увеличение разрыва в производительности на 5-9 процентных пунктов при увеличении глубины поиска, подчеркивая превосходство моделей, усиленных механизмами рассуждений.
Совершенствование рассуждений: пост-обучение и когнитивные каркасы
Техники пост-обучения, такие как контролируемая тонкая настройка и обучение с подкреплением на основе обратной связи от человека, совершенствуют способность LLM эффективно ориентироваться в структуре знаний. Обучение с подкреплением, ориентированное на рассуждения, может быть усилено когнитивными каркасами, улучшающими навыки рассуждений. Модели не просто генерируют ответы, но демонстрируют логическую последовательность. Оценки косинусного сходства показывают, что фактические представления сохраняются (0.85-0.92), в то время как процесс обработки запросов трансформируется (0.65-0.73).
Исследование демонстрирует, что усиление обучения позволяет большим языковым моделям эффективнее ориентироваться в уже существующей иерархической структуре знаний, а не приобретать новые. Этот подход пересматривает концепцию “налога на согласование” (alignment tax), указывая на возможность оптимизации существующих парадигм обучения. Как отмечал Дональд Дэвис: “Простота — высшая степень совершенства.” Эта мысль находит отражение в работе, поскольку авторы стремятся к оптимизации процесса навигации по знаниям, избегая излишней сложности и фокусируясь на эффективном использовании уже имеющейся информации. Вместо добавления новых слоев знаний, исследование подчеркивает важность улучшения способности модели находить и использовать то, что она уже знает.
Что дальше?
Представленная работа, констатируя улучшение навигации по иерархическим знаниям в больших языковых моделях посредством обучения с подкреплением, лишь подчеркивает фундаментальную проблему. Успех не в накоплении информации, а в эффективном использовании уже существующей. Иллюзия “налога на согласование” рассеивается, уступая место пониманию, что ограничения моделей кроются не в неспособности “выучить” факты, а в сложности организации и доступа к ним. Очевидно, что фокус исследований должен сместиться с увеличения объема данных на оптимизацию структур, облегчающих их внутреннюю организацию.
Остается открытым вопрос о границах эффективности подобного подхода. Улучшение навигации – это лишь симптом, а не лекарство. Модель, умело манипулирующая знаниями, но лишенная истинного понимания, остается сложным механизмом, способным лишь к имитации. Необходимо изучить, как навигационные стратегии, выработанные посредством обучения с подкреплением, соотносятся с когнитивными процессами, наблюдаемыми в биологических системах.
Дальнейшие исследования должны быть направлены на разработку метрик, оценивающих не только точность ответа, но и эффективность процесса поиска информации внутри модели. Стремление к простоте и ясности – вот что действительно необходимо. Усложнение структуры ради усложнения – это путь в никуда. Оптимизация внутренней организации, а не наращивание объема данных – вот истинный путь к созданию действительно интеллектуальных систем.
Оригинал статьи: https://arxiv.org/pdf/2511.05933.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Виртуальная примерка без границ: EVTAR учится у образов
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Квантовый скачок: от лаборатории к рынку
- Визуальное мышление нового поколения: V-Thinker
- Почему ваш Steam — патологический лжец, и как мы научили компьютер читать между строк
- LLM: математика — предел возможностей.
- Квантовые эксперименты: новый подход к воспроизводимости
- Симметрия в квантовом машинном обучении: поиск оптимального баланса
- Восполняя пробелы в знаниях: Как языковые модели учатся делать выводы
- Память как основа разума: новый подход к генерации ответов
2025-11-11 23:42