Память о прошлом: Как использовать кэш KV для повышения интеллекта языковых моделей
![Изучение потребления видеопамяти [latex]VRAM[/latex] для модели Qwen3-32B демонстрирует, что добавление скрытых состояний к кешу [latex]KV[/latex] значительно увеличивает использование памяти по сравнению с использованием только кеша [latex]KV[/latex], что указывает на компромисс между вычислительной эффективностью и потреблением ресурсов.](https://arxiv.org/html/2601.20326v1/x1.png)
Новое исследование показывает, что кэш KV, традиционно применяемый для ускорения генерации текста, может быть перепрофилирован для задач самооценки и адаптивного рассуждения, открывая новые возможности для эффективного использования ресурсов.

![Оптимизация размера пакета позволила выявить оптимальные значения для катиона Зундела, воды и пара-H2, обеспечивающие максимальную эффективность сэмплирования [latex] ESS/sec [/latex] на графическом процессоре NVIDIA RTX 5090, демонстрируя возможность тонкой настройки производительности алгоритма GG-PI в зависимости от исследуемой системы.](https://arxiv.org/html/2601.20228v1/figs/SI/ess_ggpi.png)

![В рамках представленной работы разработан подход, в котором на первом этапе формируется семантический граф знаний [latex]\mathcal{G}\_{\text{sem}}[/latex], за которым следует фаза обучения нейронной сети с применением термодинамической регуляризации [latex]\mathcal{P}\_{\text{scout}}[/latex] для внедрения принципов пищевой ценности в латентные представления, а на заключительном этапе, используя полученные представления и профиль пользователя, формируется пул кандидатов и, посредством оптимизатора ограничений [latex]\mathcal{P}\_{\text{enforce}}[/latex] с применением имитации отжига и упругих величин, генерируется набор продуктов, строго соответствующий индивидуальным дневным нормам питания.](https://arxiv.org/html/2601.19244v1/Nutri_block.png)
![Наблюдения, основанные на распределениях [latex]p_T[/latex], [latex]p_{T,jet}[/latex], girth, [latex]M_{jet}[/latex], [latex]N_{const}[/latex] и [latex]Q^{\rm ch}_{\kappa}[/latex] для событий γ+jet с энергией струи от 50 до 100 ГэВ/c, демонстрируют различия в характеристиках струй, порожденных кварками (синяя штриховка) и глюонами (красная штриховка), что указывает на возможность их дифференциации на основе наблюдаемых параметров.](https://arxiv.org/html/2601.19645v1/MLP_Jet50to100.png)