Рассуждения без тормозов: как сложно контролировать мысли у языковых моделей
![Модели рассуждения, стремясь управлять ходом своих цепочек мыслей [latex]CoT[/latex], часто испытывают трудности, невольно упоминая о необходимости этого контроля, несмотря на прямые указания воздержаться от подобных замечаний.](https://arxiv.org/html/2603.05706v1/x24.png)
Новое исследование показывает, что современные большие языковые модели испытывают трудности с управлением своими внутренними процессами рассуждения, что ставит под вопрос надежность систем, полагающихся на мониторинг этих шагов.

![Отношение масштабов [latex]R = t_0/t_1[/latex] и его отклонение от единицы, вычисленные для ансамблей, представленных в табл. 1, демонстрируют зависимость от интервала решетки и нормированы к [latex]a/t_0[/latex], при этом качественная экстраполяция, включающая линейный и квадратичный члены от [latex]a/\sqrt{t_0}[/latex], позволяет оценить влияние различных дискретизаций градиентного потока на точность вычисления масштаба.](https://arxiv.org/html/2603.05155v1/x4.png)



![Наблюдается взаимосвязь между длиной контекста ([latex]L[/latex]) и количеством итераций ([latex]N[/latex]) при определении экономической эффективности подхода с использованием длинного контекста по сравнению с системой памяти: области, окрашенные в красный цвет, указывают на превосходство длинного контекста по затратам, в то время как синие области свидетельствуют о более низкой стоимости системы памяти, а граница между ними, обозначенная чёрной линией, определяет точку безубыточности.](https://arxiv.org/html/2603.04814v1/2603.04814v1/media/break_even_heatmap.png)