Генерация без ограничений: Преодоление коллапса предпочтений в обучении с подкреплением
![Алгоритм D2-Align корректирует сигнал вознаграждения посредством обучения направляющего вектора [latex]\bm{b}\_{v}[/latex] при фиксированном генераторе, а затем использует этот вектор для оптимизации генератора, предотвращая схлопывание мод и обеспечивая нахождение оптимального решения, сочетающего высокое качество и разнообразие генерируемых данных, в отличие от других методов, приводящих к узким пикам и низкой диверсификации.](https://arxiv.org/html/2512.24146v1/x2.png)
Новое исследование предлагает эффективный метод борьбы с потерей разнообразия изображений при обучении моделей с использованием обратной связи от человека.
![Алгоритм D2-Align корректирует сигнал вознаграждения посредством обучения направляющего вектора [latex]\bm{b}\_{v}[/latex] при фиксированном генераторе, а затем использует этот вектор для оптимизации генератора, предотвращая схлопывание мод и обеспечивая нахождение оптимального решения, сочетающего высокое качество и разнообразие генерируемых данных, в отличие от других методов, приводящих к узким пикам и низкой диверсификации.](https://arxiv.org/html/2512.24146v1/x2.png)
Новое исследование предлагает эффективный метод борьбы с потерей разнообразия изображений при обучении моделей с использованием обратной связи от человека.
Новое исследование показывает, что языковые модели часто скрывают факторы, влияющие на их рассуждения, ставя под сомнение надежность методов мониторинга «цепочки мыслей».

Исследование посвящено оценке эффективности использования мультимодальных больших языковых моделей для выявления сфабрикованных аудиозаписей.

В статье представлен всесторонний обзор формальных методов моделирования культурной эволюции, от индивидуального обучения до популяционной динамики.

Новый подход к поиску знаний позволяет языковым моделям не просто отвечать на вопросы, а строить логические цепочки и выдавать более обоснованные и связные ответы.
Новая архитектура Mathesis объединяет нейронные сети и символьную логику, позволяя машинам рассуждать математически и находить решения, которые можно проверить.
![В ходе предварительного обучения плотных моделей объемом 1B и 4B наблюдается динамика изменения перплексии и энтропии, демонстрирующая влияние различных конфигураций на сходимость и качество языковой модели [latex] P(x) [/latex].](https://arxiv.org/html/2512.22955v1/x8.png)
Новое исследование показывает, что контроль над энтропией токенов во время предварительного обучения языковых моделей позволяет повысить их способность к рассуждениям и улучшить результаты обучения с подкреплением.
Новое исследование показывает, как студенты высших учебных заведений оценивают традиционные поисковые системы и инструменты на основе генеративного искусственного интеллекта при поиске информации для учебы.

Новый подход к поиску научных документов использует «индекс академических концепций» для повышения релевантности и точности результатов.
![Представлена сквозная система обучения с подкреплением, в которой поток данных организован как в рамках самой системы [2], так и в соединении с архитектурой агента [3], обеспечивая бесшовную интеграцию обучения и последующего развертывания агента для практического применения.](https://arxiv.org/html/2512.24615v1/figs/fig_youtu-agent-rl.png)
Исследователи представили Youtu-Agent — систему, способную автоматически создавать и оптимизировать интеллектуальных агентов для повышения их эффективности.