Обучение с множественными наградами: как избежать коллапса и согласовать языковые модели

Новый подход GDPO решает проблему нестабильности обучения в задачах с множественными наградами, обеспечивая лучшее согласование языковых моделей с разнообразными предпочтениями пользователей.

![В основе разработанной системы генерации видео, PlenopticDreamer, лежит авторегрессивная модель, использующая банк пар [latex]\left(\mathbf{P}^{n},\mathbf{V}^{n}\right)\_{n=1}^{k}[/latex], отобранных на основе 3D поля зрения, для последовательного воссоздания видеофрагментов [latex]\mathbf{V}^{k+1}[/latex] при заданном ракурсе камеры [latex]\mathbf{P}^{k+1}[/latex], при этом для обеспечения непрерывности и качества генерации часть предыдущих кадров сохраняется в качестве исходных данных, а внутри каждого блока DiT применяется временная конкатенация для формирования видеотокенов в качестве контекстных условий.](https://arxiv.org/html/2601.05239v1/x2.png)

![Система VideoAuto-R1 функционирует по принципу «одна мысль - два ответа», где как первоначальный, так и пересмотренный ответ оцениваются с помощью проверяемых вознаграждений, а механизм раннего выхода позволяет динамически определять необходимость углубленного рассуждения [latex]CoT[/latex] в процессе инференса.](https://arxiv.org/html/2601.05175v1/x1.png)
![Исследование демонстрирует, что [latex]biopie[/latex] позволяет создавать детальные структурные представления сложных биомедицинских протоколов, включая параметры вроде температуры и длительности, что обеспечивает высокую информационную плотность и возможность многоступенчатого логического вывода за счет интеграции контекста предложений с графовыми знаниями, в то время как существующие наборы данных для извлечения информации страдают от компромисса между широтой охвата и спецификой предметной области.](https://arxiv.org/html/2601.04524v1/x1.png)


