Обучение с множественными наградами: как избежать коллапса и согласовать языковые модели

Групповая нормализация на основе вознаграждения с последующей пакетной нормализацией преимуществ (GDPO) обеспечивает стабильный численный диапазон и улучшенную стабильность обновления в процессе обучения с подкреплением, что, как демонстрируют результаты экспериментов с моделью Qwen2.5-Instruct-1.5B, приводит к более высокой точности и соответствию формату вознаграждения по сравнению с GRPO, о чем свидетельствует медиана и межквартильный размах кривых вознаграждения, полученных в пяти запусках.

Новый подход GDPO решает проблему нестабильности обучения в задачах с множественными наградами, обеспечивая лучшее согласование языковых моделей с разнообразными предпочтениями пользователей.

Искусственный интеллект в роли со-ученого: опыт ESA ELOPE

Началась совместная разработка алгоритма для участия в соревновании ELOPE, что знаменует собой первый шаг к преодолению установленных рамок и поиску нестандартных решений в области оценки и оптимизации.

В статье описывается успешное применение ChatGPT для ускорения научных прототипов в соревновании ESA ELOPE, демонстрируя потенциал ИИ как инструмента для совместной работы с учеными.

Один в поле не воин? Когда искусственный интеллект обходит многоагентные системы

Создание библиотек навыков для многоагентных систем снижает задержки и потребление токенов, однако точность выбора навыка нелинейно ухудшается по мере роста библиотеки, демонстрируя фазовый переход при достижении определенного порога вместимости, который может быть преодолен за счет иерархической организации навыков в структурированные категории.

Новое исследование показывает, что агенты с развитыми навыками могут эффективно выполнять задачи, ранее требовавшие координации множества ИИ, но их возможности ограничены.

Биопротоколы под контролем: новый подход к извлечению знаний в биомедицине

Исследование демонстрирует, что [latex]biopie[/latex] позволяет создавать детальные структурные представления сложных биомедицинских протоколов, включая параметры вроде температуры и длительности, что обеспечивает высокую информационную плотность и возможность многоступенчатого логического вывода за счет интеграции контекста предложений с графовыми знаниями, в то время как существующие наборы данных для извлечения информации страдают от компромисса между широтой охвата и спецификой предметной области.

Исследователи представили BioPIE — датасет и методику, позволяющие более точно понимать сложные экспериментальные процедуры и отвечать на вопросы, связанные с ними.

Взгляд на вещи: Как обучить ИИ пространственному мышлению

Визуализация процесса рассуждений демонстрирует, как разработанный метод эффективно отбирает информативные перспективы и формирует последовательные, многоступенчатые ответы, основанные на пространственном контексте.

Новый подход позволяет агентам активно исследовать трехмерные сцены и рассуждать о пространстве, значительно улучшая ответы на вопросы и масштабируемость.

Совместный разум: Как маленькие и большие языковые модели работают вместе

Архитектура RelayLLM представляет собой систему, в которой малая языковая модель выступает центральным контроллером, активно инициируя вмешательства большой языковой модели для генерации токенов, а сложность запроса классифицируется на три сценария - решаемый, требующий помощи и нерешаемый - для оптимизации политики и согласования поведения модели с оптимальной стратегией.

Новый подход позволяет эффективно решать сложные задачи, используя динамическое взаимодействие между компактными и мощными нейронными сетями.

Самообучающийся агент: Оценка действий через взаимодействие с миром

Предлагаемая модель активного получения обратной связи позволяет динамически адаптировать поведение системы, обеспечивая эффективное взаимодействие со средой.

Новая модель искусственного интеллекта позволяет агентам самостоятельно находить и подтверждать обратную связь от окружающей среды, активно исследуя последствия своих действий.