Языковые агенты учатся критиковать: новый подход к обучению в сложных задачах

В рамках предложенного подхода NLAC, оценка политики осуществляется посредством обучения критика с использованием языковой версии уравнения Беллмана, оперирующего в текстовом пространстве, а улучшение политики достигается путем дистилляции из уточненной политики.

Исследователи представили алгоритм NLAC, позволяющий языковым моделям улучшать свои навыки, используя естественный язык для анализа и корректировки своих действий.

Иерархическое обучение с подкреплением: новый подход к абстракциям

Приведенные примеры демонстрируют различные марковские процессы принятия решений (MDP), где каждый элемент представляет собой сетку состояний с определенными точками входа и выхода.

В статье представлена методика построения иерархических моделей обучения с подкреплением, основанная на формальном определении абстракций и их связи с реализуемыми действиями в исходной среде.

Визуальное мышление под прицелом: новый тест для ИИ

В ходе обучения с подкреплением модели R-Sa2VA-Qwen3VL-4B-RL на VRT-Bench наблюдается эволюция качества рассуждений и ответов, оцениваемая по показателям Logic Quality (LQ), Visual Quality (VQ) и среднему IoU (mIoU) для категорий Функциональность, Визуальные характеристики, Местоположение и Сравнение, при этом общие метрики рассуждений и ответов превосходят результаты, полученные при обучении только с использованием SFT (supervised fine-tuning).

Исследователи предлагают новый способ оценки способности искусственного интеллекта рассуждать на основе изображений, требуя от моделей не просто отвечать на вопросы, а объяснять свои решения.

Наука на благо бизнеса: как публикации стимулируют инновации

Новое исследование показывает, что корпоративные научные публикации создают ощутимые выгоды для компаний, приводя к росту инноваций и удержанию талантливых ученых.

Предсказание качества сервиса: новый подход с использованием диффузионных моделей

Модель QoSDiffcan демонстрирует способность эффективно обучаться векторным представлениям для предсказания качества обслуживания даже при отсутствии явных графовых структур, что указывает на её устойчивость к различным условиям и архитектурам данных.

Исследователи предлагают инновационную систему QoSDiff, способную более точно и надежно прогнозировать качество работы веб-сервисов, особенно в условиях нехватки данных.

Искусственный юрист: где у машин пробелы в правосудии?

Анализ корреляции в LexGenius для 12 больших языковых моделей выявил взаимосвязь между способностью к юридическому мышлению, задачами и измерениями, демонстрируя, как эти факторы влияют друг на друга.

Новый тест LexGenius выявил существенные различия между способностью больших языковых моделей к юридическому мышлению и уровнем экспертизы профессиональных юристов.

Не все модальности равны: как работают мультимодальные модели

При добавлении нерелевантного длинного контекста наблюдается снижение производительности мультимодальных языковых моделей (MLLM), причём точность оценивается отдельно для визуальных и аудио подсказок, что указывает на чувствительность моделей к отвлекающей информации.

Новое исследование выявляет предвзятость больших мультимодальных моделей к визуальной и текстовой информации, а также предлагает метод повышения их устойчивости к противоречивым данным.

Искусственный интеллект моделирует распорядок дня: новый подход к анализу поведения

Синтезированные расписания, полученные с помощью ActVAE, демонстрируют способность модели генерировать разнообразные и правдоподобные временные последовательности, что указывает на эффективность подхода в задачах планирования и управления.

Исследователи разработали метод, позволяющий создавать реалистичные и разнообразные модели распорядка дня человека с помощью алгоритмов машинного обучения.