Языковые агенты учатся критиковать: новый подход к обучению в сложных задачах

В рамках предложенного подхода NLAC, оценка политики осуществляется посредством обучения критика с использованием языковой версии уравнения Беллмана, оперирующего в текстовом пространстве, а улучшение политики достигается путем дистилляции из уточненной политики.

Исследователи представили алгоритм NLAC, позволяющий языковым моделям улучшать свои навыки, используя естественный язык для анализа и корректировки своих действий.

Визуальное мышление под прицелом: новый тест для ИИ

В ходе обучения с подкреплением модели R-Sa2VA-Qwen3VL-4B-RL на VRT-Bench наблюдается эволюция качества рассуждений и ответов, оцениваемая по показателям Logic Quality (LQ), Visual Quality (VQ) и среднему IoU (mIoU) для категорий Функциональность, Визуальные характеристики, Местоположение и Сравнение, при этом общие метрики рассуждений и ответов превосходят результаты, полученные при обучении только с использованием SFT (supervised fine-tuning).

Исследователи предлагают новый способ оценки способности искусственного интеллекта рассуждать на основе изображений, требуя от моделей не просто отвечать на вопросы, а объяснять свои решения.

Наука на благо бизнеса: как публикации стимулируют инновации

Новое исследование показывает, что корпоративные научные публикации создают ощутимые выгоды для компаний, приводя к росту инноваций и удержанию талантливых ученых.

Искусственный юрист: где у машин пробелы в правосудии?

Анализ корреляции в LexGenius для 12 больших языковых моделей выявил взаимосвязь между способностью к юридическому мышлению, задачами и измерениями, демонстрируя, как эти факторы влияют друг на друга.

Новый тест LexGenius выявил существенные различия между способностью больших языковых моделей к юридическому мышлению и уровнем экспертизы профессиональных юристов.

Не все модальности равны: как работают мультимодальные модели

При добавлении нерелевантного длинного контекста наблюдается снижение производительности мультимодальных языковых моделей (MLLM), причём точность оценивается отдельно для визуальных и аудио подсказок, что указывает на чувствительность моделей к отвлекающей информации.

Новое исследование выявляет предвзятость больших мультимодальных моделей к визуальной и текстовой информации, а также предлагает метод повышения их устойчивости к противоречивым данным.

Искусственный интеллект моделирует распорядок дня: новый подход к анализу поведения

Синтезированные расписания, полученные с помощью ActVAE, демонстрируют способность модели генерировать разнообразные и правдоподобные временные последовательности, что указывает на эффективность подхода в задачах планирования и управления.

Исследователи разработали метод, позволяющий создавать реалистичные и разнообразные модели распорядка дня человека с помощью алгоритмов машинного обучения.

Визуальная навигация: новый взгляд на обучение агентов

Агент SeeNav, в отличие от предшествующих работ в области VLN, использующих одиночные изображения в качестве входных данных и методы вроде GRPO или GiGPO для обучения с подкреплением, разработан с использованием двухканального визуального ввода и визуальных подсказок для улучшения визуального модуля в условиях переноса обучения, а также предлагает SRGPO - метод эффективного введения сигналов вознаграждения за счет случайной группировки шагов в процессе обучения с подкреплением.

Исследователи предлагают инновационный подход к обучению агентов, способных ориентироваться в пространстве, используя визуальные подсказки и оптимизацию стратегии действий.

Цифровой патолог под рукой: Искусственный интеллект в каждом анализе

Новая платформа позволяет проводить анализ гистологических изображений с помощью искусственного интеллекта непосредственно на обычном компьютерном оборудовании, открывая новые возможности для диагностики.