Разум в рамках бюджета: как заставить языковые модели мыслить эффективнее

В исследовании продемонстрировано, что методика BRAID позволяет моделям меньшего размера достигать или превосходить производительность более крупных моделей, использующих классическое prompting, на таких сложных эталонных тестах, как $GSM-Hard$, $SCALE MultiChallenge$ и $AdvancedIF$, подчеркивая потенциал оптимизации без увеличения вычислительных ресурсов.

Новый подход к структурированию запросов позволяет значительно повысить эффективность рассуждений больших языковых моделей, снижая потребность в дорогостоящих вычислительных ресурсах.

Визуальные команды: новый подход к редактированию изображений

Предложенная схема RePlan анализирует визуальные данные и текстовые инструкции посредством последовательного рассуждения, генерируя направляющие сигналы, привязанные к областям изображения, которые, будучи закодированы и объединены с визуальными патчами посредством механизма внимания, позволяют модели MMDiT создавать итоговое отредактированное изображение.

Исследователи представили систему RePlan, которая позволяет точно выполнять сложные инструкции по редактированию фотографий, даже в условиях загроможденных изображений и неоднозначных запросов.

Видео по запросу: новая эра генерации и редактирования

Предлагается универсальная платформа Kling-Omni, использующая мультимодальный визуальный язык как механизм взаимодействия для поддержки широкого спектра задач, включая генерацию и редактирование видео, а также интеллектуальное рассуждение.

Представлена платформа Kling-Omni, объединяющая возможности мультимодальных моделей и диффузионных трансформаторов для создания и редактирования видео с улучшенными способностями к логическим рассуждениям.

Решение уравнений в частных производных: новый подход с использованием искусственного интеллекта

Архитектура PDE-Agent представляет собой основу для создания агентов, способных к решению дифференциальных уравнений в частных производных, что позволяет им эффективно моделировать и взаимодействовать со сложными динамическими системами.

В статье представлена инновационная система, объединяющая возможности больших языковых моделей и многоагентных систем для автоматизированного решения сложных математических задач.

Алгебра в контексте: как нейросети учатся рассуждать

Обучение зондов на подпространстве замыкания показало, что они способны точно предсказывать наличие переменной в замыкании, при этом направления этих зондов демонстрируют слабую корреляцию с направлением

Новое исследование показывает, что большие языковые модели способны к абстрактному мышлению и выработке символических стратегий, даже без предварительного обучения конкретным знаниям.

Оживляя 3D-персонажей: Новый подход к управлению позами

Предлагаемая система для создания поз персонажей кодирует исходную форму и скелеты в латентные представления, используя трансформер для предсказания токенов целевой формы, которые затем декодируются в готовую модель, при этом обучение проходит в два этапа: сначала формируется латентная потеря для сохранения геометрических деталей, а затем адаптивный модуль завершения тонко настраивается с использованием SDF-потери для синтеза правдоподобной геометрии для вновь открываемых структур.

Исследователи предлагают инновационную систему для создания реалистичной анимации 3D-гуманоидов, основанную на латентном пространстве поз и обходящую ограничения традиционных методов.

Грань познания: Неизбежные ограничения искусственного интеллекта

Новое исследование показывает, что возможности алгоритмического интеллекта ограничены фундаментальными математическими принципами и хаотичностью динамических систем.

Обучение языковых моделей: простой путь к сложным задачам

Простая одноэтапная тренировка позволила алгоритму JustRL значительно улучшить производительность: при масштабировании модели DeepSeek-R1-Distill-Qwen-1.5B до JustRL-DeepSeek-1.5B наблюдалось увеличение показателя AIME24 (avg@32) с 28% до 58% за 4000 шагов, а при обучении модели OpenMath-Nemotron-1.5B до JustRL-Nemotron-1.5B удалось достичь результата более 70% за 3000 шагов, что демонстрирует её лидерство в области рассуждений.

Новое исследование показывает, что даже относительно небольшие языковые модели могут демонстрировать впечатляющие результаты в решении математических задач, используя простую схему обучения с подкреплением.