Визуальные команды: новый подход к редактированию изображений

Предложенная схема RePlan анализирует визуальные данные и текстовые инструкции посредством последовательного рассуждения, генерируя направляющие сигналы, привязанные к областям изображения, которые, будучи закодированы и объединены с визуальными патчами посредством механизма внимания, позволяют модели MMDiT создавать итоговое отредактированное изображение.

Исследователи представили систему RePlan, которая позволяет точно выполнять сложные инструкции по редактированию фотографий, даже в условиях загроможденных изображений и неоднозначных запросов.

Видео по запросу: новая эра генерации и редактирования

Предлагается универсальная платформа Kling-Omni, использующая мультимодальный визуальный язык как механизм взаимодействия для поддержки широкого спектра задач, включая генерацию и редактирование видео, а также интеллектуальное рассуждение.

Представлена платформа Kling-Omni, объединяющая возможности мультимодальных моделей и диффузионных трансформаторов для создания и редактирования видео с улучшенными способностями к логическим рассуждениям.

Решение уравнений в частных производных: новый подход с использованием искусственного интеллекта

Архитектура PDE-Agent представляет собой основу для создания агентов, способных к решению дифференциальных уравнений в частных производных, что позволяет им эффективно моделировать и взаимодействовать со сложными динамическими системами.

В статье представлена инновационная система, объединяющая возможности больших языковых моделей и многоагентных систем для автоматизированного решения сложных математических задач.

Оживляя 3D-персонажей: Новый подход к управлению позами

Предлагаемая система для создания поз персонажей кодирует исходную форму и скелеты в латентные представления, используя трансформер для предсказания токенов целевой формы, которые затем декодируются в готовую модель, при этом обучение проходит в два этапа: сначала формируется латентная потеря для сохранения геометрических деталей, а затем адаптивный модуль завершения тонко настраивается с использованием SDF-потери для синтеза правдоподобной геометрии для вновь открываемых структур.

Исследователи предлагают инновационную систему для создания реалистичной анимации 3D-гуманоидов, основанную на латентном пространстве поз и обходящую ограничения традиционных методов.

Алгебра в контексте: как нейросети учатся рассуждать

Обучение зондов на подпространстве замыкания показало, что они способны точно предсказывать наличие переменной в замыкании, при этом направления этих зондов демонстрируют слабую корреляцию с направлением

Новое исследование показывает, что большие языковые модели способны к абстрактному мышлению и выработке символических стратегий, даже без предварительного обучения конкретным знаниям.

Грань познания: Неизбежные ограничения искусственного интеллекта

Новое исследование показывает, что возможности алгоритмического интеллекта ограничены фундаментальными математическими принципами и хаотичностью динамических систем.

Обучение языковых моделей: простой путь к сложным задачам

Простая одноэтапная тренировка позволила алгоритму JustRL значительно улучшить производительность: при масштабировании модели DeepSeek-R1-Distill-Qwen-1.5B до JustRL-DeepSeek-1.5B наблюдалось увеличение показателя AIME24 (avg@32) с 28% до 58% за 4000 шагов, а при обучении модели OpenMath-Nemotron-1.5B до JustRL-Nemotron-1.5B удалось достичь результата более 70% за 3000 шагов, что демонстрирует её лидерство в области рассуждений.

Новое исследование показывает, что даже относительно небольшие языковые модели могут демонстрировать впечатляющие результаты в решении математических задач, используя простую схему обучения с подкреплением.

Искусственный интеллект и культурное наследие: вызовы для глобальной справедливости

Статья исследует влияние развития искусственного интеллекта на право на культуру и право на развитие, подчеркивая необходимость учета этих аспектов при формировании международной регуляторной базы.