Искусство отбора данных: Новый подход к обучению генеративных моделей

Процесс Alchemist оптимизирует выбор обучающих данных для моделей преобразования текста в изображение путём совместной настройки оценки изображений и стратегии отбора, позволяющей эффективно сохранять информативные примеры и отсеивать избыточные, что обеспечивает высокоэффективное обучение downstream-моделей.

Исследователи представили метод, позволяющий существенно повысить эффективность обучения моделей, генерирующих изображения по текстовому описанию, за счет интеллектуального отбора наиболее полезных данных.

Геометрия Хаоса: Распознавание Образов в Сложных Системах

Процесс, представленный на рисунке, демонстрирует применение пространств векторных полей ранга $dd$ для анализа динамики сложных систем, позволяя исследовать их поведение и выявлять ключевые закономерности.

Новый геометрический подход позволяет анализировать динамические процессы в сложных системах, не требуя предварительных знаний об их внутренней структуре.

Химические формулы под контролем: Новый подход к поиску молекулярных структур

В статье представлен инновационный метод, использующий логическое программирование для эффективного перебора возможных молекулярных структур по заданным химическим формулам.

Разум в рамках бюджета: как заставить языковые модели мыслить эффективнее

В исследовании продемонстрировано, что методика BRAID позволяет моделям меньшего размера достигать или превосходить производительность более крупных моделей, использующих классическое prompting, на таких сложных эталонных тестах, как $GSM-Hard$, $SCALE MultiChallenge$ и $AdvancedIF$, подчеркивая потенциал оптимизации без увеличения вычислительных ресурсов.

Новый подход к структурированию запросов позволяет значительно повысить эффективность рассуждений больших языковых моделей, снижая потребность в дорогостоящих вычислительных ресурсах.

Искусственный интеллект, который понимает и текст, и картинки: новый эталон оценки

В исследовании представлены примеры пар предпочтений в мультимодальном наборе данных MMRB2, охватывающие четыре задачи - генерацию изображений по тексту, взаимоперемежающуюся генерацию, редактирование изображений и мультимодальное рассуждение - демонстрируя сопоставление оценок человека и модели на сложных запросах.

Исследователи представили Multimodal RewardBench 2 — комплексный инструмент для оценки моделей, способных генерировать и анализировать как текстовый, так и визуальный контент.

Визуальные команды: новый подход к редактированию изображений

Предложенная схема RePlan анализирует визуальные данные и текстовые инструкции посредством последовательного рассуждения, генерируя направляющие сигналы, привязанные к областям изображения, которые, будучи закодированы и объединены с визуальными патчами посредством механизма внимания, позволяют модели MMDiT создавать итоговое отредактированное изображение.

Исследователи представили систему RePlan, которая позволяет точно выполнять сложные инструкции по редактированию фотографий, даже в условиях загроможденных изображений и неоднозначных запросов.

Видео по запросу: новая эра генерации и редактирования

Предлагается универсальная платформа Kling-Omni, использующая мультимодальный визуальный язык как механизм взаимодействия для поддержки широкого спектра задач, включая генерацию и редактирование видео, а также интеллектуальное рассуждение.

Представлена платформа Kling-Omni, объединяющая возможности мультимодальных моделей и диффузионных трансформаторов для создания и редактирования видео с улучшенными способностями к логическим рассуждениям.