Видеорассказы без границ: StoryMem и искусство длинных видео

Исходя из предоставленного сценария и текстовых описаний каждого кадра, система StoryMem способна генерировать привлекательные, многокадровые повествовательные видео продолжительностью около минуты, отличающиеся высокой связностью персонажей и кинематографическим качеством изображения, что достигается за счёт последовательной генерации кадров с использованием диффузионной модели видео, обусловленной памятью.

Новая модель StoryMem позволяет создавать связные и увлекательные видеоролики продолжительностью в несколько минут, используя визуальную память для поддержания последовательности повествования.

Трансформеры: За гранью универсальности

В статье представлен обзор теоретических возможностей архитектур, основанных на трансформерах, и исследуется вопрос о том, насколько сильно ограничения в архитектуре влияют на их производительность.

Квантовые вычисления: Моделирование сложных молекул становится реальностью

При увеличении размера системы наблюдается закономерность в поведении средней ошибки энергии подсистемы $CH_2$: ошибка, представленная для однокубитных взаимодействий знаком × (оранжевый цвет), двухкубитных взаимодействий знаком ++ (синий цвет), методом Хартри-Фока знаком ⋯ (красный цвет) и полным взаимодействием конфигураций знаком − (черный цвет), демонстрирует различную зависимость от масштаба.

Новое исследование показывает, что современные квантовые компьютеры способны поддерживать размерную согласованность в молекулярных симуляциях, открывая путь к квантовому превосходству в химии.

Код без уязвимостей: Новый датасет для обучения безопасной генерации кода

Набор данных SecureCode v2.0 демонстрирует превосходство по сравнению с существующими аналогами, обеспечивая 100%-ное сопоставление инцидентов и являясь единственным набором данных, поддерживающим формат диалога, что подтверждает его уникальность по размеру, языковому охвату и структуре.

Представлен SecureCode v2.0 — комплексный набор данных, призванный помочь AI-ассистентам создавать более безопасный код, основанный на реальных инцидентах и практиках безопасности.

Разумные агенты: оптимизация скорости и надёжности

Агентский фреймворк AgentInfer структурирован как набор модулей, обеспечивающих комплексный подход к выводу и применению знаний, позволяя эффективно решать задачи, требующие интеллектуального анализа и адаптации.

Новый подход к проектированию автономных агентов позволяет значительно сократить задержки и повысить стабильность работы, объединяя методы оптимизации на уровне логики и системной архитектуры.

Визуальный и текстовый интеллект: Новый подход к эффективному слиянию данных

Архитектура CASA, используя каузальную кросс-внимательность через само-внимание, внедряет визуальную информацию, позволяя текстовым токенам взаимодействовать с объединением самих себя и токенов изображения, что обеспечивает естественный механизм управления и превосходит стандартные архитектуры VLM, при этом, благодаря недавним улучшениям в блочной внимательности, сохраняется эффективность обучения, а на этапе вывода достигается возможность обработки длинных последовательностей изображения и текста без увеличения нагрузки на KV-кэш и память базовой LLM.

Исследователи представили CASA — механизм, позволяющий более эффективно объединять визуальную и текстовую информацию, особенно в задачах обработки потокового видео.

Код, созданный ИИ: риски и перемены в разработке

Масштабное исследование показывает, как искусственный интеллект меняет ландшафт современной разработки программного обеспечения и какие угрозы безопасности возникают с распространением AI-generated кода.