Книжные страницы под контролем: Искусственный интеллект на страже геометрии

Исправление искажений в визуальных данных посредством BookNet позволило добиться точности ответов на вопросы, требующие мультимодального анализа, в то время как необработанные, деформированные изображения приводили к ошибочным заключениям.

Новая нейросеть BookNet способна автоматически исправлять искажения на фотографиях книжных разворотов, восстанавливая читаемость текста и качество изображений.

Видео без границ: новая эра генерации длинных роликов

Визуализация потоковой генерации видео демонстрирует, как при запросе

Исследователи предложили метод, позволяющий создавать непрерывные, высококачественные видеопотоки любой продолжительности, решая проблему повторяющихся паттернов.

Обучение агентов: библиотека навыков для работы с компьютером

Система CUA-Skill, включающая в себя агента, специализирующегося на конкретных навыках, представляет собой архитектуру, позволяющую объединить различные умения и эффективно применять их для решения сложных задач.

Новая разработка позволяет значительно расширить возможности компьютерных агентов, обучая их человеческим приемам работы с интерфейсами и автоматизируя сложные задачи.

Внимание к деталям: новый подход к обработке длинных текстов

Время предварительной обработки для различных механизмов смешивания, измеренное на одной GPU A800-80GB с использованием BFLoat16, демонстрирует, что механизмы со скользящим окном, реализованные с помощью Flash-Attention-2, и Mamba2, использующий библиотеку mamba\_ssm, показывают различные характеристики масштабируемости в зависимости от длины контекста, при этом Mamba2 испытывает нехватку памяти CUDA при длине контекста 256K, что отражено в логарифмической шкале оси Y и подчеркивает важность эффективной реализации для обработки длинных последовательностей.

Исследователи предлагают эффективный метод дистилляции и гибридную архитектуру, позволяющие значительно улучшить производительность при работе с очень длинными последовательностями данных.

ГистоПризма: Визуальный анализ рака с помощью искусственного интеллекта

Архитектура HistoPrism извлекает векторные представления изображений на уровне фрагментов с использованием предварительно обученных моделей патологии, затем вводит общеонкологическое условие посредством модуля кросс-внимания, после чего трансформерный энкодер моделирует контекстуальные связи, чтобы в конечном итоге регрессировать значения экспрессии генов посредством финальной многослойной персептронной сети.

Новая модель позволяет предсказывать активность генов по изображениям тканей, открывая возможности для более глубокого понимания онкологических процессов.