Документы под контролем: извлечение данных нового поколения

Система MOCR преобразует изображение документа в упорядоченные текстовые представления, сохраняя как текст, так и визуальную структуру, что обеспечивает точное воссоздание исходного документа.

Новый подход к оптическому распознаванию символов позволяет извлекать не только текст, но и визуальные элементы документов, превращая их в структурированный, повторно используемый код.

Тонкости чёрных дыр: Новый инструмент для расчёта их «эха»

Представлен эффективный алгоритм и программный пакет для точного вычисления квазинормальных мод и коэффициентов грейтебоди, раскрывающих детали излучения чёрных дыр.

Раскрашенные ленточные графы: новый взгляд на почти TQFT

В статье представлена классификация почти TQFT, основанная на использовании раскрашенных клеточных графов и аксиом сжатия ребер, что расширяет существующие результаты для Frobenius-алгебр.

Искусственный интеллект пишет код: новая платформа для обучения агентов-разработчиков

Архитектура OpenSWE представляет собой основу для разработки и развертывания систем, ориентированных на сложные вычисления, позволяя эффективно управлять ресурсами и обеспечивать масштабируемость за счет модульного подхода к построению программного обеспечения.

Исследователи представили OpenSWE — масштабную, прозрачную среду для обучения моделей искусственного интеллекта, способных решать задачи в области разработки программного обеспечения.

Глаз как зеркало Паркинсона: возможности искусственного интеллекта

Новый обзор посвящен применению технологий искусственного интеллекта для анализа изображений сетчатки глаза с целью ранней диагностики и мониторинга болезни Паркинсона.

Визуальный двойник: Как ИИ объединяет оптические и радиолокационные снимки кораблей

Сеть SDF-Net, спроектированная для точного поиска кораблей по оптическим и радиолокационным изображениям, использует последовательную обработку, начинающуюся с нейтрализации различий между сенсорами посредством кросс-модальной токенизации, затем укрепляет геометрическую стабильность с помощью обучения согласованности структуры (SCL) и, наконец, отделяет общие признаки идентичности от специфичных для сенсоров вариаций через обучение разделенным признакам (DFL) перед интеграцией, что позволяет получить устойчивые представления для точного двунаправленного кросс-модального поиска.

Новая разработка позволяет с высокой точностью идентифицировать одни и те же корабли на изображениях, полученных с помощью оптических и радиолокационных сенсоров.

Куда смотрит рука: понимание жестов в видео от первого лица

Разработан конвейер автоматической генерации вопросов с вариантами ответов для видео, снятых от первого лица, использующий как симулированные, так и реальные данные, при этом вопросы сформулированы таким образом, чтобы модель должна была визуально интерпретировать указательные жесты для определения ответа.

Новое исследование предлагает способ улучшить понимание видеозаписей от первого лица, обучая модели интерпретировать жесты и отвечать на вопросы о происходящем.