Искусственный интеллект — Страница 125

Визуальный язык без границ: новый подход к машинному обучению

15.12.2025 от Денис Аветисян

$В архитектуре VL-JEPA предсказывается целевое эмбеддинг $SYS\_{Y}$ вместо восстановления исходного токена $YY$, что позволяет эффективно решать задачи генерации текста по визуальным подсказкам (например, создание подписей), а также обеспечивает дискриминативный VQA, классификацию с открытой лексикой и поиск видео по тексту в рамках единой унифицированной модели.$

Исследователи предлагают инновационную архитектуру, предсказывающую векторные представления изображений и текста, что открывает путь к более быстрым и эффективным моделям.

Графы в словах: новый подход к представлению данных

15.12.2025 от Денис Аветисян

Результаты моделирования показывают, что при параметрах $H=4$, $M=2$ и $F=256$ достигается определенный баланс, характеризующий производительность системы.

Исследователи предлагают инновационный способ кодирования структуры графов в виде последовательностей инструкций, открывая возможности для их обработки с помощью языковых моделей.

Детализация без компромиссов: новый подход к синтезу видов

15.12.2025 от Денис Аветисян

Long-LRM++ представляет собой новый метод синтеза изображений с произвольной точки зрения, обеспечивающий высококачественную реконструкцию сцен благодаря использованию полуявного представления признаков в виде гауссиан, что позволяет существенно снизить размытость, характерную для Long-LRM, при сохранении скорости рендеринга в реальном времени.

Исследователи представили эффективный метод для создания фотореалистичных изображений с любого ракурса, не жертвуя скоростью рендеринга.

Публичные таблицы: новый масштабный датасет для извлечения данных

15.12.2025 от Денис Аветисян

Представлен PubTables-v2 — обширный набор данных для комплексного извлечения таблиц, включая многостраничные и полностраничные структуры.

Визуальное мышление для ИИ: новый подход к пониманию изображений

14.12.2025 от Денис Аветисян

Исследователи предлагают инновационный метод, позволяющий нейросетям лучше ориентироваться в пространстве и понимать визуальную информацию, используя специальные «токены» для описания расположения объектов.

Генерация 3D-миров по запросу: Искусственный интеллект творит без обучения

14.12.2025 от Денис Аветисян

Предложенная архитектура способна генерировать реалистичные трехмерные карты по текстовому описанию, используя процедурную генерацию контента в режиме, не требующем предварительного обучения.

Новая архитектура позволяет большим языковым моделям создавать сложные трехмерные пространства, используя лишь текстовые описания и встроенную документацию инструментов.

Визуальная навигация: новый подход к эффективному обучению

14.12.2025 от Денис Аветисян

Модель Efficient-VLN установила новый стандарт в навигации по визуально-языковым ориентирам в непрерывных средах, используя исключительно RGB-входные данные, и достигла 64.2% и 67.0% показателей успешности в бенчмарках R2R и RxR соответственно, потребовав при этом лишь 282 часа работы на GPU H800 - значительно меньше вычислительных ресурсов, чем у конкурирующих методов.

Исследователи представили Efficient-VLN, систему, позволяющую значительно снизить затраты на обучение моделей, способных ориентироваться в пространстве, используя визуальные и языковые подсказки.

Кто пишет науку: гендерные различия в канадских научных журналах

14.12.2025 от Денис Аветисян

Новое исследование показывает, что женщины по-прежнему недостаточно представлены в качестве авторов научных публикаций в Канаде, но причина кроется не в предвзятости рецензирования, а в общем представлении женщин в STEM-областях.

Искусственный интеллект на службе науки: Автоматизация оценки заявок на исследования

14.12.2025 от Денис Аветисян

Новое исследование показывает, как современные системы искусственного интеллекта могут эффективно оценивать научные проекты, приближаясь по точности к экспертам-людям.

Эхокардиография с искусственным интеллектом: новый взгляд на диагностику

14.12.2025 от Денис Аветисян

Архитектура Echo-CoPilot использует управляемый языковой моделью контроллер, функционирующий по принципу ReAct, для обработки запросов клиницистов, взаимодействия с общей памятью и активации специализированных инструментов эхокардиографии, обеспечивающих сегментацию, классификацию изображений, предсказание измерений и заболеваний, а также генерацию отчетов и видео.

Представлена система, объединяющая передовые модели искусственного интеллекта для автоматизации анализа эхокардиограмм и повышения точности интерпретации результатов.