Денис Аветисян — Страница 280

Рисуя по словам: как оценить интеллект языковых моделей?

05.11.2025 от Денис Аветисян

Оценка, произведённая GPT-4.1, демонстрирует существенное соответствие результатам, полученным в ходе человеческой оценки, что указывает на потенциал автоматизированных систем в качестве надёжного инструмента для задач, традиционно требующих субъективного анализа.

Новый тест LTD-Bench проверяет способность больших языковых моделей преобразовывать текст в изображения и наоборот, выявляя пробелы в их пространственном мышлении.

Разумный диагноз: Как искусственный интеллект помогает выявить болезнь Альцгеймера

05.11.2025 от Денис Аветисян

Архитектура BRAINS использует поиск похожих нейрокогнитивных записей и их последующее объединение с исходными данными для формирования контекста, предоставляемого большой языковой модели, что позволяет не только диагностировать болезнь Альцгеймера, но и получать объяснения, основанные на релевантных клинических прецедентах.

Новая система сочетает возможности больших языковых моделей и анализа медицинских данных для повышения точности диагностики болезни Альцгеймера.

Робот-манипулятор iFlyBot: Обучение сложным действиям с помощью языка и зрения

05.11.2025 от Денис Аветисян

iFlyBot-VLA демонстрирует сопоставимые, а в ряде случаев и превосходящие результаты в симуляторе LIBERO, подтверждая эффективность подхода к моделированию поведения в сложных условиях, сравнимых с другими передовыми моделями VLA.

Новая модель iFlyBot-VLA демонстрирует значительный прогресс в обучении роботов сложным манипуляциям с использованием комбинации визуальной информации, языковых команд и передовых методов обучения с подкреплением.

Самообучающийся разум: новая система для математических задач

05.11.2025 от Денис Аветисян

Включение вознаграждения за разнообразие привело к генерации задач с низкой текстовой схожестью и минимальным пересечением концепций, что свидетельствует об эффективном исследовании различных типов задач.

Разработана система, способная самостоятельно осваивать математическое мышление, генерируя и решая задачи без участия человека.

Изображения под контролем разума: новый эталон для редактирования

05.11.2025 от Денис Аветисян

Таблица 2 представляет количественное сравнение производительности в пределах домена на наборе UniREditBench, где оценка осуществляется моделью GPT-4.1, а лучшие результаты выделены полужирным шрифтом, демонстрируя чёткую метрику для сравнительного анализа.

Представлен UniREditBench — комплексный инструмент для оценки способности моделей понимать и выполнять сложные инструкции по редактированию изображений.

Визуальное понимание интерфейсов: новый подход к привязке элементов

05.11.2025 от Денис Аветисян

Интерфейс GUI-AIMA демонстрирует возможность двухэтапной привязки к изображениям высокого разрешения, что позволяет достичь большей точности и гибкости при взаимодействии с визуальными данными.

Исследование предлагает эффективный метод для точного определения элементов графического интерфейса пользователя без использования координат.

Видеопоиск без границ: новый подход к универсальному пониманию видео

04.11.2025 от Денис Аветисян

Универсальный поиск видео (UVR) обеспечивает извлечение видеоматериалов по многозадачным, междоменным запросам, что достигается благодаря совместной разработке эталонных данных и модели.

Исследователи предлагают новый метод обучения моделей, позволяющий им эффективно искать видео по различным запросам и в разных областях.

Путь разума: как нейросети осваивают навигацию в реальном мире

04.11.2025 от Денис Аветисян

Несмотря на корректное логическое рассуждение, модель o3 не способна вывести соответствующую траекторию, демонстрируя разрыв между способностью к умозаключениям и фактическим прогнозированием.

Новый бенчмарк NaviTrace позволяет оценить способность моделей, сочетающих зрение и язык, к планированию маршрутов и пониманию окружающего пространства.

Видеопоиск: новый подход к ранжированию с использованием мультимодальных моделей

04.11.2025 от Денис Аветисян

Рамка Vote-in-Context (ViC) объединяет последовательно представленный контент (запросы и сущности) с метаданными извлекателя (ранг, множественность) посредством этапа Duplicate-Aware Interleaving, что позволяет формировать окончательный рейтинг, взвешивающий все эти факторы.

Превращение замороженных моделей, понимающих и видео, и текст, в эффективные системы ранжирования без дополнительного обучения.

Рассуждения между модальностями: новый взгляд на генерацию контента

04.11.2025 от Денис Аветисян

Система оценки UMM демонстрирует способность к взаимному кросс-модальному рассуждению, требуя генерации изображений на основе лингвистических подсказок и текстовых ответов, основанных на визуальной информации.

Исследование выявляет пробелы в способности современных моделей понимать и комбинировать информацию из разных источников, таких как текст и изображения.