Обучение с подкреплением: новый взгляд на опыт

Дополнительное обучение с подкреплением позволяет агенту осваивать взаимодополняющие стратегии, расширяя возможности за счет совместного использования нескольких политик и, таким образом, преодолевая ограничения, присущие каждой отдельной стратегии, что позволяет достичь более устойчивых и адаптивных результатов.

В статье представлена методика, позволяющая значительно повысить эффективность обучения агентов на основе больших языковых моделей за счет интеллектуального управления и использования накопленного опыта.

Искусственный интеллект и искажение реальности: чьи выводы мы принимаем?

Новое исследование показывает, как предвзятые алгоритмы могут незаметно влиять на человеческое восприятие и принятие решений в процессе анализа информации.

Видео в фокусе: Цена понимания движения для мультимодальных моделей

После применения Video-SFT к моделям Qwen2.5-VL (7B, 32B, 72B) наблюдается дифференциация в механизмах внимания: в небольших моделях внимание становится более рассеянным при запросе вроде «Есть ли на изображении птица?», тогда как в крупных моделях сохраняется локализованная фокусировка на целевом объекте, что указывает на повышенную устойчивость к

Новое исследование показывает, как обучение моделей обработке видео может негативно сказаться на их способности понимать статические изображения.

Искусственный интеллект на страже справедливости: проверка на предвзятость в ранней диагностике рака толстой кишки

Оценка семантического сходства между ответами двух агентов - эксперта в предметной области и консультанта по справедливости - продемонстрировала, что использование механизма RAG (Retrieval-Augmented Generation) в моделях различных размеров (Llama 3.1 8B, OSS 20B, OSS 120B) последовательно улучшает соответствие генерируемого текста эталонным утверждениям, что подтверждается статистически значимыми различиями в оценках сходства по сравнению с моделями, работающими без RAG или непосредственно на основе LLM.

Новое исследование демонстрирует, как системы искусственного интеллекта, использующие передовые методы обработки языка, могут помочь выявить и смягчить предвзятость в алгоритмах, предназначенных для ранней диагностики рака толстой кишки.

Земля говорит: Машинное обучение на службе у сейсмологов

Обзор посвящен применению алгоритмов машинного обучения для анализа сейсмических и вулканических сигналов, позволяющих лучше понимать процессы, происходящие в недрах Земли.

Стереомир: Создание реалистичного 3D-видео с помощью искусственного интеллекта

Мировая модель StereoWorld, в отличие от существующих, использует метрическую геометрию, что обеспечивает совместимость выходных данных с предварительно обученными моделями и позволяет достичь большей согласованности мелких деталей в стереоскопической визуализации для виртуальной реальности.

Новая модель StereoWorld позволяет генерировать стереоскопические видеоролики, точно воспроизводящие геометрию и внешний вид объектов, открывая новые возможности для виртуальной и дополненной реальности.

Экономика, управляемая ИИ: Прозрачный поиск оптимальных моделей

В статье предлагается новый подход к использованию ИИ для автоматического поиска наилучших экономических моделей с обеспечением полной прозрачности и воспроизводимости результатов.

Игры разума: Как нерациональность меняет взаимодействие человека и искусственного интеллекта

В соревновании между стратегиями, основанными на обучении с подкреплением и искусственным интеллектом, наблюдается явное превосходство последней в оценке Q-функции для задач, связанных с конкуренцией между

Новое исследование показывает, как принципы поведенческой экономики влияют на стратегии и равновесные исходы в играх, где участвуют люди и интеллектуальные агенты.