Диффузионные языковые модели нового поколения: к 100 миллиардам параметров

Результаты, представленные в LLaDA2.0-flashmain, демонстрируют возможности модели в решении поставленной задачи.

Исследователи представили LLaDA2.0 — семейство крупных языковых моделей, использующих диффузионный подход и демонстрирующих высокую эффективность и масштабируемость.

Искусственный интеллект: когда физика станет ключом к прорыву

Новое исследование показывает, что для достижения подлинного прогресса в области искусственного интеллекта необходимо интегрировать фундаментальные принципы физики, создавая более надежные и интерпретируемые системы.

Зрение и язык: насколько хорошо модели понимают длинные контексты?

В условиях парадигмы VTC существующие визуально-языковые модели демонстрируют неплохую способность к восприятию текста и, следовательно, относительно высокую эффективность в простых задачах поиска, однако отстают от больших языковых моделей в понимании длинных текстов, особенно в задачах, требующих ассоциативного мышления и долгосрочной памяти диалога, что указывает на значительный потенциал для улучшения визуально-языковых моделей, особенно при обработке сжатой информации, основанной на взаимосвязи изображения и текста.

Новый бенчмарк VTCBench позволяет оценить способность современных моделей, работающих с изображениями и текстом, к пониманию длинных контекстов, сжатых с помощью методов визуального и текстового сжатия.

Диагностика СПКЯ: Интеллектуальная система на основе знаний

В архитектуре Mapis знания формируются посредством преобразования руководств в структурированную базу знаний, а диагностика осуществляется последовательно: предварительная обработка клинических данных, трехэтапная оценка, модули исключения и генерация отчета, демонстрируя синергию пяти ключевых модулей в единой системе.

Новая платформа использует возможности больших языковых моделей и графа знаний для повышения точности и соответствия клиническим рекомендациям при диагностике синдрома поликистозных яичников.

Видеоэффекты по запросу: новый подход к редактированию

Эффект IC-Effect демонстрирует точную видеоредактировку, следуя текстовым инструкциям и применяя визуальные стили из данных VFX, что позволяет преобразовывать исходное видео в соответствии с заданным описанием.

Исследователи представили IC-Effect — систему, позволяющую создавать и редактировать видеоэффекты с беспрецедентной точностью, используя лишь текстовые инструкции.

Разделяй и Властвуй над Изображениями: Новый Подход к Редактированию

Модель Qwen-Image-Edit-2509 испытывает трудности с масштабированием и перепозиционированием объектов на изображении, в то время как Qwen-Image-Layered, благодаря работе со слоями, демонстрирует более точное редактирование и избегает сдвигов на уровне пикселей, обеспечивая целостность изображения.

Исследователи представили модель Qwen-Image-Layered, позволяющую изолированно изменять отдельные аспекты изображения благодаря его разложению на семантически разделенные слои.

Самообучающийся интерфейс: новый шаг в автоматизации

Модель Step-GUI, в конфигурации 8B, демонстрирует передовые результаты на пяти разнообразных бенчмарках, охватывающих как задачи привязки к элементам интерфейса (ScreenSpot-Pro, OSWorld-G, MMBench-GUI-L2), так и сквозные агентные задачи (OSWorld, AndroidWorld), превосходя существующие открытые и проприетарные агенты, включая модели с гораздо большим количеством параметров, при оценке по метрике pass@3, смягчающей влияние не связанных с моделью сбоев, и также демонстрируя превосходство по метрике pass@1.

Исследователи представляют комплексный подход к автоматизации графических интерфейсов, включающий в себя саморазвивающуюся систему обучения и протоколы защиты данных.

Искусственный интеллект за рулем: как AI расширяет границы тестирования автопилотов

Обзор посвящен эволюции методов генерации тестовых сценариев для беспилотных автомобилей и анализирует возможности искусственного интеллекта в повышении надежности и безопасности систем автономного вождения.

Самообучающиеся агенты: как повысить эффективность больших языковых моделей

Эволюция стратегий агента посредством SCOPE демонстрирует значительное превосходство над статичными подходами и существующими методами на бенчмарке HLE, причём вероятность успешного выполнения задачи закономерно возрастает с накоплением стратегических указаний на протяжении эпизодов.

Новая методика позволяет агентам на основе больших языковых моделей динамически совершенствовать свои запросы в процессе работы, что значительно улучшает их производительность и надежность.