Видео как ключ к пониманию: новый взгляд на визуальное мышление

Модели генерации видео демонстрируют возможности визуального рассуждения благодаря обогащенному визуальному контексту, обеспечивающему точный геометрический контроль, и масштабированию во время выполнения, которое оптимизирует вычислительные ресурсы для решения сложных задач последовательного планирования на больших временных горизонтах, что обеспечивает устойчивую обобщающую способность в различных сценариях.

Исследование показывает, что модели генерации видео способны эффективно решать задачи пространственного планирования, превосходя текстовые подходы, и демонстрируют улучшение результатов с увеличением продолжительности генерируемого видео.

Внимание на максимум: обучение моделей видеть и понимать

Вместо оптимизации вероятности следующего токена, предлагаемый подход формулирует внутренние распределения внимания как политику, акцентируя приоритет на селективном распределении информации и, оптимизируя преимущество, исследуя политику внимания с высокой наградой, эффективно изолирующую важные данные из плотных контекстов.

Новый подход к обучению мультимодальных моделей позволяет им более эффективно фокусироваться на визуальной информации, улучшая ответы на вопросы по изображениям.

Документы под контролем: Новый подход к интеллектуальному поиску

Исследование демонстрирует сопоставление подходов Search-o1 и DeepRead к агентурному поиску на упрощенной задаче, выявляя различия в их эффективности и принципах работы.

Исследователи представили систему, которая позволяет агентам эффективно извлекать информацию из сложных документов, используя их структуру для более точного и быстрого ответа на вопросы.

Сужение данных: Как сохранить суть и повысить эффективность обучения моделей

Процесс дистилляции данных, реализованный в InfoUtil, максимизирует их ценность посредством двух последовательных этапов: сначала отбираются наиболее информативные фрагменты с использованием значений Шейпли [latex] \text{Shapley Value} [/latex] - метода атрибуции из теории игр, а затем, из этих кандидатов, выбираются образцы с наивысшей полезностью, оцениваемой с помощью градиентной нормы [latex] \text{Gradient Norm} [/latex], выступающей в качестве верхней границы полезности, в результате чего формируется дистиллированный набор данных, содержащий лишь наиболее ценные и информативные элементы.

Новый подход к дистилляции датасетов позволяет создавать компактные, но информативные наборы данных, не теряя при этом качества обучения моделей машинного обучения.

Здоровье под присмотром ИИ: как искусственный интеллект помогает врачам понимать пациентов

Новое исследование показывает, как инструменты искусственного интеллекта могут помочь медицинским работникам анализировать данные о здоровье пациентов, собираемые самостоятельно, и повысить эффективность их работы.

Предвидеть не значит предотвратить: ловушка проактивного вмешательства в работу ИИ-агентов

Предлагаемое древо решений определяет процедуру вмешательства во время выполнения, опираясь на предварительные оценки вероятности отказа ([latex]pp[/latex]), восстановления ([latex]rr[/latex]) и нарушения ([latex]dd[/latex]), в результате чего формируется пороговое значение ([latex]p^{\star} = d/(r+d)[/latex]), продемонстрированное на примере ALFWorld с использованием Qwen-3-8B.

Новое исследование показывает, что точное прогнозирование ошибок ИИ-агентов не гарантирует повышения их эффективности, а зачастую даже может привести к ухудшению результатов.

Память, которая учится: эволюция навыков для самообучающихся агентов

Архитектура MemSkill обрабатывает последовательность действий, последовательно выбирая наиболее подходящие навыки из общего банка навыков на основе текущего текстового фрагмента и извлеченных воспоминаний, после чего применяет эти навыки для обновления специфичных для данной последовательности воспоминаний; полученные воспоминания оцениваются с помощью задач, зависящих от памяти, для оптимизации контроллера, при этом неудачные запросы фиксируются в буфере сложных случаев, которые периодически анализируются для улучшения существующих и разработки новых навыков, обеспечивая чередование использования и эволюции навыков.

Новый подход позволяет агентам искусственного интеллекта не просто хранить информацию, но и развивать навыки работы с ней, становясь более адаптивными и эффективными.

Пространственная протеомика: новый взгляд на клеточное устройство

Обучающая схема STProtein использует многоуровневое представление белковых последовательностей, включающее в себя как глобальные контекстные эмбеддинги, полученные с помощью трансформеров, так и локальные признаки, извлекаемые сверточными слоями, для точного предсказания структуры белка, опираясь на оптимизацию с помощью алгоритма [latex] AdamW [/latex] и стратегию планирования обучения, направленную на улучшение обобщающей способности модели.

Исследователи разработали метод предсказания распределения белков в тканях, используя данные о пространственной транскриптомике и другие омиксные данные.