Самоанализ и длинный контекст: новый подход к рассуждениям языковых моделей

Предложенная схема SRLM расширяет возможности рассуждений с использованием контекста путём добавления самоанализа с учётом неопределённости: языковая модель, работающая в среде программирования с самозапросами, внешне представляет контекст как переменную и генерирует программы для его запроса и взаимодействия, при этом три дополнительных сигнала неопределённости - самосогласованность, длина цепочки рассуждений и вербализованная уверенность - направляют выбор траектории самоанализирующего программирования без внешнего контроля, обеспечивая более надёжные и семантически обоснованные рассуждения в длинном контексте.

Исследователи представили инновационную систему, использующую саморефлексию для улучшения обработки больших объемов информации языковыми моделями.

Искусственный интеллект как союзник: новые горизонты математических и машинных исследований

Перед началом любых измерений производительности, агент провел аудит всех формул распространения и уточнения ошибок посредством численных тестов на небольших матрицах, демонстрируя следование принципу тщательной проверки базовых расчетов.

В статье представлен практический подход к использованию возможностей искусственного интеллекта для расширения границ научных исследований в математике и машинном обучении.

Оценка действий: Новый тест для интеллектуальных агентов

Разработанный комплексный эталон AgentProcessBench, основанный на траекториях, полученных от пяти моделей агентов, подвергся экспертной аннотации с достижением 89.1% согласованности, что позволило оценить двадцать различных моделей, используя метрики StepAcc и FirstErrAcc и выявить закономерности в их производительности.

Исследователи представили AgentProcessBench — платформу для анализа качества промежуточных шагов в работе агентов, использующих инструменты, выявив слабость современных моделей в оценке сложных процессов.

Искусственный интеллект учится отличать научные идеи с потенциалом

Обученные модели, продемонстрированные на SciJudgeBench, превосходят проприетарные аналоги по точности оценки, а система Scientific Thinker, работающая в ансамбле, демонстрирует значительное превосходство над своими базовыми, необученными политиками в задачах, относящихся к её области компетенции.

Новый подход позволяет обучить ИИ определять перспективные научные направления, основываясь на анализе цитируемости и предпочтениях научного сообщества.

Искусственный интеллект с амбициями: Что движет большими языковыми моделями?

Показатели внутренней мотивации, собранные до выполнения задач для каждой модели, демонстрируют широкий спектр значений, что указывает на способность моделей дифференцированно оценивать свою мотивацию в зависимости от поставленной задачи, избегая при этом тенденции к крайним значениям.

Новое исследование показывает, что большие языковые модели демонстрируют признаки мотивации и реагируют на внешние стимулы, как будто преследуют собственные цели.

Архитектура ИИ-агентов: как описать и понять сложные системы

На примере генератора тестовых сценариев демонстрируется полная архитектура C4, охватывающая все уровни детализации для обеспечения всестороннего понимания структуры системы.

В статье представлен подход к документированию систем искусственного интеллекта, способных к автономным действиям, и обсуждаются уроки, извлеченные из реальных промышленных проектов.

Поймать изменчивый сигнал: Как нейросети расшифровывают политику ФРС

Наблюдения за ставкой федеральных фондов и показателями денежно-кредитной политики в период с 2003 по 2025 год, включающем этапы обычной политики (2003-2008), периода близких к нулю ставок (2008-2015), нормализации политики (2015-2020) и пандемии с последующим ужесточением (2020-2025), демонстрируют взаимосвязь между этими показателями и позволяют проанализировать динамику денежно-кредитной политики в различных экономических условиях.

Новый подход позволяет автоматически оценивать текущую позицию Федеральной резервной системы по денежно-кредитной политике, анализируя текстовые заявления регулятора.

Самообучающиеся редакции: Искусственный интеллект на страже новостного потока

Автономная редакторская система, охватывающая весь цикл обработки материала - от приема статьи до формирования готовых публикаций - представляет собой сквозную архитектуру, обеспечивающую автоматизацию редакционного процесса.

Новая архитектура систем, использующих ИИ, способна автономно анализировать большие объемы новостей, выявляя закономерности и структурируя информацию без участия человека.

Мода в цифре: Новый датасет для виртуальной примерки полных образов

Набор данных для виртуальной примерки одежды организован на уровне комплектов, что позволяет учитывать многообразие реальных изображений, сочетающих различные предметы одежды и аксессуары, а также информацию о слоях и стилистических решениях в каждом комплекте.

Исследователи представляют Garments2Look — масштабный мультимодальный датасет, призванный вывести виртуальную примерку одежды на новый уровень, позволяя создавать реалистичные образы из нескольких предметов гардероба.