Навыки, которые учатся: Эволюция программных сетей умений

В рамках предложенной структуры Программируемой Сети Навыков (PSN) агент поддерживает сеть навыков [latex]\mathcal{N}\_{t}[/latex], где гибридный планировщик отбирает или синтезирует навыки, а PSN-менеджер осуществляет их выполнение, при этом оптимизатор навыков выполняет кредитное назначение на основе трассировки при неудаче, а онлайн-рефакторинг реструктурирует сеть при успехе, что индуцирует динамику обучения, аналогичную обучению нейронных сетей: локализация ошибок как обратное распространение, оценка зрелости как планирование скорости обучения и рефакторинг как поиск архитектуры.

В новой работе представлена концепция динамически развивающихся библиотек навыков для автономных агентов, позволяющая им эффективно осваивать и комбинировать умения в сложных условиях.

Самосознание в обучении: Модель вознаграждения, основанная на самоанализе

Наблюдается, что агенты, демонстрирующие самосознание, достигают значительно более высокой кумулятивной награды по сравнению с агентами без самосознания (подтверждено односторонним парным t-тестом, [latex] p \ll 0.05 [/latex], [latex] n=300 [/latex]), что указывает на важность этой способности для оптимизации поведения в задачах, связанных с вознаграждением.

Новое исследование показывает, что наделение агента искусственного интеллекта способностью к ‘самоанализу’ собственных внутренних состояний может значительно улучшить его обучаемость и адаптивность.

Оттачивая язык машин: новый подход к обучению языковых моделей

Оценка лингвистической компетенции моделей «язык-к-языку» на наборе данных BLiMP, обученных на отдельных массивах токенов в 25 миллиардов, демонстрирует различия в их способности к пониманию и генерации лингвистически сложных конструкций.

Исследователи предлагают инновационный метод предварительного обучения, позволяющий языковым моделям лучше понимать и воспроизводить сложные грамматические конструкции.

Белки под присмотром ИИ: новый подход к пониманию их функций

Предлагается конвейер рассуждений с чередующимися вызовами инструментов, предназначенный для глубокого понимания функций белков, что позволяет комплексно анализировать и интерпретировать их биологическую роль.

Исследователи предлагают инновационный метод, сочетающий возможности больших языковых моделей и специализированных инструментов биоинформатики для более глубокого анализа функций белков.

Проверка на прочность: Как оценить качество тестов для больших языковых моделей

Существующие бенчмарки для больших языковых моделей страдают от непоследовательности ранжирования, низкой дискриминационной способности и наличия тестов, нарушающих ожидаемую иерархию возможностей, однако предложенный фреймворк Benchmark2 решает эти проблемы посредством трёх метрик: согласованности ранжирования между бенчмарками (CBRC), оценки дискриминационной способности (DS) и отклонения в согласовании возможностей (CAD).

Новая работа представляет комплексный подход к оценке и улучшению критериев, по которым проверяются возможности современных искусственных интеллектов.

Симфония Рассуждений: Управление Разнородными Моделями для Решения Сложных Задач

Система Atlas демонстрирует наивысшую точность при решении многомодальных задач, превосходя все базовые модели, включая подход, не использующий инструменты вовсе.

Новая архитектура позволяет динамически комбинировать различные языковые модели и инструменты, значительно повышая эффективность в широком спектре когнитивных задач.

Искусственный интеллект на службе науки: новые подходы к безопасности и надежности

Процесс генерации отчетов в системе O-Researcher предполагает декомпозицию исходного запроса на несколько подзапросов, которые обрабатываются параллельно различными агентами с использованием интегрированного инструментария, после чего полученные отчеты по подзапросам агрегируются сводным агентом для формирования итогового отчета, при этом все трассировки и отчеты по подзапросам конкатенируются и используются в качестве данных для контролируемого обучения системы по данному запросу.

В статье представлен обзор современных методов выравнивания больших языковых моделей, направленных на повышение их безопасности и управляемости в процессе исследования.

Искусственный интеллект на службе эпидемиологии: новая оценка возможностей

Распределение тем в наборах данных EpiQAL-A и EpiQAL-B демонстрирует различия в преобладающих дискурсивных областях, что указывает на потенциальные смещения или специфические акценты в каждом из корпусов.

Исследователи представили комплексный тест для проверки способности больших языковых моделей отвечать на вопросы, связанные с эпидемиологией, и анализировать данные о здоровье населения.