Положительные и отрицательные примеры: новый взгляд на обучение с подкреплением

Исследование демонстрирует, как обучение с подкреплением положительными и отрицательными примерами влияет на модель Qwen3-8B-Base, позволяя оптимизировать ее поведение и повысить устойчивость к нежелательным результатам.

Исследование показывает, что эффективное обучение моделей с подкреплением требует сбалансированного использования как позитивных, так и негативных примеров.

Предсказание статутов: новый подход к юридическому анализу

Наблюдения показывают, что производительность модели AoS, оцениваемая метрикой F1, напрямую зависит от количества обучающих примеров для конкретного закона (статьи) и от числа других, схожих по смыслу законов, что указывает на значимость как объема данных, так и контекста при построении эффективной системы.

Исследование представляет сравнительный анализ двух методов — нейронной сети с механизмом внимания и подхода, основанного на запросах к большим языковым моделям — для определения релевантных правовых норм по описанию судебных дел.

Искусственный интеллект ставит диагноз: новый подход к медицинской диагностике

Многомодальная система, объединяющая текстовые данные из истории болезни и клинических заметок с визуальной информацией медицинских изображений [latex] (CT, MRI, рентген) [/latex], формирует несколько вариантов логического вывода с помощью языковой модели и алгоритма оптимизации DAPO, после чего каждый вариант структурируется в виде проверяемого логического дерева, что позволяет получить не только точный диагноз, но и отслеживаемую цепочку рассуждений, повышая интерпретируемость процесса принятия решений.

Исследователи предлагают инновационную систему, объединяющую возможности анализа изображений и лингвистических моделей для повышения точности и прозрачности медицинских заключений.

Искусственный интеллект в образовании: гармония человека и машины

Новый подход к интеграции ИИ в обучение предполагает не просто адаптацию технологий к образовательным задачам, но и развитие критического мышления у педагогов и учащихся.

Искусственный интеллект: к осознанному и ответственному принятию решений

Коллектив агентов координируется с управляющим агентом на уровне рассуждений, формируя основу для саморегулирующейся системы, где взаимодействие между компонентами определяет общую стабильность и эффективность.

Новая архитектура ИИ объединяет многомодальный консенсус и систему управления рассуждениями для повышения прозрачности и надежности автономных систем.

Обучение без запуска: новый подход к автоматизации разработки ПО

Наблюдения на эталонном наборе SWE-bench показывают, что использование различных видов обратной связи влияет на эффективность обучения с подкреплением, при этом средняя награда за обучение варьируется в зависимости от выбранной модели.

Исследование демонстрирует, что модели вознаграждения, основанные на анализе кода без его выполнения, значительно повышают эффективность агентов, обучающихся решать задачи в области разработки программного обеспечения.

Искусственный интеллект на службе лекарства: новый подход к разработке препаратов

В статье представлена платформа OrchestRA, использующая мультиагентные системы и биологические знания для автоматизации процесса создания лекарственных средств.

Управляя временем: оптимизация больших языковых моделей для работы в реальном времени

Рамка TimeBill представляет собой всесторонний подход к анализу систем с течением времени, позволяя исследовать их эволюцию и адаптацию к изменяющимся условиям.

Новая разработка позволяет точно предсказывать время обработки запросов в крупных языковых моделях и динамически настраивать параметры кэша для соблюдения жестких временных ограничений.