Обучение агентов: как нейросети начинают понимать мир вокруг

Предлагается метод RWML - масштабируемый, самообучающийся подход к улучшению способности больших языковых моделей (LLM) к моделированию мира, основанный на обучении по следующим состояниям, предшествующему обучению с подкреплением, ориентированному на вознаграждение за успешное выполнение задачи.

Новый подход к обучению агентов на основе больших языковых моделей позволяет им лучше ориентироваться в сложных задачах, не требуя вмешательства экспертов.

Разумные Агенты для Верификации: Сможет ли Автоматическая Оптимизация Улучшить Их?

Новое исследование рассматривает возможности автоматической оптимизации для создания более эффективных агентов, используемых в формальной верификации программного обеспечения.

Квантовые Взгляды: Время, Криптография и Будущее

Квантовые Взгляды: Время, Криптография и Будущее Парадоксально, но мы живем во времена, когда само понятие времени, казавшееся абсолютным, поддается манипуляциям в лабораториях. И это же касается и безопасности наших данных – то, что казалось неприступным, может быть сломлено новыми технологиями. Кристаллы Времени и Акустическая Левитация Представьте себе маятник, качающийся вечно, без внешнего воздействия. Это, грубо … Читать далее

Научные исследования: новый импульс благодаря рабочим процессам

Статья посвящена перспективам повышения эффективности и воспроизводимости научных исследований за счет внедрения стандартизированных рабочих процессов и совместной разработки.

Тензорные сети и комбинаторные поиски: новый подход к сложным задачам

Исследование демонстрирует, что новый алгоритм BBTN, в сочетании с методом нарезки, значительно превосходит традиционные методы ветвей и границ при подсчете основного состояния спиновых стёкол на двумерных решётках [latex]N \times N[/latex] и случайных регулярных графах, а также при решении задач максимального независимого множества (MIS) и максимального взвешенного независимого множества (MWIS) на графах RKSG, при этом среднее время выполнения для всех классов задач составляет секунды, что подтверждается калибровкой на основе теоретической сложности и производительности графического процессора NVIDIA A100.

Исследователи предложили инновационный метод, объединяющий тензорные сети и алгоритм ветвей и границ для эффективного решения NP-трудных задач оптимизации.

Обучение языковых моделей: к надежному мышлению на разных задачах

Алгоритм MT-GRPO демонстрирует значительное превосходство над базовыми моделями, обеспечивая прирост точности в худшем случае не менее чем на 6%, при этом не уступая им по средней точности и демонстрируя более существенное улучшение результатов на задачах, требующих особого внимания.

Новый алгоритм позволяет повысить эффективность больших языковых моделей при решении разнообразных задач, фокусируясь на слабых сторонах и обеспечивая более сбалансированные навыки.

Взаимодействие лекарств и белков: новый взгляд на иерархическое моделирование

Пространственная организация белковых и лигандных молекул демонстрирует, что специфическое взаимодействие между функциональными группами карбонила и пиридина, направляющее взаимодействие между атомами углерода и азота [latex]C \leftrightarrow N[/latex], является критическим для корректного связывания, в то время как игнорирование этих ограничений приводит к ошибочным предсказаниям слабых взаимодействий между атомами углерода и кислорода [latex]C \leftrightarrow O[/latex].

Исследователи представили Phi-Former — инновационную систему глубокого обучения, повышающую точность предсказания взаимодействия между химическими соединениями и белками.