Генерируя репозитории из слов: новый вызов для ИИ-разработчиков

Несмотря на то, что агенты на базе Claude-Sonnet-4.5 (OpenHands, Claude Code) демонстрируют наивысшую производительность в бенчмарке NL2Repo, максимальный процент успешных прохождений тестов остается немного выше 40%, что подчеркивает значительные трудности при создании репозиториев

Исследователи представили NL2Repo-Bench — инструмент для оценки способности искусственного интеллекта создавать полноценные Python-проекты по текстовым описаниям, выявив серьезные ограничения в способности к долгосрочному планированию.

Материалы будущего: Искусственный интеллект на квантовой основе

В рамках исследования предложена схема $QA-GenAI$ для ускорения открытия материалов, объединяющая генератор, дополненный квантовыми дескрипторами вроде плотности состояний и электронной локальной функции, с валидатором на основе многоточечной энергетической нейронной сети, функционирующей в цикле активного обучения, где перспективные кандидаты подвергаются высокоточной проверке методом $CCSD(T)$, а полученные данные используются для расширения обучающей выборки.

Новый подход к поиску материалов объединяет возможности генеративного ИИ и квантовой химии, позволяя преодолеть ограничения традиционных методов моделирования.

Веб-агент, который не теряется в сети: новый подход к автоматизации

В рамках предложенной структуры WebOperator, система исследует веб-среду посредством построения дерева поиска: начиная с начальной страницы, она кодирует состояние каждой страницы в виде узла, адаптирует пространство действий на основе текущего наблюдения и генерирует варианты действий с использованием контекстных формулировок, отсеивая невалидные с помощью правил и проверок URL; выбор оптимального действия, учитывающий специфику задачи, осуществляется после оценки вариантов с помощью модели вознаграждения, устранения дубликатов и обновления дерева поиска, а механизм спекулятивного отката обеспечивает эффективное восстановление целевого состояния до выполнения действия, что позволяет итеративно находить полное решение задачи.

Исследователи предлагают эффективный алгоритм поиска действий для автономных агентов, способных надежно взаимодействовать со сложными веб-сайтами.

Цифровая криминалистика: к стандартам прозрачности и доверия

Новый обзор посвящен необходимости разработки открытых стандартов для обеспечения прозрачности, подотчетности и целостности данных при использовании искусственного интеллекта в сфере цифровой криминалистики.

Линейное внимание без потерь: новый подход к обработке длинных последовательностей

Исследователи предлагают метод Error-Free Linear Attention (EFLA), позволяющий добиться точной интеграции динамики линейного внимания и избежать ошибок дискретизации.

Роботы, которые видят, слышат и не врежутся: новый подход к безопасной работе

Модели VLA и VLSA демонстрируют различные поведенческие характеристики, что позволяет исследовать компромиссы между точностью и вычислительной сложностью в задачах оптимизации, где $VLA$ стремится к высокой точности за счет увеличения вычислительных затрат, а $VLSA$ - к скорости за счет некоторой потери точности.

Исследователи представили фреймворк AEGIS, позволяющий моделям, объединяющим зрение, язык и действия, безопасно выполнять задачи манипулирования, избегая столкновений.

Искажение Красоты: Как AI Учит Нас, Что Есть ‘Правильное’ Искусство

Несмотря на то, что модель вознаграждения (в данном случае HPSv3) оценивает изображения, сгенерированные по запросу, ориентированному на общую эстетику, выше, чем изображения, более точно соответствующие первоначальным намерениям пользователя, это указывает на несоответствие между автоматической оценкой и истинным желаемым результатом.

Новое исследование показывает, что стремление к ‘выравниванию’ моделей генерации изображений с общепринятыми представлениями о красоте подавляет их способность создавать контент, отражающий широкий спектр эстетических предпочтений.