Проверка смарт-контрактов: новый рубеж для языковых моделей

Исследователи представили EVM-QuestBench — комплексный набор тестов, позволяющий оценить способность искусственного интеллекта генерировать код транзакций для блокчейнов Ethereum.

Исследователи представили EVM-QuestBench — комплексный набор тестов, позволяющий оценить способность искусственного интеллекта генерировать код транзакций для блокчейнов Ethereum.

Исследователи предлагают принципиально новый способ решения научных задач, основанный на динамическом создании и адаптации инструментов в процессе работы.
Квантовый горизонт: Размышления о безопасности и будущем Представьте себе парадокс: мы строим крепость из новых материалов, но забываем заложить фундамент. Именно это происходит сейчас с квантовой безопасностью. Мы увлечены созданием новых алгоритмов, но игнорируем уязвимости в существующих системах и инфраструктуре. По сути, квантовая безопасность — это не просто замена одного алгоритма другим. Это переосмысление всей … Читать далее

Исследователи предлагают иерархическую структуру памяти, позволяющую агентам на основе больших языковых моделей сохранять и эффективно использовать информацию о прошлых событиях для более сложных рассуждений.
Новый обзор посвящен оптимизации алгоритмов обработки изображений для работы на устройствах с ограниченными ресурсами, открывая возможности для автономных систем и робототехники.

Статья посвящена анализу комплексного влияния автономных систем искусственного интеллекта на социум и необходимость учитывать этические аспекты и принципы управления при их разработке.

В новой работе исследователи продемонстрировали, что метод имитации отжига превосходит традиционные методы оптимизации при выборе наиболее перспективных кандидатов в задачах многоцелевой байесовской оптимизации.

Новая система объединяет возможности больших языковых моделей и отслеживание происхождения данных, создавая документы, в которых каждое утверждение можно проверить и связать с исходными данными.
![В исследовании выявлено, что альтернативные методы оценки согласованности моделей распознавания речи демонстрируют более высокую корреляцию с человеческой оценкой, чем традиционная метрика глобальной токеновой перплексии ([latex]Global-PPL[/latex]), при этом расхождения между оценками различных методов уменьшаются по мере улучшения производительности модели, однако при высоких значениях [latex]Global-PPL[/latex] наблюдается насыщение отклонений, обусловленное достижением предельной производительности.](https://arxiv.org/html/2601.06329v1/x11.png)
Новое исследование показывает, что общепринятые способы оценки речевых моделей могут вводить в заблуждение, не учитывая нюансы локального контекста.

Новая статья исследует размытие границ между научными исследованиями и инженерной практикой в области искусственного интеллекта, демонстрируя рост числа гибридных ролей и кросс-функциональных команд.