Автор: Денис Аветисян
Исследователи представили EVM-QuestBench — комплексный набор тестов, позволяющий оценить способность искусственного интеллекта генерировать код транзакций для блокчейнов Ethereum.

EVM-QuestBench — это эталонный набор данных, предназначенный для оценки производительности больших языковых моделей при создании кода транзакций, основанный на фактическом исполнении и включающий как простые, так и сложные задачи.
Несмотря на растущий интерес к применению больших языковых моделей в разработке, оценка их надежности в критически важных областях, таких как смарт-контракты, остается сложной задачей. В данной работе представлена EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation — новая методика оценки, основанная на непосредственном выполнении сгенерированного кода на EVM-совместимых блокчейнах. Предложенный бенчмарк, включающий 107 задач различной сложности, позволяет оценить не только точность выполнения отдельных операций, но и способность моделей к построению многошаговых транзакций. Какие перспективы открывает подобный подход к тестированию и верификации LLM для обеспечения безопасности децентрализованных приложений?
Блокчейн и ошибка: Цена автоматизации
Современные методы взаимодействия с блокчейном часто требуют ручного формирования транзакций, что создает значительные риски возникновения ошибок и ограничивает доступность для широкой аудитории. Каждая транзакция, вне зависимости от ее сложности, требует от пользователя точного указания всех параметров, включая адреса получателей, суммы перевода и комиссии сети. Даже незначительная ошибка в этих параметрах может привести к полной потере средств. Данный подход не только увеличивает вероятность ошибок, но и требует от пользователей глубокого понимания принципов работы блокчейна и специфики конкретной платформы, что является существенным барьером для новых пользователей и затрудняет массовое внедрение децентрализованных приложений. В результате, взаимодействие с блокчейном остается сложным и небезопасным для многих, ограничивая потенциал этой технологии.
С ростом сложности децентрализованных приложений (dApps) возникает острая необходимость в интуитивно понятных и автоматизированных методах создания транзакций. Современные dApps, предлагающие широкий спектр функций — от сложных финансовых инструментов до децентрализованных социальных сетей — требуют от пользователей выполнения множества транзакций для взаимодействия с блокчейном. Ручное создание этих транзакций, как правило, подвержено ошибкам и требует от пользователя глубоких технических знаний. Автоматизация этого процесса не только снижает вероятность ошибок, но и значительно упрощает взаимодействие с dApps для широкой аудитории, открывая путь к массовому принятию децентрализованных технологий. Разработка инструментов, способных генерировать транзакции на основе понятных пользователю действий, становится ключевым фактором для дальнейшего развития и распространения dApps.
Традиционные методы генерации кода зачастую оказываются неэффективными при работе с блокчейном, что связано с уникальными требованиями этой технологии. В отличие от привычных программных сред, блокчейн требует предельной точности и безопасности в каждой транзакции, а существующие инструменты не всегда способны обеспечить необходимый уровень контроля. Разработка смарт-контрактов и взаимодействие с децентрализованными приложениями (dApps) требуют глубоких знаний в области криптографии, консенсусных механизмов и особенностей конкретной блокчейн-платформы. В результате, даже небольшие ошибки в сгенерированном коде могут привести к серьезным финансовым потерям или уязвимостям в системе, что обуславливает необходимость тщательного тестирования и ручной проверки каждого этапа разработки. Следовательно, для эффективной работы с блокчейном требуется специализированный инструментарий и подходы, учитывающие специфику этой технологии и позволяющие минимизировать риски, связанные с ошибками в коде.
EVM-QuestBench: Проверка на практике, а не на словах
EVM-QuestBench — это оценочный комплекс, разработанный для анализа способности моделей генерировать код транзакций на основе текстовых запросов для блокчейнов, совместимых с EVM (Ethereum Virtual Machine). В отличие от традиционных подходов, основанных на сопоставлении лексических единиц, EVM-QuestBench оценивает функциональность сгенерированного кода путем непосредственного выполнения транзакций в контролируемой среде. Это позволяет более точно измерить способность моделей создавать работоспособный и корректный код для взаимодействия с блокчейном, учитывая специфику EVM и смарт-контрактов.
В отличие от традиционных метрик, основанных на простом лексическом совпадении, EVM-QuestBench оценивает функциональность сгенерированного кода путем непосредственного выполнения транзакций в контролируемой среде. Это позволяет избежать ситуаций, когда код синтаксически корректен, но не выполняет требуемую логику. Выполнение транзакций в изолированном окружении гарантирует, что оценка основывается исключительно на фактическом результате работы кода, а не на его текстовом представлении. Такой подход обеспечивает более точную и надежную оценку возможностей генерации кода для EVM-совместимых блокчейнов.
В отличие от существующих методов оценки генерации кода для EVM-совместимых блокчейнов, EVM-QuestBench включает в себя как атомарные, так и композитные задачи. Общий объем бенчмарка составляет 107 задач, из которых 62 являются атомарными, представляя собой отдельные, простые операции, а 45 — композитными, требующими выполнения последовательности операций для достижения определенного результата. Такая структура позволяет оценить способность моделей генерировать код, решающий задачи различной сложности и требующий понимания взаимосвязей между операциями в транзакции.
В качестве метрики оценки возможностей генерации кода, EVM-QuestBench предусматривает максимальный общий балл в 10 700 пунктов, распределенный по всем 107 задачам бенчмарка. Этот балл формируется на основе успешного выполнения как атомарных (62 задачи), так и композитных (45 задач) транзакций, позволяя комплексно оценить способность моделей генерировать функционально корректный код для EVM-совместимых блокчейнов. Полный балл указывает на идеальное решение всех предложенных задач, демонстрируя высочайший уровень производительности системы генерации кода.

Методология EVM-QuestBench: Гарантия воспроизводимости и надежности
В методологии EVM-QuestBench обеспечение согласованности и воспроизводимости тестовых условий достигается за счет использования snapshot isolation и форков цепей. Snapshot isolation позволяет зафиксировать состояние EVM на момент начала транзакции, исключая влияние параллельных операций и гарантируя, что валидация происходит в изолированной среде. Форки цепей создают независимые копии основной цепи, позволяя выполнять тесты без риска влияния на реальную сеть или другие тесты. Использование форков позволяет запускать несколько тестов параллельно, что значительно сокращает общее время тестирования, при этом сохраняя детерминированность результатов за счет изолированности каждого теста.
Проверка транзакций в EVM-QuestBench осуществляется специализированными валидаторами, которые анализируют квитанции (receipts) о выполнении транзакций и проверяют соблюдение пост-стейтовых ограничений (post-state constraints). Анализ квитанций включает в себя проверку использования газа, логов и статуса выполнения. Пост-стейтовые ограничения обеспечивают корректность результирующего состояния блокчейна после выполнения транзакции, проверяя целостность данных и соответствие всем заданным правилам и инвариантам. Такой подход позволяет убедиться в правильности исполнения каждой транзакции и предотвратить нежелательные изменения состояния системы.
Для стимулирования оптимизации рабочих процессов в EVM-QuestBench, составные задачи оцениваются с использованием фактора эффективности шагов. Этот фактор учитывает количество выполненных операций для достижения конечного результата. За каждую избыточную или ненужную операцию начисляется штраф, снижающий общую оценку задачи. Фактор эффективности рассчитывается как отношение минимального количества шагов, необходимых для выполнения задачи, к фактическому количеству выполненных шагов. Более низкое значение фактора указывает на менее эффективное решение и, следовательно, на более низкую оценку, поощряя разработчиков к созданию лаконичного и оптимизированного кода.
Корректная обработка nonce-ов является критически важной для безопасности и функциональности блокчейн-транзакций. В рамках EVM-QuestBench, эта функциональность подвергается тщательной проверке посредством специализированных тестов. Бенчмарк оценивает способность системы правильно обрабатывать последовательность nonce-ов, предотвращая повторное использование и обеспечивая порядок исполнения транзакций. Проверяется как обработка валидных nonce-ов, так и корректное отклонение транзакций с невалидными или пропущенными nonce-ами, что необходимо для предотвращения атак повторного воспроизведения и обеспечения целостности состояния блокчейна. Тесты охватывают различные сценарии, включая параллельное выполнение транзакций и обработку транзакций с не последовательными nonce-ами.
Показатели важнее процентов: Оценка эффективности и устойчивости
В отличие от традиционных оценок, фокусирующихся исключительно на проценте успешных попыток, EVM-QuestBench предлагает более глубокое понимание производительности генерации кода. Бенчмарк не ограничивается измерением успешности с первого раза, а анализирует эффективность работы модели в процессе решения задачи. Это позволяет выявить не только способность модели к созданию работоспособного кода, но и ее умение оптимизировать процесс, избегая ненужных шагов и исправлений. Такой подход позволяет более точно оценить реальные возможности моделей, выявляя сильные и слабые стороны в контексте разработки смарт-контрактов и обеспечивая более надежную оценку их практической применимости.
Бенчмарк EVM-QuestBench предоставляет возможность оценки моделей генерации кода в различных режимах взаимодействия. Помимо стандартного подхода, когда запрос формулируется единожды (“single-shot”), платформа поддерживает многооборотное взаимодействие (“multi-turn”). Это позволяет исследователям изучать эффективность различных стратегий промптинга, включая уточнение запроса, предоставление обратной связи и постепенное построение сложного решения. Такая гибкость позволяет более точно определить, как модели справляются с неоднозначными задачами и как эффективно они используют контекст предыдущих взаимодействий для улучшения результатов, что существенно расширяет возможности анализа и оптимизации производительности.
В основе EVM-QuestBench лежит использование TypeScript-модуля для формирования транзакций, что значительно повышает прозрачность и удобство поддержки кодовой базы. Этот подход позволяет структурировать процесс создания транзакций, обеспечивая более четкое разделение логики и упрощая отладку. Использование TypeScript, с его строгой типизацией, способствует выявлению потенциальных ошибок на этапе разработки, снижая вероятность возникновения проблем в процессе исполнения. Благодаря модульной структуре, внесенные изменения в один компонент не оказывают нежелательного влияния на другие части системы, что делает benchmark более надежным и масштабируемым для дальнейших исследований и расширений.
Исследования показали, что современные модели генерации кода демонстрируют впечатляющие результаты на бенчмарке EVM-QuestBench. В частности, модель GPT-5 достигла максимальной доли успешных попыток с первого раза в 86.7%, что свидетельствует о ее способности генерировать корректный код с высокой вероятностью. При этом модель Gemini-3-Pro показала исключительную эффективность в процессе выполнения задач, достигнув 97.3% — это указывает на ее способность находить оптимальные решения с минимальным количеством шагов. Полученные данные подтверждают значительный прогресс в области автоматизированной генерации кода и демонстрируют возможности современных больших языковых моделей в решении сложных технических задач.
В отличие от традиционных методов оценки генерации кода, которые часто полагаются на поверхностное сравнение текста, EVM-QuestBench делает акцент на функциональной корректности. Это означает, что оценивается не просто похожесть сгенерированного кода на эталонный, а его способность успешно выполняться и решать поставленную задачу. Такой подход позволяет более точно определить, насколько эффективно модель понимает запрошенную функциональность и способна ли она создавать работоспособный код, а не просто имитировать его структуру. Оценка функциональности, а не только лексического сходства, открывает новые возможности для объективной оценки производительности моделей генерации кода и выявления их реальных возможностей.
Изучение предложенного EVM-QuestBench неизбежно наводит на мысль о цикличности технологического прогресса. Кажется, что задача генерации транзакций для блокчейна — это лишь новая итерация старой проблемы — заставить машину выполнять сложные последовательности действий. Как метко заметил Джон фон Нейман: «В науке нет места для предсказаний, есть лишь логические выводы». И в данном случае, логика подсказывает, что даже самые передовые языковые модели неизбежно столкнутся с ограничениями, когда дело дойдёт до реального исполнения кода в продакшене. Попытки создать идеальный бенчмарк — это, конечно, полезно, но всегда найдётся способ сломать даже самую элегантную теоретическую конструкцию. Продакшен всегда окажется лучшим тестировщиком, как и всегда.
Куда Поведёт Этот Квест?
Представленный бенчмарк, EVM-QuestBench, скрупулезно измеряет способность больших языковых моделей генерировать транзакции для блокчейна. Вполне логично. Но давайте будем честны: каждая «революционная» метрика — это всего лишь новая форма техдолга. Рано или поздно, найдётся способ обойти даже самые строгие тесты, или, что вероятнее, найдётся краевой случай, который отправит весь этот тщательно выстроенный мир в бесконечный цикл ревертов. Продакшен всегда найдёт способ сломать элегантную теорию.
Следующим шагом, вероятно, станет усложнение задач. Более сложные композитные транзакции, взаимодействие с «умными» контрактами, требующими тонкой калибровки газа… Но не стоит забывать главное: генерация кода — лишь часть проблемы. Гораздо интереснее, как эти модели будут справляться с непредсказуемостью реального мира, с гонками газа, с атаками сэндвич-типа, с внезапными изменениями состояния блокчейна. Тесты — это форма надежды, а не уверенности.
В конечном счёте, успех этой области будет измеряться не точностью бенчмарков, а способностью системы не падать по понедельникам. И когда кто-то скажет, что «автоматизация спасёт нас», не забудьте: уже видели, как скрипт удалял прод.
Оригинал статьи: https://arxiv.org/pdf/2601.06565.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Квантовый Монте-Карло: Моделирование рождения электрон-позитронных пар
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- Белки под присмотром ИИ: новый подход к пониманию их функций
- Искусственный интеллект на службе науки: новый инструмент для анализа данных
- Переключение намагниченности в квантовых антиферромагнетиках: новые горизонты для терагерцовой спинтроники
- Геометрия на пределе: как алгоритмы оптимизации превосходят языковые модели
- Искусственный интеллект и рефакторинг кода: что пока умеют AI-агенты?
- Оптимизация партийных запросов: Метод имитации отжига против градиентных подходов
- Насколько важна полнота при оценке поиска?
- Сжатый код: как оптимизация влияет на «мышление» языковых моделей
2026-01-13 15:06