Искусственный интеллект на пределе: новый вызов для самообучающихся систем

Автор: Денис Аветисян


Исследователи представили ARC-AGI-3 — сложный тест, который проверяет способность ИИ к адаптации и освоению новых навыков в интерактивной среде.

🚀 Квантовые новости

Подключайся к потоку квантовых мемов, теорий и откровений из параллельной вселенной.
Только сингулярные инсайты — никакой скуки.

Присоединиться к каналу
С момента появления в 2019 году, производительность передовых моделей искусственного интеллекта неуклонно растёт в рамках эталонного теста ARC-AGI, демонстрируя прогресс в решении задач, требующих общих когнитивных способностей.
С момента появления в 2019 году, производительность передовых моделей искусственного интеллекта неуклонно растёт в рамках эталонного теста ARC-AGI, демонстрируя прогресс в решении задач, требующих общих когнитивных способностей.

ARC-AGI-3 — это новый бенчмарк для оценки агентного интеллекта, фокусирующийся на эффективности действий и обобщающей способности систем искусственного общего интеллекта (AGI).

Несмотря на значительный прогресс в области искусственного интеллекта, создание систем, способных к адаптивному обучению и эффективному решению новых задач, остается сложной проблемой. В данной работе представлена новая платформа для оценки агентного интеллекта — ‘ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence’, основанная на интерактивных средах, требующих от агентов исследования, вывода целей и планирования действий без явных инструкций и внешних знаний. Ключевое отличие ARC-AGI-3 — акцент на оценке эффективности действий, калибровка сложности на основе результатов тестирования людей, показавших 100% успешность, в то время как передовые ИИ-системы демонстрируют менее 1% результат. Сможет ли ARC-AGI-3 стать надежным инструментом для оценки и продвижения исследований в области искусственного общего интеллекта (AGI)?


Пределы Масштабирования: За гранью Статических Эталонов

Недавний прогресс в области искусственного интеллекта, обусловленный архитектурой Transformer и масштабированием предварительного обучения, демонстрирует впечатляющие результаты на статических наборах данных. Однако, когда дело доходит до динамичных, интерактивных сред, эти системы зачастую сталкиваются с серьезными трудностями. В то время как увеличение объемов данных и вычислительных мощностей последовательно улучшает производительность в контролируемых условиях, это не решает фундаментальные проблемы, связанные со способностью ИИ к рассуждению и адаптации к меняющимся обстоятельствам. В отличие от статических задач, требующих лишь воспроизведения заученных шаблонов, интерактивные среды требуют от системы способности планировать, действовать и учиться на основе обратной связи в реальном времени, что представляет собой качественно иной уровень сложности.

Несмотря на последовательный рост эффективности искусственного интеллекта благодаря увеличению объемов данных и вычислительных мощностей, фундаментальные ограничения в способности систем к рассуждению и адаптации остаются нерешенными. Простое наращивание ресурсов не позволяет ИИ преодолеть потребность в настоящем понимании контекста и способности к гибкому применению знаний в новых, непредсказуемых ситуациях. Искусственный интеллект, обученный на больших массивах данных, часто демонстрирует впечатляющие результаты в решении задач, аналогичных тем, что представлены в обучающей выборке, однако испытывает затруднения при столкновении с ситуациями, требующими творческого подхода или способности к обобщению полученных знаний. Таким образом, прогресс в области масштабирования данных и вычислений, хоть и важен, не является панацеей и не может заменить необходимость разработки принципиально новых подходов к построению интеллектуальных систем.

Традиционные эталоны оценки искусственного интеллекта, такие как ARC-AGI-2, ориентированы на решение сложных, но статичных задач, что выявляет существенные ограничения в способности систем к рассуждению и адаптации в динамичных условиях. Эти тесты, хотя и демонстрируют определенный уровень когнитивных способностей, не отражают реальных требований к интеллекту, проявляющемуся в интерактивной среде. В ответ на это, разработан новый эталон ARC-AGI-3, который смещает акцент с пассивного решения задач на активное взаимодействие с окружающей средой. Он предназначен для оценки так называемого “агентного интеллекта” — способности системы не просто отвечать на вопросы, а самостоятельно исследовать, планировать и действовать для достижения поставленных целей в изменяющихся обстоятельствах, что представляет собой важный шаг к созданию действительно разумных машин.

Изображение демонстрирует скриншот среды ARC-AGI-3, используемой для тестирования и разработки агентов искусственного интеллекта.
Изображение демонстрирует скриншот среды ARC-AGI-3, используемой для тестирования и разработки агентов искусственного интеллекта.

ARC-AGI-3: Новый Эталон Агентного Интеллекта

ARC-AGI-3 представляет собой новый подход к оценке искусственного интеллекта, смещая акцент с традиционных метрик точности на способность агентов действовать в интерактивной среде. В отличие от предыдущих бенчмарков, ARC-AGI-3 проверяет не просто распознавание образов или выдачу ответов, а комплекс навыков, включающих исследование окружения, построение внутренней модели мира, самостоятельную постановку целей и планирование последовательности действий для их достижения. Этот подход основан на предположении, что истинный интеллект проявляется в способности адаптироваться к новым ситуациям и эффективно решать задачи в динамичной среде, а не в простом воспроизведении заученных данных или выполнении предопределенных инструкций.

В основе ARC-AGI-3 лежит зависимость от априорных знаний о мире (Core Knowledge Priors), что подчеркивает необходимость наделения ИИ базовым интуитивным пониманием физических свойств объектов и закономерностей окружающей среды. Данный подход обусловлен тем, что эффективное решение задач в интерактивных средах требует от агента предварительного знания о принципах причинно-следственных связей, гравитации, постоянстве объектов и других фундаментальных аспектах физической реальности. Без этих априорных знаний, ИИ сталкивается с существенными трудностями при исследовании новых сред и планировании действий, поскольку ему приходится заново “открывать” базовые физические законы, что значительно снижает эффективность и масштабируемость системы.

В ARC-AGI-3 оценка интеллекта осуществляется не по критерию абсолютной точности выполнения задачи, а по показателю «Эффективность действий» — количеству шагов, необходимых для решения новой среды. Этот показатель отражает практические навыки решения проблем. Установленная человеческая база для эффективности действий составляет в среднем 8,1 минуты на среду, при этом успешное решение каждой среды требует участия как минимум двух человек.

Инновации в Архитектуре Агентов и Адаптации в Реальном Времени

Системы, такие как Arcgentica, демонстрируют перспективность архитектур «оркестратор-субагент» для решения сложных задач в среде ARC-AGI-3. Данный подход предполагает разделение общей задачи на более мелкие, специализированные подзадачи, которые решаются отдельными субагентами. Оркестратор управляет распределением задач, координирует работу субагентов и объединяет полученные результаты. Такая модульная структура позволяет повысить надежность и масштабируемость системы, а также упрощает процесс разработки и отладки. Использование субагентов, специализирующихся на конкретных навыках, позволяет эффективно использовать вычислительные ресурсы и достигать более высоких показателей производительности в сложных сценариях ARC-AGI-3.

Недавние достижения в области адаптации во время тестирования (Test-Time Adaptation), основанные на методологии последовательного мышления (Chain-of-Thought Prompting), позволяют искусственным интеллектам совершенствовать свои навыки рассуждения непосредственно в процессе решения задач. Этот подход подразумевает динамическую корректировку стратегий и внутренних представлений агента, основываясь на промежуточных результатах и полученной обратной связи, что позволяет повысить эффективность и надежность решения сложных проблем без предварительного переобучения модели. В отличие от традиционных методов, требующих статических моделей, адаптация во время тестирования позволяет агентам приспосабливаться к новым условиям и непредсказуемым ситуациям, возникающим в процессе выполнения задачи.

В ходе соревнования ARC-AGI-3 Preview Agent Competition нейронная сеть StochasticGoose, использующая сверточную нейронную сеть (CNN) и обучение с подкреплением, продемонстрировала успешное применение принципов оркестровки агентов и адаптации во время выполнения. Результаты показали, что StochasticGoose достигла 12.58% процента успешного завершения задач на скрытом оценочном наборе данных, что подтверждает эффективность данного подхода к решению сложных задач в среде ARC-AGI-3. Этот показатель свидетельствует о способности системы адаптироваться и улучшать свои результаты непосредственно в процессе решения проблем.

Анализ времени выполнения показывает, что как успешные, так и неудачные попытки требуют сопоставимых затрат времени на выполнение в различных средах.
Анализ времени выполнения показывает, что как успешные, так и неудачные попытки требуют сопоставимых затрат времени на выполнение в различных средах.

К Человеческому Уровню Интеллекта: Оценка Прогресса

В рамках инициативы ARC-AGI-3 был создан эталон человеческих возможностей, представляющий собой критически важную точку отсчета для оценки прогресса в области искусственного интеллекта. Этот эталон, основанный на решении разнообразных задач, требующих как логического мышления, так и общих знаний о мире, позволяет объективно сопоставлять производительность ИИ-систем с человеческой. Определение этого базового уровня необходимо для того, чтобы избежать субъективных оценок и точно измерить, насколько близки современные алгоритмы к достижению действительно общего интеллекта. Использование этого эталона позволяет исследователям не только фиксировать улучшения, но и выявлять конкретные области, где ИИ отстает от человека, направляя дальнейшие разработки и фокусируя усилия на преодолении существующих ограничений.

Исследование эффективности действий, осуществляемых искусственным интеллектом, в сравнении с человеческой производительностью, представляет собой ключевой метод для выявления слабых мест существующих систем и направления дальнейших разработок. Оценивая количество шагов, необходимых ИИ для решения задач, аналогичных тем, что успешно выполняет человек, ученые могут точно определить области, где алгоритмы испытывают трудности — будь то планирование, рассуждение или применение общих знаний. Такой сравнительный анализ позволяет не просто констатировать отставание, но и фокусировать усилия на совершенствовании конкретных аспектов искусственного интеллекта, приближая его к уровню когнитивных способностей человека и открывая возможности для создания более эффективных и универсальных агентов.

Конкурс ARC-AGI-3, предлагающий призовой фонд в 2 миллиона долларов, стал мощным стимулом для инноваций в области автономных агентов. Несмотря на достигнутый прогресс, создание искусственного интеллекта, сопоставимого с человеческим, требует дальнейших усовершенствований в архитектуре систем, алгоритмах обучения и, что особенно важно, интеграции априорных знаний — базовых принципов и понятий, которыми обладает человек. Успех в достижении этой цели зависит от способности систем не просто решать задачи, но и эффективно обобщать знания, адаптироваться к новым ситуациям и действовать рационально в сложных, непредсказуемых условиях, что требует принципиально новых подходов к проектированию и обучению агентов.

Исследование, представленное в данной работе, демонстрирует стремление к созданию систем искусственного интеллекта, способных к эффективному обучению и адаптации в интерактивных средах. Это созвучно мысли Андрея Николаевича Колмогорова: «Вероятность того, что предсказание окажется верным, не выше вероятности случайного угадывания». Подобно тому, как Колмогоров подчеркивал важность оценки вероятностей, ARC-AGI-3 ставит своей целью оценить способность агентов к эффективному действию и обобщению знаний в новых ситуациях. Акцент на измерении эффективности действий и способности к приобретению новых навыков напрямую отражает стремление к созданию ИИ, способного не просто решать задачи, но и «взламывать» систему, находя оптимальные пути к цели, подобно реверс-инжинирингу реальности.

Что дальше?

Представленный бенчмарк ARC-AGI-3, как и любая тщательно сконструированная система, скорее выявляет границы текущего понимания, чем демонстрирует абсолютную меру интеллекта. Эффективность агента в освоении новых навыков — это лишь один аспект, и вопрос о том, действительно ли это отражает «общее» понимание, остаётся открытым. В конце концов, даже самые сложные инструменты измеряют лишь то, что мы решили измерить.

Следующим шагом представляется не просто повышение результатов в существующих средах, а создание принципиально новых, непредсказуемых сценариев. Среда, которая не была заранее продумана, где успех требует не применения заученных шаблонов, а истинной адаптации и изобретательности. Иначе мы рискуем создать агентов, блестяще решающих задачи, но совершенно беспомощных перед лицом неожиданности.

Истинный тест для искусственного интеллекта — не в воспроизведении известных решений, а в генерации принципиально новых. В конечном счёте, суть не в том, чтобы взломать систему, а в том, чтобы понять, как она работает, и создать что-то, превосходящее её ограничения. Попытка построить «идеальный» тест — это лишь ещё одна форма ограничения, а настоящий прогресс всегда требует выхода за рамки.


Оригинал статьи: https://arxiv.org/pdf/2603.24621.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-27 17:04