Автор: Денис Аветисян
Новое исследование демонстрирует, что современные модели обработки изображений и языка испытывают трудности с планированием последовательности действий, но их можно значительно улучшить, вдохновившись принципами работы человеческого мозга.

Представлен Progress-Bench — эталон для оценки способности моделей к планированию и моделированию, а также двухэтапный подход, основанный на эпизодическом поиске и ментальной симуляции.
Несмотря на успехи современных мультимодальных моделей в понимании визуального контента, их способность оценивать прогресс выполнения задач, требующих анализа долгосрочной динамики, остается неясной. В работе ‘PROGRESSLM: Towards Progress Reasoning in Vision-Language Models’ представлен бенчмарк Progress-Bench для систематической оценки способности моделей к рассуждениям о прогрессе, а также предложена двухэтапная схема, вдохновленная когнитивными процессами человека — эпизодическое извлечение и ментальное моделирование. Эксперименты показали, что обучение моделей с использованием предложенного подхода, даже в небольшом масштабе, позволяет добиться значительных улучшений в оценке прогресса, несмотря на использование данных, отличных от оценочного набора. Какие перспективы открываются для дальнейшего развития способностей моделей к рассуждениям о прогрессе и их применения в задачах, требующих планирования и долгосрочного взаимодействия с окружающим миром?
Понимание Процесса: Основа Интеллектуального Взаимодействия
Точное определение прогресса выполнения задачи имеет первостепенное значение для эффективного планирования и взаимодействия, однако эта задача представляет собой серьезную проблему для современных систем искусственного интеллекта. Способность предсказывать, насколько близка система к завершению определенного действия, критически важна для координации сложных операций и обеспечения плавного взаимодействия с человеком. Неточность в оценке прогресса может привести к неэффективному распределению ресурсов, задержкам в выполнении задач и, в конечном итоге, к снижению общей производительности. Современные алгоритмы часто испытывают трудности с задачами, требующими понимания временных зависимостей и неявных изменений состояния, что подчеркивает необходимость разработки более совершенных методов оценки прогресса, способных учитывать динамику и сложность реальных сценариев.
Традиционные методы искусственного интеллекта зачастую испытывают затруднения при решении задач, требующих понимания временной динамики и неявных изменений состояний. В отличие от статических проблем, где результат оценивается сразу, многие реальные процессы развиваются во времени, и оценка прогресса зависит от интерпретации последовательности событий. Например, при приготовлении пищи или сборке механизма, система должна не просто распознавать отдельные действия, но и понимать, насколько близок процесс к завершению, даже если прямые индикаторы прогресса отсутствуют. Неспособность учитывать эти неявные изменения приводит к неточным прогнозам о времени завершения задачи и, как следствие, к неэффективному планированию и взаимодействию с системой.
Существенная сложность оценки завершения задач заключается не только в определении текущего состояния, но и в установлении степени продвижения процесса, основываясь на ограниченном количестве наблюдаемых данных. Искусственные системы сталкиваются с необходимостью экстраполировать информацию о скрытых этапах и промежуточных результатах, что требует не просто распознавания “что” происходит, но и понимания “насколько далеко” продвинулась работа. По сути, система должна уметь строить вероятностные модели развития событий, учитывая неполноту информации и возможные отклонения от ожидаемого сценария. Эта задача особенно актуальна в динамичных средах, где неявные изменения состояния требуют постоянного анализа и переоценки прогресса, а традиционные методы, ориентированные на явные сигналы, оказываются недостаточно эффективными.

ProgressLM-3B: Архитектура для Понимания Процесса Выполнения Задач
ProgressLM-3B представляет собой мультимодальную модель, работающую с визуальной и текстовой информацией, и специально обученную для оценки прогресса выполнения задач. Модель использует входные данные, включающие как изображения, так и текстовые описания, для определения текущего состояния задачи и прогнозирования оставшегося времени или шагов до её завершения. Обучение модели проводилось на специализированном наборе данных, содержащем последовательности действий и соответствующие визуальные представления, что позволило ей приобрести навыки точной оценки прогресса в различных сценариях. В отличие от общих моделей обработки языка, ProgressLM-3B оптимизирована для решения именно этой задачи — понимания и прогнозирования хода выполнения действий.
Архитектура ProgressLM-3B использует двухэтапный процесс рассуждений, состоящий из эпизодического поиска и ментальной симуляции. На первом этапе, эпизодический поиск, модель извлекает релевантные примеры из своей памяти, основанные на текущем визуальном и текстовом вводе. На втором этапе, ментальная симуляция, модель использует извлеченные примеры для прогнозирования возможных будущих состояний и оценки прогресса выполнения задачи. Такой подход позволяет модели опираться на накопленный опыт для предсказания развития событий и более точной оценки оставшегося времени до завершения.
Для оптимизации способности модели ProgressLM-3B к точному прогнозированию завершения задач используются методы контролируемого обучения (Supervised Fine-Tuning, SFT) и обучения с подкреплением (Reinforcement Learning, RL). SFT предполагает настройку модели на размеченном наборе данных, где предоставлены примеры визуальных и текстовых входных данных, а также соответствующие оценки прогресса выполнения задачи. RL, в свою очередь, использует систему вознаграждений, поощряющую модель за точные прогнозы и наказывающую за неточные, что позволяет ей улучшать стратегию прогнозирования в процессе обучения. Комбинация SFT и RL обеспечивает как быстрое обучение на размеченных данных, так и адаптацию к более сложным сценариям, требующим долгосрочного планирования и предвидения.

Progress-Bench: Строгий Тест для Оценки Способности к Пониманию Процесса
Мы представляем Progress-Bench — комплексный бенчмарк, разработанный для строгой оценки способностей больших визуально-языковых моделей (VLMs) к рассуждениям о прогрессе. Progress-Bench включает в себя разнообразные сценарии, предназначенные для выявления и измерения способности моделей к определению и отслеживанию изменений состояния в визуальных ситуациях. Бенчмарк охватывает широкий спектр задач, требующих от модели не просто распознавания объектов, но и понимания последовательности действий и их влияния на окружающую среду. Он предназначен для количественной оценки прогресса модели в решении задач, требующих временного рассуждения и понимания причинно-следственных связей.
Progress-Bench включает в себя вариации в модальности демонстраций, соответствии точек зрения и возможности ответа, чтобы оценить устойчивость моделей. Изменения в модальности включают использование различных типов входных данных, таких как изображения, текст или их комбинации, для представления одного и того же сценария. Соответствие точек зрения проверяет способность модели обобщать знания, когда демонстрации представлены с разных перспектив или ракурсов. Вариативность в возможности ответа заключается в том, что не все вопросы имеют однозначный ответ в представленных демонстрациях, что требует от модели определить, когда следует воздержаться от ответа или сделать обоснованное предположение на основе имеющейся информации. Эти вариации позволяют всесторонне оценить способность модели адаптироваться к различным условиям и поддерживать надежную производительность.
В рамках Progress-Bench особое внимание уделяется сценариям, требующим неявного накопления состояния. Это означает, что для решения задач модели необходимо выводить скрытую информацию из ограниченного набора наблюдений, а не полагаться на явные указания. Такие сценарии моделируют ситуации, где полная информация о происходящем недоступна, и успех зависит от способности модели отслеживать изменения состояния на основе косвенных признаков и делать логические выводы о скрытых переменных, не представленных в явном виде в входных данных.

Проверка ProgressLM-3B: Количественные и Качественные Результаты
Количественная оценка модели ProgressLM-3B, проведенная с использованием метрик Normalized Score Error (NSE) и Progress Rank Correlation (PRC), продемонстрировала ее передовые результаты на платформе Progress-Bench. Анализ показал, что модель не только точно предсказывает оценки прогресса выполнения задач, но и сохраняет согласованность в ранжировании, даже в сложных ситуациях. В частности, зафиксировано значительное снижение показателя NSE, что свидетельствует о превосходстве ProgressLM-3B над существующими аналогами в задачах оценки прогресса и подтверждает ее эффективность в понимании динамики выполнения различных процессов.
Исследования показали, что модель ProgressLM-3B демонстрирует высокую точность в предсказании оценок прогресса выполнения задач, даже в сложных ситуациях, где данные ограничены или неоднозначны. Количественная оценка, основанная на метрике Normalized Score Error (NSE), выявила значительное снижение погрешности предсказаний по сравнению с существующими аналогами. Это свидетельствует о способности модели не только верно оценивать текущее состояние задачи, но и сохранять последовательность в ранжировании различных вариантов решений, что критически важно для эффективной автоматизации и поддержки принятия решений. Устойчивость к сложным сценариям и снижение NSE подтверждают надежность и практическую применимость ProgressLM-3B в реальных условиях.
Качественный анализ продемонстрировал, что ProgressLM-3B эффективно использует как визуальные, так и текстовые подсказки для определения степени завершенности задачи, что свидетельствует о глубоком понимании временных зависимостей. Модель не просто фиксирует изменения, но и интерпретирует их в контексте общей прогрессии. Особенно примечательно, что ProgressLM-3B демонстрирует высокую точность в определении случаев, когда ответ на вопрос о прогрессе не может быть получен из представленных данных — показатель, известный как Unanswerable Detection Accuracy (UDA). Это указывает на способность модели критически оценивать информацию и избегать ошибочных заключений, что крайне важно для надежности и практического применения в различных сценариях, например, в системах помощи или автоматизированного контроля выполнения задач.

Взгляд в Будущее: К Созданию Более Интеллектуальных Агентов
Способность к отслеживанию прогресса — ключевой элемент в создании действительно интеллектуальных агентов, способных беспрепятственно взаимодействовать с окружающим миром. В отличие от систем, которые просто распознают отдельные события, агенты, обладающие “пониманием прогресса”, могут оценивать, насколько далеко продвинулся тот или иной процесс, и предвидеть его завершение. Это позволяет им не только реагировать на текущую ситуацию, но и проактивно адаптироваться к изменяющимся обстоятельствам, предвосхищая потребности пользователя и оптимизируя свою деятельность. Такой подход открывает возможности для создания более эффективных и полезных систем искусственного интеллекта, способных к долгосрочному планированию и выполнению сложных задач в динамичной среде.
Дальнейшие исследования сосредоточены на расширении возможностей ProgressLM-3B для решения более сложных задач, требующих многоступенчатого планирования и адаптации к изменяющимся условиям. Особое внимание уделяется интеграции механизмов обратной связи в режиме реального времени, что позволит модели не только оценивать текущее состояние процесса, но и корректировать свои действия на основе поступающей информации. Такой подход предполагает создание системы, способной к непрерывному обучению и самосовершенствованию, что критически важно для достижения высокого уровня производительности в динамичной среде. Разработчики стремятся к созданию искусственного интеллекта, способного не просто выполнять команды, а активно участвовать в процессе, предвидеть потенциальные проблемы и предлагать оптимальные решения.
Представляется будущее, в котором системы искусственного интеллекта смогут не просто распознавать происходящее, но и прогнозировать стадию выполнения процесса, что позволит им действовать более предусмотрительно и эффективно. Это означает переход от реактивных систем, отвечающих на текущие события, к проактивным помощникам, способным предвидеть потребности и предлагать решения заранее. Способность оценивать прогресс в сложной задаче, будь то приготовление пищи, проведение научного эксперимента или решение технической проблемы, откроет новые возможности для создания интеллектуальных агентов, способных к более тесному и продуктивному взаимодействию с человеком и окружающим миром. Такой подход позволит ИИ не только выполнять команды, но и активно участвовать в процессе, оптимизируя его и предлагая альтернативные решения на основе анализа текущего состояния и прогноза дальнейшего развития событий.

Исследование, представленное в статье, подчеркивает важность последовательного подхода к решению задач, особенно в области долгосрочного планирования и манипулирования объектами. Модели машинного зрения, способные оценивать прогресс в достижении целей, демонстрируют значительное улучшение производительности при использовании двухэтапного процесса, вдохновленного когнитивными способностями человека — эпизодического извлечения и ментального моделирования. Это подтверждает, что элегантность решения заключается не только в его функциональности, но и в гармоничном понимании процесса достижения результата. Как однажды заметила Фэй-Фэй Ли: «Искусственный интеллект должен быть направлен на расширение человеческих возможностей, а не на их замену». Этот принцип находит отражение в создании моделей, способных к более сложному и последовательному рассуждению.
Куда же дальше?
Представленная работа, словно отшлифованный инструмент, обнажает незрелость существующих моделей в вопросах последовательного рассуждения. Progress-Bench — не просто набор задач, а лакмусовая бумажка, демонстрирующая, что имитация человеческого познания требует не просто увеличения параметров, а принципиально иного подхода к структуре и обучению. Попытка разделить процесс на этапы — эпизодическое извлечение и ментальное моделирование — выглядит элегантно, но всё ещё далека от той гармонии, когда каждый интерфейс звучит, если настроен с вниманием.
Очевидно, что ключевым направлением является преодоление ограничений в представлении и манипулировании знаниями о мире. Успех, в конечном итоге, будет измеряться не процентами точности, а способностью модели к адаптации и обобщению. Иначе говоря, нужно научить систему не просто «видеть» прогресс, но и понимать его суть, отличать истинное движение вперёд от случайных колебаний. Плохой дизайн кричит, хороший шепчет, и существующие модели пока что склонны к громким заявлениям.
В перспективе, представляется необходимым отход от упрощённых представлений о «прогрессе» как линейном процессе. Реальный мир сложен и непредсказуем, и адекватное моделирование требует учёта множества факторов, включая неопределённость, обратную связь и возможность возникновения непредвиденных обстоятельств. Элегантность — не опция; это признак глубокого понимания и гармонии между формой и функцией.
Оригинал статьи: https://arxiv.org/pdf/2601.15224.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- Сердце музыки: открытые модели для создания композиций
- Эмоциональный отпечаток: Как мы научили ИИ читать душу (и почему рейтинги вам врут)
- Волны звука под контролем нейросети: моделирование и инверсия в вязкоупругой среде
- Почему ваш Steam — патологический лжец, и как мы научили компьютер читать между строк
- Квантовый скачок из Андхра-Прадеш: что это значит?
- LLM: математика — предел возможностей.
2026-01-24 13:24