Fara-7B: Искусственный интеллект, осваивающий компьютер

Автор: Денис Аветисян

Новая модель демонстрирует, что даже небольшие нейросети способны к эффективной автоматизации работы с компьютером при использовании качественных синтетических данных.

Несмотря на сопоставимую стоимость, модель Fara-7B демонстрирует вдвое более высокую точность - 38% против 19.5% у UI-TARS-1.5-7B - при выполнении задач, связанных с взаимодействием с веб-приложениями, что указывает на её превосходство в эффективности. — Несмотря на сопоставимую стоимость, модель Fara-7B демонстрирует вдвое более высокую точность — 38% против 19.5% у UI-TARS-1.5-7B — при выполнении задач, связанных с взаимодействием с веб-приложениями, что указывает на её превосходство в эффективности.

Исследование представляет FaraGen — масштабируемый движок для генерации синтетических данных — и модель Fara-7B, демонстрирующую высокую эффективность в задачах веб-автоматизации.

Несмотря на значительный прогресс в области больших языковых моделей, создание эффективных агентов для работы с компьютером сдерживалось отсутствием масштабных и качественных обучающих данных. В работе ‘Fara-7B: An Efficient Agentic Model for Computer Use’ представлена система FaraGen для генерации синтетических данных и модель Fara-7B — компактный (7B параметров) агент, способный выполнять многошаговые задачи в веб-среде, ориентируясь исключительно по скриншотам. Показано, что Fara-7B превосходит аналогичные по размеру модели и конкурирует с более крупными, демонстрируя преимущества масштабируемой генерации данных для создания эффективных агентов. Открывает ли это путь к созданию компактных и доступных систем автоматизации, способных эффективно взаимодействовать с цифровой средой?

Разрушая Узкие Горлышки: Данные и Автоматизация Веб-Взаимодействий

Современные модели автоматизации взаимодействия с веб-сайтами (CUA) в значительной степени зависят от данных, собранных и размеченных вручную. Этот процесс не только требует значительных финансовых затрат, но и критически ограничивает способность моделей к обобщению. Ручная курация неизбежно приводит к упрощению и недостаточной репрезентативности данных, не отражая всего многообразия реальных сценариев поведения пользователей в интернете. В результате, модели, обученные на таких ограниченных наборах данных, демонстрируют снижение производительности при столкновении с новыми, непредсказуемыми веб-интерфейсами или задачами, что препятствует их широкому внедрению в практические приложения и снижает надежность автоматизированных процессов.

Ограниченность высококачественных данных существенно снижает способность современных моделей взаимодействия с веб-страницами к обобщению и устойчивости. Недостаток разнообразных и реалистичных данных приводит к тому, что модели, обученные на узком наборе примеров, демонстрируют неудовлетворительные результаты при столкновении с новыми, ранее не встречавшимися веб-сайтами или задачами. Это препятствует их эффективному внедрению в реальные приложения, где требуется надежная и адаптивная работа в постоянно меняющейся веб-среде. Отсутствие достаточного объема данных также делает модели более уязвимыми к ошибкам и непредсказуемыми в сложных сценариях, что снижает доверие к их результатам и ограничивает возможности автоматизации веб-взаимодействий.

Несмотря на ценность существующих бенчмарков, таких как WebVoyager, для оценки производительности моделей в автоматизации взаимодействия с веб-страницами, их охват типичных задач далек от полноты. Исследования показали, что модель Fara-7B демонстрирует впечатляющий результат в 73.5% успешных выполнений на WebVoyager, превосходя показатели более крупных и известных моделей, таких как GPT-4o (65.1%) и GLM-4.1V-9B-Thinking (66.8%). Этот факт указывает на то, что эффективность модели не всегда напрямую коррелирует с ее размером, и подчеркивает необходимость разработки более всесторонних бенчмарков, способных адекватно оценивать способности моделей к решению широкого спектра веб-задач.

WebVoyager с использованием Fara-7B превосходит другие агенты по точности и экономичности, требуя вдвое меньше шагов для выполнения задач по сравнению с UI-TARS-1.5-7B, при сопоставимой стоимости токенов.

FaraGen: Синтез Данных для Масштабируемой Автоматизации

Процесс FaraGen начинается с этапа “Task Proposal”, на котором формируются реалистичные задания, основанные на анализе живых веб-сайтов. Этот этап включает в себя автоматизированный сбор задач, представляющих собой типичные действия пользователей, такие как поиск информации, заполнение форм или взаимодействие с элементами интерфейса. Задания формируются на основе анализа структуры веб-страниц и доступных интерактивных элементов, обеспечивая разнообразие и релевантность генерируемых данных. Используемые алгоритмы направлены на извлечение задач, которые могут быть выполнены в рамках автоматизированного тестирования пользовательского опыта (CUA) и требуют взаимодействия с веб-сайтом.

Этап “Решение Задач” в FaraGen использует многоагентную систему Magentic-One для выполнения предложенных задач и генерации траекторий взаимодействия. Magentic-One состоит из нескольких агентов, каждый из которых специализируется на определенном аспекте взаимодействия с веб-сайтом, например, навигация, заполнение форм или поиск информации. Агенты взаимодействуют друг с другом, обмениваясь информацией и координируя свои действия для достижения цели задачи. Результатом работы системы является запись последовательности действий, представляющая собой траекторию взаимодействия пользователя с веб-сайтом, которая затем используется для обучения моделей анализа поведения пользователей (CUA).

Этап ‘Trajectory Verification’ использует LLM-верификацию для оценки качества и корректности сгенерированных траекторий взаимодействия. Процесс включает в себя анализ последовательности действий, выполненных агентом, с использованием большой языковой модели (LLM) для определения соответствия действий поставленной задаче и логичности поведения. LLM оценивает, является ли траектория полной, последовательной и свободной от очевидных ошибок или нецелесообразных действий. В случае выявления несоответствий, траектория отклоняется, обеспечивая формирование только высококачественного синтетического набора данных для обучения моделей пользовательского поведения.

В системе FaraGen решение задач осуществляется посредством многоагентного фреймворка Magnetic-One, где оркестратор планирует действия, а агент Websurfer выполняет их непосредственно в браузере, при этом набор агентов-верификаторов определяет успешные траектории для обучения модели Fara-7B.

Fara-7B: Эффективность и Производительность в Действии

Модель Fara-7B, обученная на данных, сгенерированных FaraGen, продемонстрировала высокую производительность в ряде бенчмарков для Компьютерных Управляющих Агентов (CUA), включая WebTailBench и Online Mind2Web. В ходе тестирования на WebTailBench, Fara-7B достигла показателя успешности в 38.4%, что свидетельствует о её способности эффективно выполнять задачи, требующие взаимодействия с веб-интерфейсами и обработки визуальной информации. Данный результат позволяет оценить эффективность подхода к обучению, используемого в FaraGen, и потенциал модели для применения в задачах автоматизации веб-взаимодействий.

Модель Fara-7B эффективно использует визуальную информацию, полученную из скриншотов, и дополняет её данными из Accessibility Tree для обеспечения надежного взаимодействия с пользовательским интерфейсом. Accessibility Tree предоставляет структурированное представление элементов интерфейса и их свойств, позволяя модели интерпретировать и понимать назначение каждого элемента на скриншоте. Сочетание визуального анализа и семантической информации из Accessibility Tree значительно повышает точность и устойчивость взаимодействия, особенно в сложных и динамичных пользовательских средах, что позволяет модели выполнять задачи, требующие понимания контекста и структуры интерфейса.

Для повышения эффективности и масштабируемости Fara-7B используются оптимизации, такие как BF16 Precision и DeepSpeed Stage 3, что позволяет развертывать модель на аппаратном обеспечении с ограниченными ресурсами. В частности, стоимость токенов (token cost) Fara-7B примерно в 10 раз ниже, чем у более крупных SoM-агентов, благодаря значительно меньшему количеству генерируемых выходных токенов. BF16 Precision снижает требования к памяти и ускоряет вычисления, а DeepSpeed Stage 3 оптимизирует распределение нагрузки между несколькими графическими процессорами, обеспечивая масштабируемость модели.

Модель Fara-7B, разработанная на основе CUA, напрямую обрабатывает пиксельные данные и выполняет атомарные действия, такие как клики, ввод текста или прокрутка, самостоятельно определяя моменты передачи управления пользователю после выполнения критических этапов задачи.

К Надёжным и Безопасным Системам Автоматизации: Взгляд в Будущее

Модель Fara-7B демонстрирует приверженность принципам ответственной разработки искусственного интеллекта, успешно отказываясь от выполнения задач, которые могут быть расценены как вредоносные или неуместные. Это подтверждается результатами тестирования на бенчмарке WebTailBench-Refusals, где модель последовательно проявляет способность распознавать и отклонять запросы, содержащие потенциально опасный контент или инструкции. Такая способность критически важна для обеспечения безопасности и надежности систем, использующих искусственный интеллект, и свидетельствует о продуманном подходе к разработке, направленном на предотвращение злоупотреблений и минимизацию рисков.

Сочетание методов генерации синтетических данных и использование компактной модели, такой как Fara-7B, открывает значительные перспективы для более широкого внедрения систем Conversational User Assistance (CUA) в практические приложения. Традиционно, обучение CUA-моделей требовало огромных объемов размеченных данных, что было дорогостоящим и трудоемким процессом. Однако, благодаря синтетической генерации данных, можно создавать разнообразные сценарии взаимодействия, охватывающие широкий спектр пользовательских запросов и ситуаций. Компактность модели, в свою очередь, позволяет снизить вычислительные затраты и требования к ресурсам, делая возможным ее развертывание на различных платформах, включая мобильные устройства и системы с ограниченной мощностью. Этот подход не только повышает доступность CUA, но и способствует созданию более надежных и адаптируемых систем, способных эффективно решать задачи пользователей в реальных условиях.

Разработанный для оценки производительности в задачах, которые недостаточно представлены в обучающих данных, WebTailBench позволяет убедиться в отсутствии предвзятости у систем Conversational User Assistance (CUA). Использование этого бенчмарка особенно важно, поскольку гарантирует, что модели не ограничиваются лишь распространенными сценариями, а способны адекватно функционировать и в более редких, но не менее значимых ситуациях. Модель Fara-7B, продемонстрировавшая стандартное отклонение около 1.01 на WebVoyager, подтверждает свою стабильную и последовательную работу, что свидетельствует о надежности и предсказуемости ее ответов даже при столкновении с разнообразными и нетипичными запросами. Такая стабильность является ключевым фактором для внедрения CUA систем в реальные приложения, где требуется уверенность в их работе в любых условиях.

FaraGen обеспечивает генерацию разнообразных и надёжных траекторий благодаря использованию начальных URL, отражающих реальные потребности пользователей в интернете.

Исследование демонстрирует, что даже относительно небольшие модели, такие как Fara-7B, способны на впечатляющую автоматизацию задач при условии качественного синтетического датасета. Этот подход перекликается с глубокой мыслью Барбары Лисков: “Программы должны быть спроектированы так, чтобы изменения в одной части не приводили к неожиданным последствиям в других.” По сути, FaraGen, генерируя данные, создает контролируемую среду, где модель учится действовать предсказуемо, а значит, и надёжно. Вместо хаотичного обучения на реальных данных, система получает тщательно отобранные примеры, что повышает её устойчивость и снижает вероятность ошибок при взаимодействии с веб-автоматизацией. Это своего рода “реверс-инжиниринг” обучения — создание идеальных условий для достижения желаемого результата.

Что дальше?

Представленные результаты, несомненно, открывают ящик Пандоры. Успех Fara-7B и FaraGen демонстрирует, что масштабирование моделей — не единственный путь к компетентности. Однако, искусственно созданные данные — лишь имитация реальности, и эта имитация всегда содержит артефакты. Вопрос не в том, насколько хорошо модель работает с синтетикой, а в том, насколько успешно она адаптируется к настоящему хаосу сети, к непредсказуемым изменениям интерфейсов и логике веб-сайтов. Следующий этап — это не просто генерация большего объема данных, а создание генераторов, способных моделировать неизвестное.

Ключевая проблема остается нерешенной: как научить агента не просто выполнять задачи, а понимать их? Fara-7B — умелый исполнитель, но лишен истинного интеллекта. Его действия — это сложные алгоритмы, а не осознанные решения. Будущие исследования должны сосредоточиться на интеграции механизмов самообучения и адаптации, позволяющих агенту самостоятельно выявлять и устранять ошибки, и даже формулировать новые цели. Ведь, в конечном итоге, цель не в автоматизации, а в создании систем, способных к творчеству.

И, пожалуй, самое интересное — это потенциал для обратного инжиниринга. Анализируя поведение агента, обученного на синтетических данных, можно получить неожиданные инсайты о структуре и логике веб-сайтов, о неявных правилах, определяющих взаимодействие человека с машиной. В этом смысле, Fara-7B — не просто инструмент автоматизации, а своего рода зонд, исследующий неизведанные территории цифрового мира.

Оригинал статьи: https://arxiv.org/pdf/2511.19663.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-11-26 08:47

🚀 Квантовые новости