Рост популярности агентов, использующих браузеры: почему Proxy превосходит Operator

Появляется новая волна агентов, использующих браузеры на базе искусственного интеллекта, которые обещают изменить то, как предприятия взаимодействуют с Интернетом. Эти агенты могут автономно перемещаться по веб-сайтам, получать информацию и даже завершать транзакции, но предварительное тестирование выявило значительные расхождения между обещаниями и производительностью.

В то время как примеры применения нового браузера-агента OpenAI, такие как заказ пиццы или покупка билетов на спортивное мероприятие, привлекли внимание общественности, остаётся открытым вопрос о том, где кроются основные области применения для разработчиков и компаний.

«Мы не знаем, какое приложение станет лидером рынка, — сказал Сэм Виттевин, соучредитель Red Dragon, компании, разрабатывающей приложения-агенты с искусственным интеллектом. — Я предполагаю, что это будут приложения, которые просто отнимают время в интернете и не приносят удовольствия». Сюда входят поиск в интернете самой низкой цены на товар или бронирование лучшего номера в отеле. Скорее всего, он будет использоваться в сочетании с другими инструментами, такими как Deep Research, с помощью которых компании смогут проводить ещё более сложные исследования и выполнять задачи в интернете.

Компаниям необходимо тщательно оценивать быстро меняющуюся ситуацию, поскольку признанные игроки и стартапы используют разные подходы к решению проблемы автономного просмотра.

Operator и Proxy являются наиболее продвинутыми с точки зрения удобства использования и готовности к использованию «из коробки». Многие другие, похоже, позиционируют себя больше для использования разработчиками или предприятиями. Например, Browser Use, запуск Y-Combinator, который позволяет пользователям настраивать модели, используемые с агентом.

Таким образом, проще всего протестировать Operator от OpenAI и Convergence Proxy. Результаты показали, что возможности рассуждения могут иметь большее значение, чем простые функции автоматизации. Operator, в частности, был более глючным.

Например, агентов попросили найти и обобщить пять самых популярных статей на VentureBeat. Это была неоднозначная задача, потому что на VentureBeat нет раздела «самые популярные» как такового. Operator с трудом справился с этим. Сначала он попал в бесконечный цикл прокрутки при поиске «самых популярных» статей, что потребовало вмешательства человека. В другой попытке он нашёл статью трёхлетней давности под названием «Пять самых популярных статей недели». В отличие от него, Proxy продемонстрировал более логичное мышление, определив пять наиболее заметных историй на главной странице как практический показатель популярности, и предоставил точные сводки.

Различие стало ещё более очевидным в реальных задачах. Агентов попросили забронировать столик в романтическом ресторане на полдень в Напе, штат Калифорния. Operator подошёл к задаче линейно — сначала нашёл романтический ресторан, а затем проверил наличие свободных столиков на полдень. Когда свободных столиков не оказалось, он зашёл в тупик. Proxy продемонстрировал более сложные рассуждения, начав с OpenTable, чтобы найти романтические рестораны, доступные в желаемое время. Он даже нашёл ресторан с чуть более высоким рейтингом.

Даже, казалось бы, простые задачи выявили важные различия. При поиске «цены на YubiKey 5C NFC» на Amazon Proxy быстро нашёл товар, в отличие от Operator.

OpenAI не раскрывает подробностей о технологиях, которые использует для обучения своего агента Operator, кроме того, что модель была обучена на задачах, связанных с использованием браузера. Однако Convergence предоставила более подробную информацию: её агент использует так называемый генеративный поиск по дереву.

На бумаге эти инструменты кажутся очень похожими. Proxy от Convergence набирает 88% баллов в тесте WebVoyager, который оценивает веб-агенты в 643 реальных задачах на 15 популярных веб-сайтах, таких как Amazon и Booking.com. Operator от OpenAI набирает 87%, а Browser-Use утверждает, что достигает 89%, но только после того, как он немного изменил кодовую базу WebVoyager «в соответствии с нашими потребностями».

Однако к этим результатам тестов следует относиться с осторожностью, так как их можно подтасовать. Настоящее испытание — это практическое применение в реальных условиях. Сейчас ещё очень рано, сфера стремительно меняется, и эти продукты обновляются почти каждый день. Результаты будут в большей степени зависеть от конкретных задач, которые вы пытаетесь решить, и вы можете положиться на ощущения, которые испытываете при использовании разных продуктов.

Последствия для автоматизации предприятий значительны. Как отмечает Виттевин в видеоподкасте на эту тему, где подробно рассматривается эта тенденция в использовании браузеров, многие компании в настоящее время платят за виртуальных помощников, которыми управляют реальные люди, чтобы те выполняли базовые задачи по поиску в интернете и сбору данных. Эти агенты, использующие браузеры, могут кардинально изменить ситуацию.

«Если ИИ возьмёт это на себя, — отмечает Виттевин, — это станет одним из первых очевидных последствий для людей, которые потеряют работу. Это проявится в некоторых подобных вещах».

Это может способствовать развитию тенденции к автоматизации роботизированных процессов (RPA), при которой использование браузера становится для компаний ещё одним инструментом для автоматизации задач. И, как упоминалось ранее, более эффективные варианты использования будут возникать, когда агент будет сочетать использование браузера с другими инструментами, в том числе с Deep Research, где агент на основе LLM использует инструмент поиска плюс браузер для выполнения более сложных задач.

Ещё одним ключевым фактором, способствующим быстрому развитию, является доступность мощных моделей логического вывода с открытым исходным кодом, таких как DeepSeek-R1. Это позволяет компаниям, создающим таких агентов для браузеров, эффективно конкурировать с более крупными игроками, используя эти модели, а не разрабатывая собственные.

Прежде чем технология получит широкое распространение на предприятиях, предстоит преодолеть несколько препятствий. Некоторые веб-сайты активно блокируют автоматизированный просмотр, в то время как другие требуют подтверждения CAPTCHA.

Кроме того, подход к взаимодействию с веб-сайтами различается. OpenAI работал с конкретными партнёрами, такими как Instacart, Priceline, DoorDash и Etsy, в то время как другие пытаются взаимодействовать с любым веб-сайтом. Такое несоответствие может повлиять на надёжность в корпоративных сценариях использования. И, конечно, каждый раз, когда агент заходит на сайт, требующий ввода данных для входа, это замедляет работу, поскольку агенты передают вам эти данные для заполнения.

Предприятиям, оценивающим эти инструменты, следует сосредоточиться на конкретных сценариях использования, в которых автономное веб-взаимодействие может принести очевидную пользу — будь то исследования, обслуживание клиентов или автоматизация процессов. Технология быстро развивается, но успех будет зависеть от соответствия возможностей конкретным потребностям бизнеса.

По мере развития этой сферы можно ожидать появления новых функций, ориентированных на предприятия, и потенциально специализированных агентов для конкретных отраслей или задач. Конкуренция между признанными игроками и инновационными стартапами должна стимулировать как технический прогресс, так и конкурентные цены, что сделает 2025 год решающим для внедрения корпоративных браузеров.

Подробнее об этих тенденциях и результатах тестирования можно узнать из полного видеоинтервью с Сэмом Виттевином.

Источник

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"