OpenAI запускает Operator: ИИ-агент, который бронирует, заказывает и ищет за вас
OpenAI провела демонстрацию своего первого настоящего ИИ‑агента — Operator. Умный ИИ‑агент способен взаимодействовать с веб‑страницами так, словно он живой пользователь, посылая сигналы клавиатурных нажатий, щелчков и перемещений мыши. Operator умеет решать разные связанные с веб‑сайтами задачи, не применяя их API , а используя визуальный анализ страниц.
Интерфейс Operator напоминает привычный ChatGPT: пользователь вводит запрос, описывая, какие действия нужно выполнить на веб‑сайтах, и агент выполняет их в реальном времени. Сёрфинг ИИ‑агента в интернете осуществляется не локально, а через облачную виртуальную машину с запущенным внутри неё браузером. Его содержимое отображается пользователю в знакомом веб‑интерфейсе.
Примеры запросов, с которыми работает Operator:
Book me a table for two at Beretta tonight. At 7pm
Забронируй столик на двоих в ресторане Beretta на сегодня в 19:00.can you get us four tickets to the warriors game this weekend in SF? Best seats under $500 please. Give us a few options
Найди для нас четыре билета на матч Warriors в Сан‑Франциско на эти выходные. Самые лучшие места до 500 $. Предоставь несколько вариантов.can you get us 10 medium sized pizzas from goat hill pizza. please add bbq pizza — but pick a variety. if the restaurant is closed just schedule it for the earliest time possible
Закажи 10 пицц среднего размера в Goat Hill Pizza. Обязательно включи одну с барбекю, остальные постарайся выбрать с разными вкусами. Если ресторан закрыт, пусть заказ будет на ближайшее возможное время.Can you see if St Mary tennis court in SF is available tomorrow morning? Ideally 1 hour slot
Проверь, свободен ли теннисный корт St. Mary в Сан‑Франциско завтра утром. Желательно, чтобы был доступен часовой слот.can you find me house cleaners for next week please?
Найди уборщиков для дома на следующую неделю.
Operator справляется с многошаговыми задачами — например, ищет подходящие страницы в поисковике, если пользователь не назвал конкретного магазина или веб‑ресурса.
В процессе работы Operator записывает все свои действия в лог, который отображается в расположенной слева чат‑панели. Это даёт возможность просматривать все выполняемые шаги агента. Более того, если нужно вмешаться в действия агента — будь то добавление нового товара в корзину или изменение времени бронирования, — пользователь может в любой момент взять управление в свои руки. А если задача уже завершена, то отмотать время назад — вернуться к любому из промежуточных снимков виртуальной машины и тоже перехватить управление. Взять контроль можно не только чтобы самостоятельно произвести манипуляции с веб‑страницей, но и для того, чтобы что‑то уточнить ИИ‑агенту.
В процессе такого перехвата Operator не будет следить за пользователем, но, поскольку ему необходимо знать, какие действия были совершены, он восполняет пробелы в информации иным образом — просто открыв окно с просьбой для пользователя написать словами, что он только что изменил.
У Operator высокая скорость реакции и ввода данных, однако взаимодействие всё‑таки происходит не мгновенно, с учётом того, что агент не применяет каких‑либо сайтовых API и не обращается к HTML-элементам, да и веб‑страницам порой требуется время, чтобы что‑то отобразить или обменяться данными с сервером сайта. Но в этом кроется и ключевое преимущество ИИ-агента: пользователь может не только продолжить заниматься другими делами, а даже открыть несколько одновременных Operator‑чатов, выполняющих в параллельном режиме множество рутинных задач.
Для некоторых требующих подтверждения действий, таких как покупка товаров, Operator приостанавливает выполнение и ожидает одобрения пользователя. Также он автоматически запрашивает помощь, если сталкивается с непредвиденными сложностями, например необходимостью ввода кода подтверждения с телефона или временной недоступностью сайта.
В системе предусмотрены пресеты — заготовленные сценарии для типичных действий, таких как покупка в конкретных магазинах. Правда, даже в этом случае пользователь всё равно может описать действия иначе — в текстовом запросе, не воспользовавшись настроенными быстрыми действиями.
Operator работает на модели CUA — Compute‑Using Agent, построенной на основе ChatGPT-4o и обученной сёрфить в интернете совсем так, как это делает человек. Система CUA не анализирует исходный код страниц, а полагается лишь на считывание графической информации. Кстати, ChatGPT-4o тоже отлично с этим справляется, распознавая скриншоты программ, добавленные пользователем в чат, и давая подсказки и решения в различных ситуациях.
Взаимодействие с Operator, при котором пользователь может перехватывать управление работы нейросети, демонстрирует подобие методики human‑in‑the‑loop, применяемой в обучении нейросетей.
Сейчас Operator доступен только в США. Пользователи подписки Pro уже могут воспользоваться им, а в ближайшие месяцы доступ получат и подписчики Plus. OpenAI также планирует открыть API модели, что даст разработчикам возможность интегрировать агента в свои проекты.
В ближайшие месяцы компания планирует запуск новых агентов. Пока неясно, будут ли они работать только в облаке или появятся версии для операционных систем.
- Sony прекращает производство носителей Blu-ray спустя 18 лет, последний завод закроется в феврале
- Система «Антифрод» РКН в 2024 году проверила 158 млрд вызовов и предотвратила почти 606 млн звонков с подменных номеров
- LinkedIn обвиняют в передаче личных сообщений Premium-клиентов третьей стороне для обучения ИИ
Написать комментарий