Hugging Face работает над копированием возможностей OpenAI Deep Research с помощью агента AI с открытым исходным кодом
Команда Hugging Face под руководством главного научного сотрудника Томаса Вольфа создала версию системы Deep Research OpenAI с открытым исходным кодом за 24 часа.
Согласно блогу Hugging Face , они стремятся сделать фирменную технологию доступной для всех, копируя агентскую структуру, лежащую в основе OpenAI Deep Research. Команда разработала свою систему для написания программного кода напрямую, а не с использованием JSON для действий. Такой подход сокращает этапы обработки примерно на 30%, что приводит к снижению затрат и повышению производительности по сравнению с традиционными языковыми моделями.
Для фактической реализации команда позаимствовала два ключевых элемента из агентской среды Magentic-One от Microsoft : текстовый веб-браузер для поиска и текстовый инспектор, который может читать различные форматы файлов.
Команда оценила свою систему с помощью бенчмарка GAIA , который проверяет, как агенты AI справляются со сложными исследовательскими задачами. Один из примеров спрашивает: «Какие из фруктов, показанных на картине 2008 года «Вышивка из Узбекистана», подавались в качестве части меню завтрака в октябре 1949 года для океанского лайнера, который позже использовался в качестве плавучего реквизита для фильма «Последнее путешествие»? Приведите элементы в виде списка, разделенного запятыми, упорядочив их по часовой стрелке на основе их расположения на картине, начиная с позиции 12 часов. Используйте множественное число каждого фрукта».
Чтобы решить эту головоломку, AI-агенту необходимо определить фрукты на картине с помощью обработки изображений, определить, какой океанский лайнер появился в фильме, найти меню завтрака 1949 года и представить информацию в требуемом формате
Система Hugging Face набрала 55,15 процентов на этих многошаговых задачах. Это лучше, чем 46% Microsoft Magentic-One, но все еще отстает от 67% OpenAI с Deep Research.
Команда признает, что им еще предстоит работа, чтобы соответствовать Deep Research OpenAI , особенно в плане улучшения взаимодействия с браузером. Одно ключевое отличие: Hugging Face полагается на доступные языковые модели с открытым исходным кодом, в то время как OpenAI использует собственную модель o3, специально обученную для веб-задач с использованием обучения с подкреплением .
Тем не менее, результаты Hugging Face на тесте GAIA, опубликованные сразу после публикации отчета OpenAI Deep Research, указывают на то, что разрыв между открытым исходным кодом и проприетарным AI может сокращаться быстрее, чем ожидалось, — еще один признак (после дилеммы Deepseek ) того, что проприетарный AI может оказаться не самой сильной бизнес-моделью.
Следующий шаг команды — разработка агентов GUI, которые могут напрямую взаимодействовать с экранами, мышами и клавиатурами. Код доступен на GitHub и вы можете увидеть живую демонстрацию здесь. Другие разработчики создали свои собственные версии с открытым исходным кодом, включая dzhng , assafelovic и Jina AI. Hugging Face планирует проанализировать и задокументировать эти различные подходы.
Источник
- Let's Encrypt прекратит уведомлять об истечении срока действия своих бесплатных HTTPS-сертификатов с 4 июня 2025 года
- Тесты помогают быстрее и дешевле учить ИИ писать код. Новая работа китайских ученых: TDD для обучения ИИ
- Steam начал предупреждать о низкой активности разработчиков проектов в раннем доступе
Написать комментарий