Galileo предлагает инструменты для оценки работы AI-агентов

Galileo, стартап из Сан-Франциско, делает ставку на то, что будущее искусственного интеллекта зависит от доверия. Сегодня компания выпустила новый продукт Agentic Evaluations, чтобы решить растущую проблему в мире AI: обеспечить, чтобы всё более сложные системы, известные как AI-агенты, действительно работали по назначению.

AI-агенты набирают популярность во всех отраслях. Но их быстрое внедрение поднимает важный вопрос: как компании могут убедиться, что эти системы остаются надёжными после внедрения? Генеральный директор Galileo Викрам Чаттерджи считает, что его компания нашла ответ.

«За последние шесть-восемь месяцев мы начали замечать, что некоторые из наших клиентов пытаются внедрить агентские системы, — сказал Чаттерджи в интервью. — Теперь LLM можно использовать в качестве интеллектуального маршрутизатора, чтобы выбирать правильные вызовы API для выполнения задачи. Переход от простого генерирования текста к выполнению задачи - это очень большой шаг вперёд».

Крупные предприятия, такие как Cisco и Ema, уже внедрили платформу Galileo. Эти компании используют AI-агентов для автоматизации задач, от поддержки клиентов до финансового анализа, и сообщают о значительном повышении производительности.

«В противном случае торговому представителю, который пытается наладить контакт с потенциальными клиентами, потребовалось бы на это около недели, в то время как с помощью некоторых из этих агентов он делает это за два дня или даже меньше», — объяснил Чаттерджи, подчеркнув окупаемость инвестиций для предприятий.

Новая платформа Galileo оценивает качество выбора инструментов, выявляет ошибки в вызовах инструментов и отслеживает общую успешность сеанса. Она также отслеживает основные показатели для крупномасштабного внедрения AI, включая затраты и задержки.

Запуск основан на недавнем успехе Galileo. В октябре прошлого года компания привлекла 45 миллионов долларов в рамках финансирования серии B под руководством Scale Venture Partners, доведя общий объём финансирования до 68 миллионов долларов. По прогнозам отраслевых аналитиков, к 2025 году рынок инструментов для работы с искусственным интеллектом может достичь 4 миллиардов долларов.

Ставки высоки, поскольку внедрение AI ускоряется. Исследования показывают, что даже продвинутые модели, такие как GPT-4, могут выдавать галлюцинации примерно в 23% случаев при выполнении базовых задач по поиску ответов на вопросы. Инструменты Galileo помогают предприятиям выявлять эти проблемы до того, как они повлияют на работу.

«Прежде чем мы запустим эту штуку, нам действительно нужно знать, что она работает, — сказал Чаттерджи, описывая опасения клиентов. — Требования очень высокие. Поэтому мы предоставили им эту цепочку инструментов, чтобы они могли использовать наши показатели в качестве основы для этих тестов».

Для технических руководителей, внедряющих AI на предприятиях, платформа Galileo предоставляет необходимые средства контроля, чтобы гарантировать, что AI-агенты работают должным образом, контролируя при этом расходы.

По мере того как предприятия расширяют использование AI-агентов, инструменты мониторинга производительности становятся критически важной инфраструктурой. Последнее предложение Galileo призвано помочь компаниям ответственно и эффективно внедрять AI в больших масштабах.

«2025 год станет годом агентов. Он будет очень плодотворным, — отметил Чаттерджи. — Однако мы также видим, что многие компании, которые просто запускают этих агентов без тщательного тестирования, сталкиваются с негативными последствиями… Необходимость в надлежащем тестировании и оценке как никогда высока».

Источник

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"