OpenAI представит мультимодального цифрового помощника с ИИ

10:27
12 Мая 2024
maybe_elf
217

По данным The Information, OpenAI представила некоторым клиентам новую мультимодальную модель искусственного интеллекта, которая способна общаться и распознавать объекты.

Она предлагает более быструю и точную интерпретацию изображений и аудио, чем существующие модели транскрипции и преобразования текста в речь. Потенциально модель может использоваться в работе служб поддержки, так как она позволит «лучше понимать интонацию голосов звонящих».

Источники утверждают, что модель может превзойти GPT-4 Turbo в «ответах на некоторые типы вопросов», но всё же склонна к ошибкам.

Возможно, OpenAI также готовит новую встроенную опцию ChatGPT для телефонных звонков. Разработчик Ананай Арора опубликовал скриншоты с кодом, связанным с вызовами. По его словам, OpenAI предоставила серверы, предназначенные для аудио- и видеосвязи в реальном времени.

Генеральный директор OpenAI Сэм Альтман отрицает, что компания представит улучшенную версию GPT-4. По данным The Information, GPT-5 может выйти уже к концу года.

Презентация OpenAI пройдёт 13 мая.

Ранее сообщалось, что компания работает над новой функцией для ChatGPT, которая позволит осуществлять веб-поиск с последующим цитированием источников.

Материал опубликован при поддержке сайта habr.com

Читайте так же: