Функция генерации изображений ChatGPT получает обновление

20:06
26 Марта 2025
176

Во время прямой трансляции генеральный директор OpenAI Сэм Альтман объявил о первом крупном обновлении возможностей генерации изображений ChatGPT за последний год. ChatGPT теперь может использовать модель GPT-4o компании для собственного создания и изменения изображений и фотографий. GPT-4o долгое время лежал в основе платформы чат-ботов на базе AI, но до сих пор эта модель могла генерировать и редактировать только текст, но не изображения.

Альтман сказал, что генерация собственных изображений GPT-4o уже доступна в ChatGPT и Sora, продукте OpenAI для генерации видео на основе AI, для подписчиков плана Pro стоимостью 200 долларов в месяц. OpenAI говорит, что эта функция скоро станет доступна пользователям Plus и бесплатной версии ChatGPT, а также разработчикам, использующим API-сервис компании.

GPT-4o с выводом изображения «думает» немного дольше, чем модель генерации изображений, которую она фактически заменяет, DALL-E 3, чтобы сделать то, что OpenAI описывает как более точные и подробные изображения. GPT-4o может редактировать существующие изображения, включая изображения с людьми на них — трансформируя их или «дорисовывая» детали, такие как объекты переднего плана и фона.

В интервью Wall Street Journal представители OpenAI сообщили, что для реализации новой функции обработки изображений они обучили GPT-4o на «общедоступных данных», а также на собственных данных, полученных в результате партнерских отношений с такими компаниями, как Shutterstock.

Многие поставщики генеративного AI рассматривают данные обучения как конкурентное преимущество, поэтому они держат их и любую связанную с ними информацию в тайне. Но данные обучения также являются потенциальным источником судебных исков, связанных с интеллектуальной собственностью, что является еще одним сдерживающим фактором для компаний раскрывать много информации.

«Мы уважаем права художников в том, как мы создаем изображени, и у нас есть политика, которая запрещает нам создавать те, которые напрямую имитируют работы ныне существующих художников», — заявил Брэд Лайткап, главный операционный директор OpenAI, в своем заявлении для Journal.

OpenAI предлагает форму отказа, которая позволяет создателям запрашивать удаление своих работ из обучающих наборов данных. Компания также заявляет, что уважает запросы на запрет ее веб-скрейпинговым ботам собирать обучающие данные, включая изображения, с веб-сайтов.

Улучшенная функция генерации изображений ChatGPT следует по пятам экспериментального собственного вывода изображений Google для Gemini 2.0 Flash, одной из флагманских моделей компании. Мощная функция стала вирусной в социальных сетях. Компонент изображений Gemini 2.0 Flash оказался не таким уж и сложным , что позволило людям удалять водяные знаки и создавать изображения, изображающие защищенные авторским правом символы.

Источник

Материал опубликован при поддержке сайта habr.com

Читайте так же: