WSJ: OpenAI рассматривает возможность использования транскрипций с YouTube для обучения GPT-5

15:12
03 Апреля 2024
Travis_Macrif
174

OpenAI рассматривает возможность обучения своей следующей модели искусственного интеллекта GPT-5 на транскрипциях роликов с YouTube, сообщила Wall Street Journal со ссылкой на источники. Таким образом компании в сфере ИИ ищут неиспользованные источники информации и переосмысливают способы обучения своих нейросетевых систем.

Кроме того, компании экспериментируют с использованием сгенерированных ИИ или синтетических данных в качестве материала для обучения. Однако, по мнению многих исследователей, этот подход может привести к серьёзным сбоям.

Руководители компаний часто скрывают подобные планы, поскольку такие решения могут стать конкурентным преимуществом.

Нехватка данных — это передовая проблема исследований, объясняет исследователь ИИ Ари Моркос, который ранее работал в подразделении Meta* Platforms и DeepMind до основания DatologyAI в прошлом году. Его компания разрабатывает инструменты для улучшения отбора данных, которые могут помочь в обучении ИИ-моделей с меньшими затратами.

Также индустрия ИИ испытывает нехватку чипов, лежащих в основе ChatGPT, Gemini и других чат-ботов. Лидеры отрасли обеспокоены дефицитом центров обработки данных и электроэнергии, необходимой для питания дата-центров.

Языковые модели ИИ создают с использованием текста, полученного из интернета, включая научные исследования, новостные материалы и статьи из «Википедии». Эти работы разбивают на токены — слова и части слов, которые модели используют, чтобы формулировать выражения на естественных языках.

OpenAI не раскрывает подробности об учебном материале для GPT-4, которая установила стандарт для передовых генеративных систем ИИ. Исследователь ИИ в институте Epoch Пабло Виллалобос подсчитал, что GPT-4 обучили на 12 трлн токенов. По оценкам Виллалобоса и других экспертов, обучение GPT-5 потребует от 60 до 100 трлн токенов данных, если учёные продолжат следовать текущей траектории роста.

Виллалобос отметил, что использование всех доступных высококачественных языковых и графических данных способно привести к дефициту в 10-20 трлн или более токенов. Сейчас специалисты не знают, как преодолеть этот разрыв.

В 2022 году Виллалобос и его коллеги писали о вероятности в 50%, что спрос на высококачественные данные превысит предложение к середине 2024 года.

Большая часть данных в интернете бесполезна для обучения ИИ. Виллалобос заявил, что для этого пригодна лишь часть интернета, вероятно, 10% информации, собранной некоммерческой организацией Common Crawl, чей архив широко используют разработчики ИИ.

Новостные издания, социальные сети и другие организации ограничивают доступ к своим данным для обучения ИИ. Ранее глава Meta Марк Цукерберг назвал доступ корпорации к данным на своих платформах значительным преимуществом относительно разработки ИИ-моделей. Речь идёт о сотнях миллиардов общедоступных изображений и видео в соцсетях Facebook** и Instagram**, которые в совокупности превышают наиболее часто используемые наборы данных. Однако неизвестно, какой процент этих данных можно считать высококачественным.

Читайте так же:

Атаки по доверенности, экономный дорогой ИИ, и долларовые сомнения

Одна из стратегий DatalogyAI предусматривает передачу данных языковым моделям в определённом порядке, что позволит ИИ сформировать наиболее разумные связи между концепциями. Подход потенциально может снизить огромные затраты на обучение и эксплуатацию больших генеративных систем ИИ.

Некоторые компании, в том числе Microsoft, создают меньшие по размеру языковые модели, которые составляют лишь незначительную долю от GPT-4, но не могут решать конкретные задачи. Глава OpenAI Сэм Альтман поделился, что компания работает над новыми методами обучения будущих моделей. Он предположил, что сейчас индустрия находится в конце эпохи существования гигантских моделей.

OpenAI обсудила создание рынка данных, на котором можно определить, какую ценность каждая часть данных вносит в окончательный вариант модели. Это предусматривает выплаты поставщикам контента. Идея проходит обсуждение и в Google.

В OpenAI на уровне руководства говорят о расшифровке высококачественных примеров видео и аудио в интернете при помощи инструмента распознавания речи Whisper, говорят источники WSJ. Часть подобных мероприятий будут проводить с роликами на YouTube, некоторые из которых уже применялись для обучения GPT-4.

В прошлом месяце источники Business Insider рассказали, что OpenAI уже некоторое время тестирует в закрытом формате GPT-5. Возможно, что переход проекта в доступный режим состоится в середине текущего года. Тестировщики сообщили, что модель существенно лучше GPT-4. В ней представлены новые опции типа интеллектуального агента, который способен самостоятельно выполнять задания человека в течение длительных промежутков времени, а также различные системы для автономного выполнения задач.

_{Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:
* — признана экстремистской организацией, её деятельность в России запрещена;
** — запрещены в России.}

Материал опубликован при поддержке сайта habr.com

Читайте так же: