Илон Маск согласен с тем, что достигнут предел данных по обучению AI

00:43
10 Января 2025
196

Илон Маск согласен с другими экспертами в области AI в том, что осталось мало реальных данных для обучения моделей.

«Сейчас мы в основном исчерпали совокупный объём человеческих знаний... в области обучения AI», — сказал Маск во время прямого эфира с председателем Stagwell Марком Пенном, который транслировался на X в среду вечером. — По сути, это произошло в прошлом году».

Маск, владелец компании xAI, занимающейся искусственным интеллектом, вновь выдвинул на обсуждение темы, которые затронул бывший главный научный сотрудник OpenAI Илья Суцкевер на конференции по машинному обучению NeurIPS во время выступления в декабре. Суцкевер, который сказал, что индустрия искусственного интеллекта достигла того, что он назвал “пиковыми данными”, предсказал, что нехватка обучающих данных вынудит отказаться от того способа, которым модели разрабатываются сегодня. Действительно, Маск предположил, что синтетические данные - это путь вперед.

“Единственный способ дополнить реальные данные - это синтетические данные, когда AI создает обучающие данные”, - сказал он. - С помощью синтетических данных искусственный интеллект сам будет выставлять оценки и проходить этот процесс самообучения ”.

Другие компании, в том числе технологические гиганты, такие как Microsoft, Meta*, OpenAI и Anthropic, уже используют синтетические данные для обучения флагманских моделей AI. По оценкам Gartner, 60% данных, используемых в проектах AI и аналитики в 2024 году, были сгенерированы искусственно.

Phi-4 от Microsoft, который был выпущен в среду с открытым исходным кодом, был обучен работе с синтетическими данными наряду с данными из реального мира. Такими же были модели Gemma от Google. Anthropic использовала некоторые синтетические данные для разработки одной из своих наиболее производительных систем - Claude 3.5 Sonnet. Компания Meta доработала свою последнюю серию моделей Llama, используя данные, сгенерированные искусственным интеллектом.

Обучение на синтетических данных имеет и другие преимущества, например, экономию средств. Стартап Writer, занимающийся искусственным интеллектом, утверждает, что разработка его модели Palmyra X 004, которая была создана почти полностью на синтетических данных, обошлась всего в 700 000 долларов — по сравнению с 4,6 миллионами долларов, которые, по оценкам, потребовались для разработки модели OpenAI сопоставимого размера.

Но есть и недостатки. Некоторые исследования предполагают, что синтетические данные могут привести к краху модели, когда модель становится менее “креативной” и более предвзятой в своих выходных данных, что в конечном итоге серьезно снижает ее функциональность. Поскольку модели работают с искусственными данными, то и результаты их работы будут подвержены ошибкам и искажениям, если данные, на которых они обучаются, содержат неточности и ограничения.

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Источник

Материал опубликован при поддержке сайта habr.com

Читайте так же: