Учёные предсказали ИИ деградацию из-за обучения на сгенерированных данных

Исследователи Оксфордского университета заявляют, что использование контента, созданного ИИ, для обучения новых нейросетей грозит коллапсом модели. Это происходит, когда сгенерированные данные «приводят к необратимым дефектам в новых моделях», и они начинают выдавать бессмыслицу.

Как указывается в статье под руководством Ильи Шумайлова, исследователя Google DeepMind и Оксфордского постдокторанта, ИИ часто не распознаёт данные, которые встречаются в обучающих датасетах сравнительно редко. Это означает, что последующие модели, обученные на выходных данных, будут ещё меньше их учитывать. Обучение новых моделей на выходных данных более ранних моделей таким образом превращается в рекурсивную петлю.

Эмили Венгер, доцент кафедры электротехники и вычислительной техники в Университете Дьюка, проиллюстрировала коллапс модели на примере генераций картинок с собаками. По её словам, модель ИИ будет стремиться воссоздать породы собак, которые чаще встречались в её тренировочном датасете, и будет чаще генерировать золотистых ретриверов по сравнению с, например, малыми вандейскими бассет-гриффонами, учитывая относительную распространённость двух пород.

«При достаточном количестве циклов с переизбытком золотистых ретриверов модель вообще “забудет” о существовании малоизвестных пород собак и будет генерировать только картинки ретриверов. В конце концов произойдёт коллапс модели, когда она окажется неспособна генерировать осмысленный контент».

Подобные тенденции присутствуют и в работе с текстовыми датасетами. Авторы статьи привели пример, в котором первая модель генерировала тексты о европейской архитектуре в средние века, а младшая модель через восемь поколений могла выдать только бред про зайцев.

Шумайлов и его коллеги считают, что обучение модели на сгенерированных данных возможно, но отрасль должна разработать эффективные средства фильтрации контента.

«Необходимость отличать сгенерированные данные от других данных поднимает вопросы о контенте, взятом из интернета: неясно, как отслеживать сгенерированные данные в таком масштабе», — говорится в статье.

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"