Ранее стало известно, что исследовательская лаборатория искусственного интеллекта под названием EleutherAI собирала субтитры из видеороликов YouTube без явного разрешения создателей. Также она агрегировала данные из «Википедии», электронных писем сотрудников Enron и других источников. Затем из них сформировали обучающий набор под названием «Pile».
EleutherAI отмечает, что её целью было снизить барьер на пути развития ИИ для небольших компаний и отдельных разработчиков. Однако выяснилось, что Pile применяли в Nvidia, Salesforce и Apple.
Теперь Apple отреагировала на обвинения, заявив, что она использовала Pile для обучения моделей OpenELM с открытым исходным кодом, которые компания выпустила в апреле. Эти модели не поддерживают ни одну из фирменных функций искусственного интеллекта или машинного обучения. Технологический гигант утверждает, что создал OpenELM, чтобы внести свой вклад в исследовательское сообщество. Отдельно подчёркивается, что модели OpenELM никогда не предназначались для использования в Apple Intelligence. Выпуск новых версий опенсорсных моделей также не планируется.
Ранее Anthropic и Salesforce также подтвердили, что использовали The Pile для «академических и исследовательских целей» при разработке моделей искусственного интеллекта. Цаймин Сюн, вице-президент Salesforce по исследованиям в области искусственного интеллекта, подчеркнул, что датасет расценивался компанией как «общедоступный».
Обсудить