Исследователи создали открытого конкурента модели рассуждений OpenAI o1 менее чем за $50
Согласно новой статье, опубликованной в прошлую пятницу, исследователи искусственного интеллекта из Стэнфорда и Вашингтонского университета смогли обучить модель «рассуждений» искусственного интеллекта менее чем за $50 в виде облачных вычислений.
Модель, известная как s1, работает аналогично передовым моделям рассуждений, таким как o1 от OpenAI и R1 от DeepSeek, в тестах, измеряющих математические и кодирующие способности. Модель s1 доступна на GitHub вместе с данными и кодом, используемыми для ее обучения.
Команда, стоящая за s1, заявила, что они начали с готовой базовой модели, а затем доработали ее с помощью дистилляции — процесса извлечения «логических» возможностей из другой модели AI путем обучения на ее ответах.
Исследователи заявили, что s1 является дистилляцией одной из моделей рассуждений Google, Gemini 2.0 Flash Thinking Experimental. Дистилляция — это тот же подход, который исследователи из Беркли использовали для создания модели рассуждений ИИ примерно за 450 долларов в прошлом месяце . Неудивительно, что крупные лаборатории AI недовольны. OpenAI обвинила DeepSeek в ненадлежащем сборе данных из своего API для целей дистилляции моделей .
Исследователи, стоящие за s1, пытались найти самый простой подход для достижения высокой производительности рассуждений и масштабирования времени тестирования, или позволить модели AI думать больше, прежде чем она ответит на вопрос. Это были некоторые из прорывов в o1 от OpenAI, которые DeepSeek и другие лаборатории AI пытались воспроизвести с помощью различных методов.
В статье s1 предполагается, что модели рассуждений можно выделить из относительно небольшого набора данных с помощью процесса, называемого контролируемой тонкой настройкой (SFT), в котором модели AI явно предписывается имитировать определенное поведение в наборе данных.
SFT, как правило, дешевле, чем крупномасштабный метод обучения с подкреплением, который DeepSeek использовал для обучения своего конкурента модели OpenAI o1, R1.Google предлагает бесплатный доступ к Gemini 2.0 Flash Thinking Experimental, хотя и с дневным лимитом, через свою платформу Google AI Studio.
Однако условия Google запрещают обратную разработку своих моделей для разработки сервисов, которые конкурируют с собственными предложениями компании в области AI. Мы обратились в Google за комментариями.
S1 основан на небольшой готовой модели AI от китайской лаборатории AI Qwen, принадлежащей Alibaba, которая доступна для бесплатной загрузки. Для обучения s1 исследователи создали набор данных всего из 1000 тщательно отобранных вопросов, сопряженных с ответами на эти вопросы, а также процесс мышления , стоящий за каждым ответом, из Gemini 2.0 Flash Thinking Experimental от Google.
По словам исследователей, после обучения s1, которое заняло менее 30 минут с использованием 16 графических процессоров Nvidia H100, s1 достиг высокой производительности в некоторых тестах AI. Никлас Мюннигхофф, исследователь из Стэнфорда, работавший над проектом, рассказал, что он может арендовать необходимые вычисления сегодня примерно за 20 долларов.
Исследователи применили изящный трюк, чтобы заставить s1 перепроверить свою работу и продлить время размышлений: они сказали ему подождать. Добавление слова «подождать» во время рассуждений s1 помогло модели прийти к немного более точным ответам, согласно статье.
В 2025 году Meta, Google и Microsoft планируют инвестировать сотни миллиардов долларов в инфраструктуру ИИ , часть которых пойдет на обучение моделей AI следующего поколения. Такой уровень инвестиций все еще может быть необходим для расширения границ инноваций в области AI. Дистилляция показала себя хорошим методом для дешевого воссоздания возможностей модели AI, но она не создает новые модели AI, которые были бы намного лучше тех, что доступны сегодня.
Источник
Написать комментарий