DeepSeek утверждает, что его модель рассуждений превосходит o1 от OpenAI по некоторым показателям

21:48
20 Января 2025
151

Китайская лаборатория искусственного интеллекта DeepSeek выпустила открытую версию DeepSeek-R1, своей так называемой модели рассуждений, которая, по её утверждению, работает так же хорошо, как o1 от OpenAI в определённых тестах AI.

R1 доступен на платформе для разработки AI Hugging Face по лицензии MIT, что означает, что его можно использовать в коммерческих целях без ограничений. По данным DeepSeek, R1 превосходит o1 в тестах AIME, MATH-500 и SWE-bench Verified. AIME использует другие модели для оценки производительности модели, а MATH-500 представляет собой набор текстовых задач. SWE-bench Verified, в свою очередь, ориентирован на задачи программирования.

Будучи моделью рассуждений, R1 эффективно проверяет факты, что помогает ей избежать некоторых ошибок, которые обычно приводят к сбоям в работе моделей. Модели рассуждений требуют немного больше времени, обычно от нескольких секунд до нескольких минут для поиска решений по сравнению с типичной моделью. Преимущество в том, что они, как правило, более надёжны в таких областях, как физика, наука и математика.

R1 содержит 671 миллиардов параметров, как сообщает DeepSeek в техническом отчёте. Параметры примерно соответствуют навыкам модели в решении задач, и модели с большим количеством параметров обычно работают лучше, чем модели с меньшим количеством параметров.

671 миллиардов параметров - это очень много, но DeepSeek также выпустила «облегчённые» версии R1 размером от 1,5 миллиардов параметров до 70 миллиардов параметров. Самая маленькая версия может работать на ноутбуке. Что касается полной версии R1, то для неё требуется более мощное оборудование, но она доступна через API DeepSeek по цене на 90–95% ниже, чем o1 от OpenAI.

У R1 есть недостаток. Будучи китайской моделью, он подвергается сравнительному анализу со стороны китайского интернет-регулятора, который следит за тем, чтобы его ответы «отражали основные социалистические ценности». Например, R1 не будет отвечать на вопросы о площади Тяньаньмэнь или об автономии Тайваня.

Многие китайские системы искусственного интеллекта , в том числе другие модели рассуждений, отказываются отвечать на вопросы, которые могут вызвать недовольство регулирующих органов в стране, например, на предположения о режиме Си Цзиньпина.

R1 выходит через несколько дней после того, как уходящая администрация Байдена предложила более жёсткие правила экспорта и ограничения на технологии искусственного интеллекта для китайских предприятий. Китайским компаниям уже было запрещено покупать передовые чипы для искусственного интеллекта, но если новые правила вступят в силу в том виде, в котором они написаны, компании столкнутся с более строгими ограничениями как на полупроводниковые технологии, так и на модели, необходимые для запуска сложных систем искусственного интеллекта.

В политическом документе, опубликованном на прошлой неделе, OpenAI призвала правительство США поддержать развитие американского AI, чтобы китайские модели не сравнивались с ними по возможностям и не превзошли их. В интервью The Information вице-президент OpenAI по политике Крис Лехейн назвал High Flyer Capital Management организацией, вызывающей особую обеспокоенность.

На данный момент по меньшей мере три китайские лаборатории - DeepSeek, Alibaba и Kimi, принадлежащая китайскому «единорогу» Moonshot AI, создали модели, которые, по их словам, конкурируют с o1. В посте на X Дин Болл, исследователь AI в Университете Джорджа Мейсона, сказал, что эта тенденция говорит о том, что китайские лаборатории AI продолжат «быстро догонять».

«Впечатляющая производительность оптимизированных моделей DeepSeek […] означает, что очень эффективные программы-аналитики будут продолжать широко распространяться и работать на локальном оборудовании, - написал Болл, - вдали от глаз любого режима централизованного контроля».

Читайте так же:

САПР по-русски: почему отрасль все еще выбирает зарубежные решения

Источник

Материал опубликован при поддержке сайта habr.com

Читайте так же: