Новая модель искусственного интеллекта Alibaba превосходит DeepSeek-V3
Компания Alibaba разработала новую языковую модель под названием Qwen2.5-Max, которая, по словам компании, использует рекордное количество обучающих данных — более 20 триллионов токенов.
Компания Alibaba представила Qwen2.5-Max — новую языковую AI-модель, обученную на рекордных, по заявлению компании, 20 триллионах токенов данных. Эта модель входит в существующее семейство Qwen2.5 от Alibaba, в которое входят Qwen2.5-VL и Qwen2.5-1M.
Qwen2.5-Max, созданный с использованием архитектуры «смесь экспертов» (MoE), в тестах на производительность не уступает и превосходит некоторые ведущие AI-модели, такие как Deepseek-V3, GPT-4o, Claude 3.5 Sonnet и Llama-3.1-405B. Хотя точный размер обучающих данных некоторых коммерческих конкурентов остаётся конфиденциальным, Deepseek-V3 и Llama-3.1-405B использовали примерно по 15 триллионов токенов.
Модель показывает особенно высокие результаты в тестах Arena-Hard и LiveBench, а в других тестах не уступает конкурентам. Команда Alibaba использовала для разработки модели устоявшиеся методы обучения, в том числе контролируемую тонкую настройку и обучение с подкреплением на основе обратной связи от человека.
Теперь пользователи могут получить доступ к Qwen2.5-Max через API Alibaba Cloud или протестировать его в Qwen Chat, чат-боте компании, который предлагает такие функции, как поиск в интернете и создание контента. Хотя Alibaba не раскрывает источники своих данных, эксперты предполагают, что синтетические данные, вероятно, играют важную роль.
Несмотря на значительные инвестиции в обучающие данные, преимущество модели в производительности по сравнению с конкурентами остаётся незначительным. Это соответствует недавним обсуждениям в сообществе AI, в ходе которых высказывается предположение, что улучшение вычислительной мощности во время тестирования, а не только размер обучающих данных, может быть ключом к расширению возможностей языковых моделей.
В отличие от других моделей в семействе Qwen2.5, версия Max будет доступна только через API и не будет выпущена с открытым исходным кодом. Alibaba предлагает разработчикам конкурентоспособные цены и интерфейс, совместимый с OpenAI, чтобы стимулировать переход на их облачную платформу. Однако, как и другие модели китайского языка, Qwen2.5-Max работает в соответствии с китайскими государственными ограничениями на контент.
Источник
Написать комментарий