DeepSeek-V3: Китайская языковая модель превзошла Claude 3.5 Sonnet в работе с кодом

02:45
26 Декабря 2024
194

Компания DeepSeek, поддерживаемая китайским хедж-фондом High-Flyer, представила новую языковую модель DeepSeek-V3, которая продемонстрировала впечатляющие результаты в работе с кодом.

Архитектурные особенности

DeepSeek-V3 представляет собой значительный шаг вперед по сравнению со своим предшественником. Модель имеет 685 миллиардов параметров. В основе архитектуры лежит подход Mixture of Experts (MoE) с 256 экспертами, из которых 8 активируются для каждого токена.

По сравнению с предыдущей версией, DeepSeek-V3 получила существенные улучшения во всех ключевых параметрах. Новая версия может обрабатывать больше информации за один раз, имеет заметно расширенный словарный запас и значительно более мощную внутреннюю архитектуру. Все эти улучшения направлены на то, чтобы модель лучше понимала контекст и генерировала более качественные ответы.

Впечатляющие результаты в Aider Polyglot Benchmark

Особого внимания заслуживают результаты DeepSeek-V3 в тесте Aider Polyglot — специализированном бенчмарке для оценки способностей языковых моделей в работе с кодом на различных языках программирования. Тест включает 225 сложнейших задач с платформы Exercism по программированию на C++, Go, Java, JavaScript, Python и Rust.

В данном тестировании DeepSeek-V3 показала результат в 48.4% успешно решенных задач, заняв второе место в общем рейтинге. Модель уступила только o1-2024-12-17 (61.7%), но превзошла такие известные модели как Claude-3-5-sonnet-20241022 (45.3%) и Gemini-exp-1206 (38.2%).

Важной особенностью теста является не только процент решенных задач, но и способность модели корректно форматировать изменения в коде. DeepSeek-V3 показала впечатляющий результат в 98.7% правильного форматирования изменений.

Мультимодальные возможности

Помимо впечатляющих результатов в работе с кодом, DeepSeek-V3 хорошо справляется с другими задачами: читает диаграммы, работает с научными текстами и сайтами, понимает картинки и помогает создавать разные тексты. Модель можно попробовать на сайте chat.deepseek.com.

Интересная особенность

Читайте так же:

IT-Weekly: остановлен проект корпусирования процессоров Baikal M; в РФ появится технологический сбор

Любопытной деталью является то, как модель представляет себя на разных языках. В англоязычной версии чата она называет себя "DeepSeek-V3, AI assistant created exclusively by the Chinese Company DeepSeek", в то время как в русскоязычной версии она представляется как "языковая модель OpenAI, основанная на архитектуре GPT-4". Такое различие в самоидентификации на разных языках является необычным и заслуживает внимания при оценке возможностей модели.

Материал опубликован при поддержке сайта habr.com

Читайте так же: