Google выпускает новое семейство открытых моделей Gemma 3
Компания Google Deepmind представила Gemma 3 — новое поколение открытых моделей искусственного интеллекта, разработанных для обеспечения высокой производительности при относительно небольших размерах, что делает их пригодными для работы на отдельных графических процессорах или TPU.
Семейство Gemma 3 включает четыре модели с параметрами от 1 до 27 миллиардов. Несмотря на компактный размер, эти модели превосходят гораздо более крупные LLM, такие как Llama-405B и DeepSeek-V3, в первоначальных тестах, согласно Google Deepmind.
Модели могут обрабатывать более 140 языков, причем 35 не требуют дополнительного обучения. Они обрабатывают текст, изображения (кроме версии 1B) и короткие видео, используя контекстное окно на 128 000 токенов. Google утверждает, что их возможности вызова функций и структурированного вывода делают их хорошо подходящими для агентских задач.
Все модели прошли дистилляционное обучение, за которым последовало специализированное пост-обучение с использованием различных подходов к обучению с подкреплением. Эти методы специально нацелены на улучшение математики, функциональности чата, следования инструкциям и многоязычной коммуникации.
Впервые Google официально предлагает квантованные версии, которые снижают требования к памяти и вычислениям, сохраняя точность. Компания заявляет, что Gemma 3 будет воспроизводить меньше дословного текста, чем предыдущие версии, и избегать воспроизведения персональных данных.
Специалисты по оценке в области чат-ботов дали Gemma 3-27B-IT оценку Эло 1338, поместив ее в десятку лучших моделей AI. Меньшая модель 4B работает на удивление хорошо, соответствуя возможностям большей Gemma 2-27B-IT. Версия 27B показывает производительность, схожую с Gemini 1.5-Pro, во многих тестах производительности.
Наряду с мультимодальными моделями Gemma компания Google представила ShieldGemma 2 — специализированную систему проверки безопасности с 4 миллиардами параметров, предназначенную для выявления опасного контента, откровенных материалов и сцен насилия на изображениях.
Модели Gemma 3 доступны через Hugging Face, Kaggle и Google AI Studio. Они поддерживают распространенные фреймворки, включая PyTorch, JAX и Keras. Преподаватели могут получить доступ к облачным кредитам на сумму $10 000 через академическую программу Gemma 3. Модели работают на графических процессорах NVIDIA, Google Cloud TPU и графических процессорах AMD, а Gemma.cpp доступен для использования на ЦП.
Источник
Написать комментарий