Google представляет новое поколение моделей рассуждений Gemini 2.5

Эта модель будет доступна во вторник на платформе разработчика компании Google AI Studio, а также в приложении Gemini для подписчиков на план AI компании Gemini Advanced за 20 долларов в месяц.

В дальнейшем Google заявляет, что все ее новые модели искусственного интеллекта будут иметь встроенные возможности рассуждения.

С тех пор, как OpenAI запустила первую модель рассуждений AI в сентябре 2024 года, o1, технологическая индустрия мчалась вперед, чтобы сравняться с возможностями этой модели или превзойти их своими собственными. Сегодня у Anthropic, DeepSeek, Google и xAI есть модели рассуждений AI, которые используют дополнительную вычислительную мощность и время для проверки фактов и рассуждений о проблемах перед выдачей ответа.

Методы рассуждения помогли моделям AI достичь новых высот в задачах математики и кодирования. Многие в мире технологий считают, что модели рассуждения станут ключевым компонентом агентов ИИ, автономных систем, которые могут выполнять задачи в значительной степени без вмешательства человека. Однако эти модели также более дороги.

Google уже экспериментировала с моделями рассуждений AI, выпустив в декабре «думающую» версию Gemini. Но Gemini 2.5 представляет собой самую серьезную попытку компании превзойти серию моделей OpenAI o.

Google утверждает, что Gemini 2.5 Pro превосходит свои предыдущие передовые модели AI и некоторые из ведущих конкурирующих моделей AI по нескольким показателям. В частности, Google утверждает, что разработал Gemini 2.5, чтобы преуспеть в создании визуально привлекательных веб-приложений и приложений агентного кодирования.

По данным Google, в ходе оценки редактирования кода под названием Aider Polyglot Gemini 2.5 Pro набрал 68,6%, превзойдя ведущие модели AI от OpenAI, Anthropic и китайской лаборатории AI DeepSeek.

Однако в другом тесте, измеряющем возможности разработки программного обеспечения, SWE-bench Verified, Gemini 2.5 Pro набрал 63,8%, превзойдя OpenAI o3-mini и DeepSeek R1, но уступив Claude 3.7 Sonnet от Anthropic, который набрал 70,3%.

По данным Google, на последнем экзамене человечества, мультимодальном тесте, состоящем из тысяч вопросов, задаваемых краудсорсингом и относящихся к математике, гуманитарным и естественным наукам, Gemini 2.5 Pro набрал 18,8%, что выше, чем у большинства флагманских моделей конкурентов.

Для начала Google заявляет, что Gemini 2.5 Pro поставляется с контекстным окном в 1 миллион токенов, что означает, что модель AI может воспринимать около 750 000 слов за один раз. Это больше, чем вся серия книг «Властелин колец». И вскоре Gemini 2.5 Pro будет поддерживать двойную длину ввода (2 миллиона токенов).

Читайте так же:

Власти смягчают условия для запуска 5G в России

Google не опубликовала цены на API для Gemini 2.5 Pro. Компания заявляет, что поделится более подробной информацией в ближайшие недели.

Источник

Обсудить

Читайте так же: