Google представляет новое поколение моделей рассуждений Gemini 2.5

21:00
25 Марта 2025
173

Google представила Gemini 2.5 — новое семейство моделей рассуждений на основе искусственного интеллекта, которые останавливаются, чтобы «подумать», прежде чем ответить на вопрос. Чтобы запустить новое семейство моделей, Google запускает Gemini 2.5 Pro Experimental, мультимодальную, рассуждающую модель AI, которую компания называет самой интеллектуальной моделью на сегодняшний день.

Эта модель будет доступна во вторник на платформе разработчика компании Google AI Studio, а также в приложении Gemini для подписчиков на план AI компании Gemini Advanced за 20 долларов в месяц.

В дальнейшем Google заявляет, что все ее новые модели искусственного интеллекта будут иметь встроенные возможности рассуждения.

С тех пор, как OpenAI запустила первую модель рассуждений AI в сентябре 2024 года, o1, технологическая индустрия мчалась вперед, чтобы сравняться с возможностями этой модели или превзойти их своими собственными. Сегодня у Anthropic, DeepSeek, Google и xAI есть модели рассуждений AI, которые используют дополнительную вычислительную мощность и время для проверки фактов и рассуждений о проблемах перед выдачей ответа.

Методы рассуждения помогли моделям AI достичь новых высот в задачах математики и кодирования. Многие в мире технологий считают, что модели рассуждения станут ключевым компонентом агентов ИИ, автономных систем, которые могут выполнять задачи в значительной степени без вмешательства человека. Однако эти модели также более дороги.

Google уже экспериментировала с моделями рассуждений AI, выпустив в декабре «думающую» версию Gemini. Но Gemini 2.5 представляет собой самую серьезную попытку компании превзойти серию моделей OpenAI o.

Google утверждает, что Gemini 2.5 Pro превосходит свои предыдущие передовые модели AI и некоторые из ведущих конкурирующих моделей AI по нескольким показателям. В частности, Google утверждает, что разработал Gemini 2.5, чтобы преуспеть в создании визуально привлекательных веб-приложений и приложений агентного кодирования.

По данным Google, в ходе оценки редактирования кода под названием Aider Polyglot Gemini 2.5 Pro набрал 68,6%, превзойдя ведущие модели AI от OpenAI, Anthropic и китайской лаборатории AI DeepSeek.

Однако в другом тесте, измеряющем возможности разработки программного обеспечения, SWE-bench Verified, Gemini 2.5 Pro набрал 63,8%, превзойдя OpenAI o3-mini и DeepSeek R1, но уступив Claude 3.7 Sonnet от Anthropic, который набрал 70,3%.

По данным Google, на последнем экзамене человечества, мультимодальном тесте, состоящем из тысяч вопросов, задаваемых краудсорсингом и относящихся к математике, гуманитарным и естественным наукам, Gemini 2.5 Pro набрал 18,8%, что выше, чем у большинства флагманских моделей конкурентов.

Для начала Google заявляет, что Gemini 2.5 Pro поставляется с контекстным окном в 1 миллион токенов, что означает, что модель AI может воспринимать около 750 000 слов за один раз. Это больше, чем вся серия книг «Властелин колец». И вскоре Gemini 2.5 Pro будет поддерживать двойную длину ввода (2 миллиона токенов).

Читайте так же: