ИИ-марафон: универсальный GPT против россыпи анонсов от Google

13:00
18 Мая 2024
161

13 мая OpenAI, а 14 мая Google провели яркие оффлайн-конференции, где анонсировали связанные с искусственным интеллектом продукты. Похоже, запуск от OpenAI произвёл гораздо больше впечатления, чем новинки Alphabet.

Главный ИИ-стартап мира представил новую модель GPT-4o, где «о», Omni означает «мультимодальный». 4o понимает входные данные в виде любой комбинации текста, видео, аудио и картинок и генерирует ответ из нужной комбинации всех этих форматов. Средняя скорость ответа на аудиозапрос, 320 милисекунд, соответствует скорости человеческих реплик в разговоре.

По сравнению с GPT-4 Turbo серьёзно улучшилась эффективность работы с другими, кроме английского, языками, работа с API стала значительно быстрее и в полтора раза дешевле. Сама модель для пользователей бесплатна и выглядит наиболее привлекательно в роли голосового помощника. В общении модель умеет проявлять эмоции, понимать сарказм, и тон речи, шутить и петь, её можно перебивать и останавливать без потери контекста.

Судя по приведённым в блоге OpenAI бенчмаркам, из конкурентов новая модель уступает, и то на уровне погрешности, только Claude 3 Opus от Anthropic в Multilingual Grade School Math (математика школьного уровня на разных языках). Она также уступает GPT-4T в DROP (Discrete Reasoning Over the content of Paragraphs, понимание текста и извлечение из него смысла).

На Google I/O 14 мая корпорация представила «Проект Астра»: «прототип, исследующий то, как универсальный ИИ-агент может быть по-настоящему полезен в повседневной жизни». Технология будет встроена в Поиск Google. Как и GPT-4o, Астра будет отличаться быстрыми ответами без задержек, пониманием интонаций и в целом ощущениями пользователя как от общения с живым собеседником.

Глава поиска Google Лиз Рейд показала, как будет выглядеть работа сервиса с новыми возможностями. Генеративный ИИ сам выберет всю полезную информацию из найденных сайтов, красиво её оформит для пользователя, покажет опции работы с ней и учтёт контекст поиска, который сам пользователь может и не упоминать (например, в тёплое время года при поиске ресторана сделает акцент на заведениях с террасой). С помощью ИИ обогатятся в первую очередь результаты поиска ресторанов, рецептов, кино, книг, отелей и магазинов. Рейд называет это «Гугл будет гуглить за вас».

Мероприятие Google подчеркнуло его ключевое отличие от OpenAI относительно разработки и внедрения искусственного интеллекта. У Google уже есть продукты с огромной аудиторией, которые можно дополнять возможностями нейросетей. OpenAI концентрируется на «большом продукте», очередной улучшенной по всем параметрам модели нового поколения.

Сундар Пичаи также рассказал о серии опенсорсных ИИ-моделей Gemma. Как продукт для разработчиков от Gemini они отличаются открытостью кода и информации о весах, использованных при обучении.

На конференции показали новые возможности Gemini Nano, которая будет работать в смартфонах Pixel со следующего года. В частности, модель будет слушать телефонные разговоры и сможет прямо посреди звонка предупредить о потенциальном мошенничестве. Похожую функциональность обещают голосовые ассистенты наших МТС, Сбербанка.

Ещё одна новинка — Gems, кастомизированные боты на Gemini для устройств на Android. «Вы можете установить себе кастомизированного ИИ-приятеля, который будет вашим тренером по бегу, йога-гуру или су-шефом».

Google AI Teammate — виртуальный коллега, которого можно добавить в рабочий чат, чтобы он запоминал все переписки, отвечал «на вопросы, которые вы не хотите задаватьт своему менеджеру», выполнял задачи по управлению делами и рабочим временем.

Veo — генератор видео, который должен превзойти Sora от OpenAI. С ним можно общаться с помощью профессиональной терминологии создателей киноконтента.

Был продемонстрирован пример возможностей ассистента «Проекта Астра»: сотрудница прогулялась по офису DeepMind в Лондоне со включённой видеотрансляцией, а потом спросила Астру, где она оставила очки. Астра ответила, что они лежат рядом с яблоком у неё на столе.

Кстати, о яблоках. Apple таки заключила ожидаемое соглашение с OpenAI об интеграции ИИ-технологий в iPhone. Видимо, купертиновцы не собираются в ближайшее время выходить в статусе равноправного игрока на рынок больших моделей собственного производства.

Ещё один звёздный стартап Anthropic, делающий акцент на разработке безопасного для человечества ИИ, попытался не остаться забытым на фоне этих масштабных анонсов и сообщил кадровую новость. Майк Кригер присоединился к компании в должности первого директора по продукту. Он будет курировать разработку, управление развитием и дизайн, решения для бизнеса, подписку и ПО.

Илья Суцкевер ушёл из OpenAI вместе с безопасным ИИ

Читайте так же:

IT-Weekly: остановлен проект корпусирования процессоров Baikal M; в РФ появится технологический сбор

Сооснователь и научный руководитель разработчика ChatGPT покинул компанию после 10 лет работы. Он написал об этом в X и пообещал в ближайшее время рассказать о новом очень важном для него проекте.

Его должность займет директор OpenAI по научным исследованиям Якуб Пахоцкий.

Из публичного поля Суцкевер пропал после скандала с уходом и возвращением Сэма Альтмана. WSJ писал, что Альтмана выдворили из компании именно по инициативе Суцкевера. Последний с возвращением Альтмана был исключён из совета директоров.

А 15 мая компанию покинул Ян Лейке, руководивший отделом разработки ИИ. Он входил в сотню самых влиятельных людей в этой области по версии Time. Лейке вместе с Суцкевером возглавлял команду Superalignment в OpenAI. Эта команда занималась безопасностью искусственного интеллекта и отвечала за его желание и возможность вредить людям. Примерно за месяц до этого OpenAI избавились от Уильяма Сондерса, Павла Измайлова и Леопольда Ашенбреннера, которые тоже работали над Superalignment. Двух последних обвинили в передаче на сторону служебной информации.

В русскоязычном технотелеграме ходят слухи, что Суцкевер «может вернуться на родину», «он ведет переговоры с одним из крупнейших банков России».

Lenovo и Motorola запретили продажи в Германии из-за патентного спора

Суд в Мюнхене принял решение в пользу компании InterDigital и запретил Lenovo и Motorola продавать в стране смартфоны, планшеты и другую технику с модулями WWAN, которые обеспечивают работу мобильного интернета. Апелляция и дальнейшие разбирательства последуют.

Эти модули реализованы с использованием запатентованной InterDigital технологии, но в Lenovo её не крали, а, по утверждению ответчика, не удовлетворили его пожелания по честным и разумным лицензионным отчислениям.

Конфликт коренится в концепции стандартно-существенных патентов (standard-essential patents). Они касаются критических технологий, обеспечивающих функционирование сетей передачи данных. Эти технологии должны быть доступны на справедливых, разумных и недискриминационных условиях, считает руководство Евросоюза. Поэтому суду предстоит выяснить, соответствует ли таковым потребованные InterDigital платежи за лицензирование своего патента.

Microsoft уличили в «краже» голосовой технологии

В американском Делавере суд согласился с тем, что Microsoft нарушила патент IPA Technologies при создании голосового помощника Cortana. Корпорация заплатит штраф в размере $242 млн.

IPA — подразделение патентно-лицензионной компании Wi-LAN, которой совместно владеют канадская Quarterhill и две инвестиционные фирмы. Она, в частности, владеет патентами, купленными у SRI International до того, как последнюю приобрела Apple. Apple использует её технологии в Siri.

При подаче иска в 2018 году IPA обвинила Microsoft в нарушении нескольких патентов, связанных с цифровыми ассистентами и голосовой навигацией по данным. Позже претензии ужались до одного патента; в Microsoft считают его недействительным. IPA также судилась за патенты с Amazon и проиграла в 2021 году, а также с Google, разбирательство пока продолжается.

Google опубликовала от своего имени первый патент разработчика умных очков

Появился в открытом доступе патент, приобретённый Google вместе с канадским разработчиком голографических умных очков North. Alphabet купил North за $180 млн в 2020 году, когда стартап смог продать незначительное количество своих очков Focals 1.0 и собирался разориться.

В 2023 году стало известно, что Google закрыл проект Iris, посвящённый умным очкам с дополненной реальностью. Пресса писала, что корпорация отказалась от идеи делать умные очки самостоятельно и ищет партнёра. Публикация патента может означать ренессанс интереса Alphabet к этому направлению и новый проект по разработке умной гарнитуры.

Читайте так же:

IT-Weekly: остановлен проект корпусирования процессоров Baikal M; в РФ появится технологический сбор

Патент US20240154379 посвящён «интегрированному лазерному блоку» для носимого на голове устройства. Он достаточно обще описывает системы и способы создания лазерных проекторов с оптическим двигателем, способных формировать голографическое изображение.

Способы реализации технологии тоже описываются разные, с одним или несколькими лазерными диодами, по-разному встроенными в корпус с разным расположением выходных окон. Оптический модуль занимает небольшую площадь, что уменьшает размеры устройства, и может гибко встраиваться в разные конструкции дисплеев.

Сократить площадь платы лазерного проектора удалось за счёт изменения подхода к контролю выходной мощности лазера.

Полезное от Онлайн Патент:

Как получить господдержку для IT-компании?
Какие выгоды можно получит от регистрации программы для ЭВМ?
Как защитить базу данных клиентов?
Не только айтишники: какие компании могут внести свои программы в Реестр отечественного ПО?
Руководство по товарным знакам в 2024 году.

Больше контента о сфере интеллектуальной собственности в нашем Telegram-канале

Материал опубликован при поддержке сайта habr.com

Читайте так же: