Deepseek показывает пример: как создать мощный AI с минимальными затратами

00:37
26 Января 2025
259

В последние недели китайский стартап AI Deepseek показал, что передовые разработки AI не требуют огромных бюджетов, что оказывает давление на существующие лаборатории AI. Генеральный директор Meta Марк Цукерберг удваивает инвестиции в AI.

Последняя модель Deepseek показывает, насколько эффективной может быть разработка AI. Их языковая модель Deepseek-V3 работает наравне с ведущими мировыми системами AI, но ее обучение обошлось всего в 5,6 млн долларов — ничтожная доля того, что обычно тратят крупные компании.

Deepseek-V3 потребовалось всего 2,78 миллиона часов GPU-обучения, в то время как меньшей модели Llama-3 от Meta* (с 405 миллиардами параметров) потребовалось примерно в одиннадцать раз больше. Затем компания выпустила Deepseek-R1 , модель рассуждений, которая соответствует o1 от OpenAI — то, что Meta* еще даже не выпустила.

Недавно Цукерберг вышел на Facebook , чтобы рассказать об ответе своей компании. В 2025 году Meta планирует разработать помощника AI, который сможет обслуживать более миллиарда человек, модернизировать Llama 4, чтобы он мог конкурировать с лучшими доступными моделями, и создать «инженера AI», который поможет в исследованиях и разработках. «Это будет определяющий год для AI», — написал Цукерберг.

Для достижения этих целей Meta строит огромный центр обработки данных, который будет потреблять более двух гигаватт энергии. Компания планирует вывести в сеть около одного гигаватта вычислительной мощности и более 1,3 миллиона графических процессоров только в 2025 году, подкрепленный инвестициями в размере 60-65 миллиардов долларов и значительным расширением команды.

Главный исследователь AI компании Meta Ян Лекун рассматривает успех Deepseek как победу открытого исходного кода, а не как признак доминирования Китая. Он отмечает, что Deepseek основывался на общедоступных исследованиях и извлекал из них выгоду, но также вносил новые идеи, которые могут использовать другие.

«В этом сила открытых исследований и открытого исходного кода», — говорит Лекун. Он похвалил их модель V3 как «превосходную», когда она была запущена в конце 2024 года.

Согласно анонимному посту на Teamblind , на форуме для проверенных сотрудников Big Tech, отдел искусственного интеллекта Meta испытывает давление. В посте утверждается, что Deepseek-V3 уже превзошел невыпущенный Llama-4 Meta в тестах, что вызывает опасения по поводу высоких операционных расходов отдела, когда относительно неизвестная китайская компания может достичь лучших результатов при таком ограниченном бюджете, указывая на то, что зарплата одного руководителя отдела превышает весь бюджет Deepseek на обучение. Модель рассуждений R1 Deepseek вызывает еще больше головной боли у команды.

В посте говорится, что инженеры Meta лихорадочно работают над анализом и внедрением технологии Deepseek. В нем критикуется, как подразделение AI Meta, изначально задуманное как небольшое и технически сфокусированное, раздулось, поскольку сотрудники поспешили присоединиться к тренду AI.

Время публичных заявлений Цукерберга и Лекуна, появившихся почти одновременно, говорит о том, что они решили внутри компании косвенно отреагировать на эти слухи и вызванные ими обсуждения в социальных сетях.

Meta* и ее продукты (Facebook, Instagram) запрещены на территории Российской Федерации

Источник

Материал опубликован при поддержке сайта habr.com

Читайте так же: