19:41, 24 августа 2025

DeepSeek-V3.1 теперь можно запускать локально

Unsloth сделали то, что еще год назад казалось невозможным — ужали модель весом 715 ГБ до 170 ГБ, почти без потерь в качестве.
Они использовали динамическую квантовку: важные слои остаются в 6–8 бит, а менее критичные ужимаются до меньшей разрядности. При этом для калибровки брали 2–3 миллиона токенов хороших данных

Читать на сайте

В итоге получились динамические 1-бит GGUF, которые запускаются на обычном «железе» с 170 ГБ RAM. Есть даже однофайловая сборка TQ1_0 — удобно для Ollama.

Параметры по умолчанию:

Пример запуска:

ollama run hf.co/unsloth/DeepSeek-V3.1-GGUF:TQ1_0 --temp 0.6 --top_p 0.95 --jinja

моё мнение

Круто, что они пошли по пути умной квантовки, а не просто «урезать всё подряд». Так модель не теряет ключевые навыки.
Я думаю, что в будущем можно пойти еще дальше:

Еще год назад 1.5B казались игрушкой, а теперь реально можно собрать рабочий стек из кучи небольших моделей, каждая из которых делает своё дело лучше, чем один «монстр».

И да — приятно, что теперь запустить самую большую опенсорс-модель локально можно без серверной фермы.

Обсудить