Stanford предложил, как сделать искусственный интеллект быстрее и дешевле
Исследователи Stanford оптимизировали запуск языковых моделей на GPU: они предложили запускать весь прямой проход в одном ядре вместо привычных сотен. Это решение уже дало прирост производительности и снизило расходы на оборудование для Llama-1B и других моделей. Как это устроено разбирается IT-World.
Подробнее