快科技3月7日新闻,日前美团技巧团队发布365bet亚洲体育对DeepSeek R1停止了INT8精器量化,让DeepSeek R1能够在如A100等老型号GPU长进行安排。据先容,DeepSeek R1宣布当前不少企业跟团体都在实验安排满血版本,但原生版皇冠足球app本的模子权重为FP8数据格局,对GPU芯片范例有严厉限度,仅能被英伟达新型GPU支撑(如Ada、Hopper架构芯片),其余型号GPU(如A100)无奈直接安排。固然能够将FP8权重反量化为BF16权重后,在A100等GPU长进行推理,然而这对显存的请求晋升了一倍,推理吞吐也会降落。为此美团搜寻跟推举平台部对DeepSeek R1模子停止了INT8精器量化实验,发皇冠app下载明应用INT8量化后模子精度基础无损。基于INT8量化,DeepSeek R1模子解锁了芯片限度,能够安排到A100等其余型号GPU;而且比拟BF16实现了50%的吞吐晋升,进一步下降了推理本钱。现在量化代码曾经宣布在了开源LLM推理框架SGLang上,量化模子曾经宣布到了Hugging Face社区:https://huggingface.co/meituan/DeepSeek-R1-Block-INT8https://huggingface.co/meituan/DeepSeek-R1-Channel-INT8对详细进程感兴致的,能够检查官方技巧讲演。【本文停止】如需转载请务必注明出处:快科技义务编纂:彩色