完整版DeepSeek-R1 671b本地部署速度瓶颈深度剖析

作者: parodic

作者简介:

描述: 我在进行DeepSeek-R1的不同蒸馏量化版本，以及包含671b参数的Q4量化版本和1.58，2.22bit动态量化版本的本地部署的尝试，完全使用CPU而非GPU来进行不同参数数量的模型的本地推理。在此过程中发现，利用CPU进行LLM部署和推理的限速瓶颈在于系统内存带宽。即便使用了具有12通道内存的EPYC 9B14 CPU，也存在明显的内存带宽瓶颈，导致CPU线程数在32以上时，token输出速度就趋于饱和，与单线程相比，32线程时的加速比不到0.15，更高的线程数甚至会降低输出速度。这表明现有的CPU硬件和算法无法在LLM本地部署过程中有效利用CPU的运算能力。

完整版DeepSeek-R1 671b本地部署速度瓶颈深度剖析

推荐视频

7300元，9tokens/s 极具性价比的KT本地部署671B q2 deepseek

7300元，9tokens/s 极具性价比的KT本地部署671B q2 deepseek

上传者: 是我胡须

低成本本地部署DeepSeek 671b Q4方案双路至强金牌6138

低成本本地部署DeepSeek 671b Q4方案双路至强金牌6138

上传者: 百叶凌凤

7280元的DeepSeek 671BQ4配置单【4Token每秒】

7280元的DeepSeek 671BQ4配置单【4Token每秒】

上传者: Harland_Li

每秒10.8Tonkens,本地DeepSeek 671b q4

每秒10.8Tonkens,本地DeepSeek 671b q4

上传者: 爱跳绳的乃龙

【纯cpu方案】本地部署deepseek-r1-671b-q8速度初测

【纯cpu方案】本地部署deepseek-r1-671b-q8速度初测

上传者: 盛夏听雨若初见

双路E5 v2 deepseek 671b 2.51bit 部署实测

双路E5 v2 deepseek 671b 2.51bit 部署实测

上传者: remondest

MacMiniM4运行deepseek-r1 能够达到如此效率我要这3090又有何用？

MacMiniM4运行deepseek-r1 能够达到如此效率我要这3090又有何用？

上传者: HyAiot

别本地部署了，deepseek+知识库一个软件搞定

别本地部署了，deepseek+知识库一个软件搞定

上传者: 夏唯轩78

7900xtx 24G本地部署Deepseek R1 70b 实际体验

7900xtx 24G本地部署Deepseek R1 70b 实际体验

上传者: 公孙懿熯

本地部署DeepSeek R1 671B最高性价比方案

本地部署DeepSeek R1 671B最高性价比方案

上传者: DeepSeek使用

垃圾佬配置部署deepseek-r1:671b-q1.58bit，优化提速效果

垃圾佬配置部署deepseek-r1:671b-q1.58bit，优化提速效果

上传者: remondest

deepseek-r1:671b-q1.58bit 洋垃圾+矿卡实测

deepseek-r1:671b-q1.58bit 洋垃圾+矿卡实测

上传者: remondest

Deepseek R1 671 本地 #ai 即将运行！

Deepseek R1 671 本地 #ai 即将运行！

上传者: Meta-XXX

1.58bit量化671B的DeepSeekR1模型，在CPU上缓慢推理或者2x H100 80GB

1.58bit量化671B的DeepSeekR1模型，在CPU上缓慢推理或者2x H100 80GB

上传者: Deng_Xian_Sheng

低成本主机（两张Tesla T10）玩转Deepseek r1 70b本地部署

低成本主机（两张Tesla T10）玩转Deepseek r1 70b本地部署

上传者: Cypid

在双路E5 2698V3上推理Deepseek R1 70B的表现

在双路E5 2698V3上推理Deepseek R1 70B的表现

上传者: 御坂10297号

128g大内存搭配e5洋垃圾cpu硬跑本地deepseek 14b和32b会怎样？

128g大内存搭配e5洋垃圾cpu硬跑本地deepseek 14b和32b会怎样？

上传者: 玻色雪风

DeepSeek 671b 1.58b 万元级硬件低成本本地部署，9950X 192G

DeepSeek 671b 1.58b 万元级硬件低成本本地部署，9950X 192G

上传者: parodic

「8卡A800」本地部署满血版deepseek-r1:671B 速度实测

「8卡A800」本地部署满血版deepseek-r1:671B 速度实测

上传者: 是阿尼亚酱呀

给大家分享一下本地部署DeepSeek R1:32B的爽感，越用越爽

给大家分享一下本地部署DeepSeek R1:32B的爽感，越用越爽

上传者: 鸿蒙钊哥小号

本地部署DeekSeek-14b以上才有点智商，满血版YYDS，70b也犯晕

本地部署DeekSeek-14b以上才有点智商，满血版YYDS，70b也犯晕

上传者: 贝先生艺术坊

deepseek本地部署，纯属花钱找罪受！

deepseek本地部署，纯属花钱找罪受！

上传者: 大锤带你玩转AI

Ktransformers DeepSeek-R1-671B简单测评

Ktransformers DeepSeek-R1-671B简单测评

上传者: 懒熊游记

RTX 4060 8G 和32G内存运行 DeepSeek R1 32b模型是什么效果？

RTX 4060 8G 和32G内存运行 DeepSeek R1 32b模型是什么效果？

上传者: 二哈是个拆家能手

魔改版2080Ti的PC和Mac M4 48G，比比哪个跑DeepSeek 70B更流畅

魔改版2080Ti的PC和Mac M4 48G，比比哪个跑DeepSeek 70B更流畅

上传者: Flywhc

成功复现！2500预算本地部署DeepSeekR1-671B模型

成功复现！2500预算本地部署DeepSeekR1-671B模型

上传者: Some-shine

Deepseek本地部署14b、32b、70b简单横评

Deepseek本地部署14b、32b、70b简单横评

上传者: 玻色雪风

「512GB内存」本地部署完整版deepseek-R1:671B

「512GB内存」本地部署完整版deepseek-R1:671B

上传者: 怎么这么文明

基于vLLM本地部署生产级DeepSeek r1 32B模型实践

基于vLLM本地部署生产级DeepSeek r1 32B模型实践

上传者: 老吴聊技术

intel核显部署deepseek 32b 70b 14b实测，纯核显推理cpu下班

intel核显部署deepseek 32b 70b 14b实测，纯核显推理cpu下班

上传者: 散草

部署满血Deepseek，显存不够？本地部署必看：秒懂硬件配置和模型参数的关系！

部署满血Deepseek，显存不够？本地部署必看：秒懂硬件配置和模型参数的关系！

上传者: AI学长小林

这可能是全网能用上满血Deepseek R1的最优解了

这可能是全网能用上满血Deepseek R1的最优解了

上传者: 老麦的工具库

当你强制deepseek深度思考

当你强制deepseek深度思考

上传者: 小小小多_

本地部署 Deepseek r1 671b 低成本流畅运行！！！！！

本地部署 Deepseek r1 671b 低成本流畅运行！！！！！

上传者: 我才是真的星辰

DeepSeek的使用感受：一本正经的胡说八道，幻觉率太高了，AI还有很长的路要走

DeepSeek的使用感受：一本正经的胡说八道，幻觉率太高了，AI还有很长的路要走

上传者: 龙姐姐爱叨叨

DeepSeek R1 14b vs 32b简单问题对决

DeepSeek R1 14b vs 32b简单问题对决

上传者: 清和晨曦

全网首发！128G运存Mac运行deepseek 70b模型，竟发现BUG

全网首发！128G运存Mac运行deepseek 70b模型，竟发现BUG

上传者: 时雨的说

国产适配ollama 华为升腾910b*8运行deepseek-r1 671b

国产适配ollama 华为升腾910b*8运行deepseek-r1 671b

上传者: AI4BIO研究所

4090+64g内存本地运行deepseek r1 671b 1.58-bit 模型速度演示

4090+64g内存本地运行deepseek r1 671b 1.58-bit 模型速度演示

上传者: QWQ爆炸豆

双卡2080Ti22G完美跑DeepSeekR1:70B 附部署教程

双卡2080Ti22G完美跑DeepSeekR1:70B 附部署教程

上传者: 中国之神话