作者: Some-shine
作者简介: 要做的事,还有很多
描述: 由于Tesla K80的驱动最高只支持到CUDA11.4,导致其无法运行许多依赖新版CUDA环境的大模型推理框架。在Deepseek的帮助下,经过我一番“魔改“,最终成功在旧版CUDA环境下加载了DeepSeek-R1的1.5B蒸馏模型,但由于用于量化的Bitsandbytes环境不支持,因此只能以fp32单精度加载模型,显存消耗也翻倍了。不过RWKV模型是可以正常量化加载的。UP精力能力有限,希望以后能有大佬来解决其他模型的量化问题。另外,SD画图是可以正常运行的,而且出图比M60还要快一点!