练习两天半,完全从零开始实现DeepSeek-V3的MTP(魔改Qwen2.5-0.5B),从原理到代码实现,让你明白为什么DeepSeek快的飞起

作者: 偷星九月333

作者简介: 两耳不闻窗外事,一心只搞大模型

描述: 通过魔改qwen2.5-0.5b实现deepseek-v3的多token预测,添加mtp头,将多token预测加入训练过程使得模型具有同时预测多个token的能力,并使用主模型对mtp头生成的token进行验证。 从数据、原理、代码实现全流程,你肯定学得会。

练习两天半,完全从零开始实现DeepSeek-V3的MTP(魔改Qwen2.5-0.5B),从原理到代码实现,让你明白为什么DeepSeek快的飞起

推荐视频