作者: LLM张老师
作者简介: https://www.waylandz.com 多伦多大学 07 计算机科学
描述: DeepSeek-R1-Zero 是亮点。DeepSeek-R1的训练过程: 1)SFT——2)RL——3)SFT——4)RL
上传者: LLM张老师
上传者: 跟李沐学AI
上传者: 五道口纳什
上传者: 直男山禾
上传者: 房东_bili
上传者: 糖果果的未来要发光
上传者: 尚硅谷
上传者: HiJeff数字孪生数学优化
上传者: 毛玉仁
上传者: 北京数由科技
上传者: 卢菁老师_北大AI博士后
上传者: 北大AI对齐小组
上传者: 李宏毅大模型
上传者: DeepSeek教程-
上传者: DeepFinder
上传者: 酸果酿
上传者: MindSpore官方
上传者: 马克的技术工作坊
上传者: code秘密花园
上传者: 真格和Ta的朋友们
上传者: AI_Julie
上传者: 紫陌洛西
上传者: ZOMI酱
上传者: 码士集团-马小娇
上传者: 数字游牧人
上传者: NathMath
上传者: 贞仔的AI日记
上传者: 赤川鹤鸣_Channel
上传者: youligrous
上传者: 偷星九月333
上传者: 吴恩达大模型
上传者: AI论文
上传者: 小鱼儿at青岛
上传者: freeCodeCamp