读R1的训练过程《DeepSeek-R1》论文导读

作者: LLM张老师

作者简介: https://www.waylandz.com 多伦多大学 07 计算机科学

描述: DeepSeek-R1-Zero 是亮点。DeepSeek-R1的训练过程： 1)SFT——2)RL——3)SFT——4)RL

读R1的训练过程《DeepSeek-R1》论文导读

推荐视频

有难度但必读的一篇论文《DeepSeekMath》

有难度但必读的一篇论文《DeepSeekMath》

上传者: LLM张老师

Transformer论文逐段精读【论文精读】

Transformer论文逐段精读【论文精读】

上传者: 跟李沐学AI

[LLM+RL] R1 论文导读，SFT vs. RL，RL 基础以及 GRPO 细节，以及一系列复现工作讨论

[LLM+RL] R1 论文导读，SFT vs. RL，RL 基础以及 GRPO 细节，以及一系列复现工作讨论

上传者: 五道口纳什

必看！DeepSeek从入门到精通！这11个高阶技巧，让你的效率提升10倍

必看！DeepSeek从入门到精通！这11个高阶技巧，让你的效率提升10倍

上传者: 直男山禾

【带读AI经典论文|100篇】世界顶级大佬带你逐句阅读最重要的100篇AI论文

【带读AI经典论文|100篇】世界顶级大佬带你逐句阅读最重要的100篇AI论文

上传者: 房东_bili

AI写论文避坑指南！不惧查重｜全网最全DeepSeek科研应用：手把手教你高效科研！

AI写论文避坑指南！不惧查重｜全网最全DeepSeek科研应用：手把手教你高效科研！

上传者: 糖果果的未来要发光

尚硅谷DeepSeek使用教程，deepseek本地部署实战，DeepSeek R1&V3一套统统搞定

尚硅谷DeepSeek使用教程，deepseek本地部署实战，DeepSeek R1&V3一套统统搞定

上传者: 尚硅谷

DeepSeek-V3 技术报告的细节解读

DeepSeek-V3 技术报告的细节解读

上传者: HiJeff数字孪生数学优化

【浙江大学-大模型原理与技术】1-0 序言

【浙江大学-大模型原理与技术】1-0 序言

上传者: 毛玉仁

本地数据库+Deepseek+Text2SQL

本地数据库+Deepseek+Text2SQL

上传者: 北京数由科技

【AI大模型与强化学习】大模型DeepSeek R1训练全流程流程详解！GRPO算法原理详解;强化学习赋能大模型本质是什么!大模型课程大模型蒸馏人工智能课程

【AI大模型与强化学习】大模型DeepSeek R1训练全流程流程详解！GRPO算法原理详解;强化学习赋能大模型本质是什么!大模型课程大模型蒸馏人工智能课程

上传者: 卢菁老师_北大AI博士后

$DeepSeek-R1 \ Kimi 1.5 及类强推理模型开发解读$

DeepSeek-R1 \ Kimi 1.5 及类强推理模型开发解读

上传者: 北大AI对齐小组

【李宏毅】2024年公认最好的【LLM大模型】教程！大模型入门到进阶，一套全解决！2024生成式人工智慧-附带课件代码

【李宏毅】2024年公认最好的【LLM大模型】教程！大模型入门到进阶，一套全解决！2024生成式人工智慧-附带课件代码

上传者: 李宏毅大模型

【DeepSeek教程】清华大学带你从入门到精通，全程干货无废话！少走99%的弯路！存下吧！很难找全的！

【DeepSeek教程】清华大学带你从入门到精通，全程干货无废话！少走99%的弯路！存下吧！很难找全的！

上传者: DeepSeek教程-

[LLM + RL] kimi 1.5 论文导读与 highlights

[LLM + RL] kimi 1.5 论文导读与 highlights

上传者: 五道口纳什

Deepseek系列论文解读1【Deepseek-V3】【Deepseek-R1】

Deepseek系列论文解读1【Deepseek-V3】【Deepseek-R1】

上传者: DeepFinder

[论文精读] Deepseek r1 (prepare) - RLHF & PPO & GRPO

[论文精读] Deepseek r1 (prepare) - RLHF & PPO & GRPO

上传者: 酸果酿

第二十课：MoE

上传者: MindSpore官方

使用 DeepSeek-R1 与 AnythingLLM 搭建本地知识库

使用 DeepSeek-R1 与 AnythingLLM 搭建本地知识库

上传者: 马克的技术工作坊

如何把你的 DeePseek-R1 微调为某个领域的专家？（理论篇）

如何把你的 DeePseek-R1 微调为某个领域的专家？（理论篇）

上传者: code秘密花园

[论文精读] Deepseek R1 Zero & R1

[论文精读] Deepseek R1 Zero & R1

上传者: 酸果酿

【深度干货】手把手带你解读DeepSeek R1 技术报告

【深度干货】手把手带你解读DeepSeek R1 技术报告

上传者: 真格和Ta的朋友们

deepseek R1 微调 finetune 小白教程

deepseek R1 微调 finetune 小白教程

上传者: AI_Julie

DeepSeek-R1核心算法GRPO讲解-从强化学习0基础->PPO->GRPO

DeepSeek-R1核心算法GRPO讲解-从强化学习0基础->PPO->GRPO

上传者: 紫陌洛西

DeepSeek-R1深度解读，大模型+强化学习重挫英伟达！

DeepSeek-R1深度解读，大模型+强化学习重挫英伟达！

上传者: ZOMI酱

DeepSeek-AI大模型（LLM+RAG+Langchain+国产大模型ChatGLM-4+NLP新模型）学完即就业!拿走不谢，学不会我退出IT圈（马士兵）

DeepSeek-AI大模型（LLM+RAG+Langchain+国产大模型ChatGLM-4+NLP新模型）学完即就业!拿走不谢，学不会我退出IT圈（马士兵）

上传者: 码士集团-马小娇

一口气学会使用DeepSeek，甚至给55岁的我妈用上了！

一口气学会使用DeepSeek，甚至给55岁的我妈用上了！

上传者: 数字游牧人

DeepSeek R1 推理模型一键包完全本地部署保姆级教程断网运行无惧隐私威胁大语言模型推理时调参 CPU GPU 混合推理 32B 轻松本地部署

DeepSeek R1 推理模型一键包完全本地部署保姆级教程断网运行无惧隐私威胁大语言模型推理时调参 CPU GPU 混合推理 32B 轻松本地部署

上传者: NathMath

新手不要用Ollama做Deepseek本地部署

新手不要用Ollama做Deepseek本地部署

上传者: 贞仔的AI日记

十分钟揭秘DeepSeek原理，通俗易懂的大语言模型科普！

十分钟揭秘DeepSeek原理，通俗易懂的大语言模型科普！

上传者: 赤川鹤鸣_Channel

DeepSeek-V3 技术报告

DeepSeek-V3 技术报告

上传者: youligrous

练习两分半，使用DeepSeek-R1蒸馏训练自己的本地小模型（Qwen2.5-0.5B），原理流程全讲解，模型数据全给你

练习两分半，使用DeepSeek-R1蒸馏训练自己的本地小模型（Qwen2.5-0.5B），原理流程全讲解，模型数据全给你

上传者: 偷星九月333

(超爽中英!) 2024公认最全的【吴恩达大模型LLM】系列教程！附代码_LangChain_微调ChatGPT提示词_RAG模型应用_agent_生成式AI

(超爽中英!) 2024公认最全的【吴恩达大模型LLM】系列教程！附代码_LangChain_微调ChatGPT提示词_RAG模型应用_agent_生成式AI

上传者: 吴恩达大模型

DeepSeek-R1 解读

上传者: youligrous

简单2步教你一键把DeepSeek-R1接入Word，丝滑不卡顿，2025最新办公神器，好用到飞起！

简单2步教你一键把DeepSeek-R1接入Word，丝滑不卡顿，2025最新办公神器，好用到飞起！

上传者: AI论文

【走进RL强化学习】奖励模型Reward Model训练

【走进RL强化学习】奖励模型Reward Model训练

上传者: 小鱼儿at青岛

练习两天半，从零实现DeepSeek-R1（基于Qwen2.5-0.5B和规则奖励模型，GRPO），从原理讲解到代码实现，解开DeepSeek-R1的神秘面纱

练习两天半，从零实现DeepSeek-R1（基于Qwen2.5-0.5B和规则奖励模型，GRPO），从原理讲解到代码实现，解开DeepSeek-R1的神秘面纱

上传者: 偷星九月333

DeepSeek V3深度解读，炸开美国资本市场，10/1算力训练大模型！

DeepSeek V3深度解读，炸开美国资本市场，10/1算力训练大模型！

上传者: ZOMI酱

DeepSeek-R1 课程

上传者: freeCodeCamp

上手代码复现DeepSeek-R1强化学习训练演示

上手代码复现DeepSeek-R1强化学习训练演示

上传者: LLM张老师