[veRL] 从原理层面理解训练参数，PPO & GRPO，batch size，kl & entropy

作者: 五道口纳什

作者简介: 数学，计算机科学，现代人工智能。bridge the gap。

描述: 本期 code：https://github.com/chunhuizhang/llm_rl/blob/main/tutorials/infra/verl/verl_config_perf.ipynb

[veRL] 从原理层面理解训练参数，PPO & GRPO，batch size，kl & entropy

推荐视频

1. qwen2.5vl 基于llama factory实现DPO训练

1. qwen2.5vl 基于llama factory实现DPO训练

上传者: 小林绿子的怀中猫

deepseek-r1复现踩坑系列1: 多机多卡环境下GRPO训练32B大模型的框架对比

deepseek-r1复现踩坑系列1: 多机多卡环境下GRPO训练32B大模型的框架对比

上传者: 良睦路程序员

一个故事秒懂强化学习与GRPO！

一个故事秒懂强化学习与GRPO！

上传者: 懂点AI事儿

3. qwen2.5vl 实现GRPO训练

3. qwen2.5vl 实现GRPO训练

上传者: 小林绿子的怀中猫

我竟然半天就学会了强化学习（PPO、Q-learning、DQN、A3C）算法原理及实战玩转超级马里奥

我竟然半天就学会了强化学习（PPO、Q-learning、DQN、A3C）算法原理及实战玩转超级马里奥

上传者: 小北AI丶

有难度但必读的一篇论文《DeepSeekMath》

有难度但必读的一篇论文《DeepSeekMath》

上传者: LLM张老师

【大白话04】一文理清强化学习PPO和GRPO算法流程 | 原理图解

【大白话04】一文理清强化学习PPO和GRPO算法流程 | 原理图解

上传者: 吃花椒的麦

1. 从零部署Qwen3

上传者: 小林绿子的怀中猫

1.qwen2.5vl源码讲解 process_vision_info

1.qwen2.5vl源码讲解 process_vision_info

上传者: 小林绿子的怀中猫

西交|深度学习研讨班-6|从VAE到Diffusion和ScoreMatching再统一为SDE

西交|深度学习研讨班-6|从VAE到Diffusion和ScoreMatching再统一为SDE

上传者: _SmartPig_

浅谈当下多模态大模型普遍OCR和Grounding任务的意义和我们应该怎么使用看待（以Qwen2.5VL为例）

浅谈当下多模态大模型普遍OCR和Grounding任务的意义和我们应该怎么使用看待（以Qwen2.5VL为例）

上传者: 小林绿子的怀中猫

1.从零部署qwen2.5-VL-Instruct模型

1.从零部署qwen2.5-VL-Instruct模型

上传者: 小林绿子的怀中猫

从原理到代码，带你掌握DeepSeek GRPO！

从原理到代码，带你掌握DeepSeek GRPO！

上传者: 懂点AI事儿

零基础学习强化学习算法：ppo

零基础学习强化学习算法：ppo

上传者: RethinkFun

Lec14：强化学习PPO原理与推导

Lec14：强化学习PPO原理与推导

上传者: CLEAR_LAB

全网最通俗讲解：Tensor 并行和 Pipeline 并行原来这么简单！

全网最通俗讲解：Tensor 并行和 Pipeline 并行原来这么简单！

上传者: 懂点AI事儿

图解大模型的KV Cache——图解+transformers源码阅读

图解大模型的KV Cache——图解+transformers源码阅读

上传者: 良睦路程序员

练习两天半，从零实现DeepSeek-R1（基于Qwen2.5-0.5B和规则奖励模型，GRPO），从原理讲解到代码实现，解开DeepSeek-R1的神秘面纱

练习两天半，从零实现DeepSeek-R1（基于Qwen2.5-0.5B和规则奖励模型，GRPO），从原理讲解到代码实现，解开DeepSeek-R1的神秘面纱

上传者: 偷星九月333

DeepSeek-GRPO

上传者: RethinkFun

2. qwen2.5vl基于原生transformers实现DPO训练

2. qwen2.5vl基于原生transformers实现DPO训练

上传者: 小林绿子的怀中猫

图解deepseek的grpo原理、以debug形式阅读grpo的源码

图解deepseek的grpo原理、以debug形式阅读grpo的源码

上传者: 良睦路程序员

1.CLIP模型简介和环境准备

1.CLIP模型简介和环境准备

上传者: 小林绿子的怀中猫

[LLM+RL] 理解 GRPO 公式原理及 TRL GrpoTrainer 代码实现（advantage 与 loss 计算）

[LLM+RL] 理解 GRPO 公式原理及 TRL GrpoTrainer 代码实现（advantage 与 loss 计算）

上传者: 五道口纳什

强化学习超级马里奥（stablebaseline3框架gym游戏包）

强化学习超级马里奥（stablebaseline3框架gym游戏包）

上传者: 定灭

近端策略优化（PPO）算法

上传者: 蒋一讲AI

一个适合入门强化学习的项目代码讲解

一个适合入门强化学习的项目代码讲解

上传者: 哔__哔_哔___

【王树森】深度强化学习(DRL)

【王树森】深度强化学习(DRL)

上传者: Ruanpee

PPO的直观解释（没有公式

上传者: 哔__哔_哔___

【大白话03】一文理清强化学习RL基本原理 | 原理图解+公式推导

【大白话03】一文理清强化学习RL基本原理 | 原理图解+公式推导

上传者: 吃花椒的麦

练习两周半，完全从零开始实现GRPO算法(不依赖第三方RL框架，并在Qwen2.5-1.5B上训练测试)，从原理到代码讲解，流程清晰，简单易懂

练习两周半，完全从零开始实现GRPO算法(不依赖第三方RL框架，并在Qwen2.5-1.5B上训练测试)，从原理到代码讲解，流程清晰，简单易懂

上传者: 偷星九月333

MyGO - 南京大学软工三 RAG/Prompt 评估平台

MyGO - 南京大学软工三 RAG/Prompt 评估平台

上传者: 天河-TheGalaxy

3. vllm部署Qwen3 （多卡，单卡，openai，openwebui）

3. vllm部署Qwen3 （多卡，单卡，openai，openwebui）

上传者: 小林绿子的怀中猫

网络训练中的DP与Distributed DP有什么区别？

网络训练中的DP与Distributed DP有什么区别？

上传者: 懂点AI事儿

【大模型部署】llama.cpp源码逐行调试带读！（已完结~）

【大模型部署】llama.cpp源码逐行调试带读！（已完结~）

上传者: 比飞鸟贵重的多_HKL

1 从零部署Qwen2.5 Omni （涵盖官网介绍，benchimark分析，多种模态的测评和使用，以及个人评价）

1 从零部署Qwen2.5 Omni （涵盖官网介绍，benchimark分析，多种模态的测评和使用，以及个人评价）

上传者: 小林绿子的怀中猫

多智能体强化学习自我改进，吊打现有方法！

多智能体强化学习自我改进，吊打现有方法！

上传者: 真AI至上

VIT （Vision Transformer）深度讲解

VIT （Vision Transformer）深度讲解

上传者: RethinkFun

【12】LoRA、QLoRA 讲解

【12】LoRA、QLoRA 讲解

上传者: LLM张老师

DeepSeek-MOE原理讲解

DeepSeek-MOE原理讲解

上传者: RethinkFun

全网最细！DeepSeekMoE：从算法原理到代码实现

全网最细！DeepSeekMoE：从算法原理到代码实现

上传者: 懂点AI事儿