[veRL] 从原理层面理解训练参数,PPO & GRPO,batch size,kl & entropy

作者: 五道口纳什

作者简介: 数学,计算机科学,现代人工智能。bridge the gap。

描述: 本期 code:https://github.com/chunhuizhang/llm_rl/blob/main/tutorials/infra/verl/verl_config_perf.ipynb

[veRL] 从原理层面理解训练参数,PPO & GRPO,batch size,kl & entropy

推荐视频

1. qwen2.5vl 基于llama factory实现DPO训练

1. qwen2.5vl 基于llama factory实现DPO训练

上传者: 小林绿子的怀中猫

3. qwen2.5vl 实现GRPO训练

3. qwen2.5vl 实现GRPO训练

上传者: 小林绿子的怀中猫

1. 从零部署Qwen3

1. 从零部署Qwen3

上传者: 小林绿子的怀中猫

1.qwen2.5vl源码讲解 process_vision_info

1.qwen2.5vl源码讲解 process_vision_info

上传者: 小林绿子的怀中猫

1.从零部署qwen2.5-VL-Instruct模型

1.从零部署qwen2.5-VL-Instruct模型

上传者: 小林绿子的怀中猫

DeepSeek-GRPO

DeepSeek-GRPO

上传者: RethinkFun

1.CLIP模型简介和环境准备

1.CLIP模型简介和环境准备

上传者: 小林绿子的怀中猫

PPO的直观解释(没有公式

PPO的直观解释(没有公式

上传者: 哔__哔_哔___

【12】LoRA、QLoRA 讲解

【12】LoRA、QLoRA 讲解

上传者: LLM张老师

DeepSeek-MOE原理讲解

DeepSeek-MOE原理讲解

上传者: RethinkFun