92.RL专题：强化学习中策略梯度的理解

作者: 文言AI

作者简介:

描述: 19.在强化学习中，当选择用策略梯度最大化期望奖励时，应该使用什么方法？ 20.怎么理解策略梯度的公式呢？

92.RL专题：强化学习中策略梯度的理解

推荐视频

“作品设计介绍”类应用文不会写？高分应用文“思维工具”大公开第二弹！告别“无话可说”丨应用文写作必看！

“作品设计介绍”类应用文不会写？高分应用文“思维工具”大公开第二弹！告别“无话可说”丨应用文写作必看！

上传者: 一英儿

【高中物理】机车启动没思路？两个公式解决所有题目！

【高中物理】机车启动没思路？两个公式解决所有题目！

上传者: 一物儿

为啥杨立昆不看好强化学习？原因是这个。

为啥杨立昆不看好强化学习？原因是这个。

上传者: 智东西

嚯、好有杀伤力的一篇七选五！丨福建质检

嚯、好有杀伤力的一篇七选五！丨福建质检

上传者: 一英儿

8年前韩国团队做的demo，和今天的人形机器人公司show的demo也没太大区别，可能把算法换成强化学习或者大模型

8年前韩国团队做的demo，和今天的人形机器人公司show的demo也没太大区别，可能把算法换成强化学习或者大模型

上传者: 布噜布噜你的头

狠狠打脸DeepSeek原文！Transformer首席喊话：大模型反思要P强化学习啊？

狠狠打脸DeepSeek原文！Transformer首席喊话：大模型反思要P强化学习啊？

上传者: 玩AI的秋名山车神

感觉很吃力

上传者: 爱吃炒煤的Zion

67.DeepSeek专题：怎么理解MTP？

67.DeepSeek专题：怎么理解MTP？

上传者: 文言AI

66.DeepSeek专题：Dynamic Tanh (DyT) 和之前的方法相比有哪些优化？

66.DeepSeek专题：Dynamic Tanh (DyT) 和之前的方法相比有哪些优化？

上传者: 文言AI

AI教父辛顿开喷RLHP8：它就是坨垃圾

AI教父辛顿开喷RLHP8：它就是坨垃圾

上传者: 智东西

一种基于强化学习的摔倒之旅

上传者: 一只wwy

60.DeepSeek专题：什么是GRPO？

60.DeepSeek专题：什么是GRPO？

上传者: 文言AI

65.DeepSeek专题：RMS Norm 相比于 Layer Norm 有什么特点？

65.DeepSeek专题：RMS Norm 相比于 Layer Norm 有什么特点？

上传者: 文言AI

75.RL专题：什么是强化学习？

75.RL专题：什么是强化学习？

上传者: 文言AI

64.DeepSeek专题：Batch Norm 和 Layer Norm 的区别

64.DeepSeek专题：Batch Norm 和 Layer Norm 的区别

上传者: 文言AI

小派的RL(humanoid_gym)基础控制

小派的RL(humanoid_gym)基础控制

上传者: 四脚包包

LLM基础常见面试题（十） -- RAG专题

LLM基础常见面试题（十） -- RAG专题

上传者: 文言AI

61.DeepSeek专题：MLA有什么作用

61.DeepSeek专题：MLA有什么作用

上传者: 文言AI

59.DeepSeek专题：MOE 负载不均衡怎么解决？

59.DeepSeek专题：MOE 负载不均衡怎么解决？

上传者: 文言AI

71.DeepSeek专题：其蒸馏是怎么实现的？

71.DeepSeek专题：其蒸馏是怎么实现的？

上传者: 文言AI

DeepSeek的攻击力真的是强得没边了！！！哈哈哈笑喷了

DeepSeek的攻击力真的是强得没边了！！！哈哈哈笑喷了

上传者: 老鸽子从不鸽

实测抗扰，小派：就这？

上传者: 高擎机电

LLM基础常见面试题（二十） -- 知识蒸馏专题

LLM基础常见面试题（二十） -- 知识蒸馏专题

上传者: 文言AI

3.人工智能的发展历程

上传者: 文言AI

78.RL专题：强化学习常见分

78.RL专题：强化学习常见分

上传者: 文言AI

72.DeepSeek专题：DS蒸馏中一些小细节

72.DeepSeek专题：DS蒸馏中一些小细节

上传者: 文言AI

96.什么是重要性采样呢？

上传者: 文言AI

81.RL专题：什么是贝尔曼方程，手推下贝尔曼方程

81.RL专题：什么是贝尔曼方程，手推下贝尔曼方程

上传者: 文言AI

LLM常见面试题（三十八） -- 微调专题

LLM常见面试题（三十八） -- 微调专题

上传者: 文言AI

十个变态AI组合神器，第三期。

十个变态AI组合神器，第三期。

上传者: 一木的AI工具库

强化学习+多目标优化，get到这种思路，发一区TOP就不远了！-人工智能/强化学习

强化学习+多目标优化，get到这种思路，发一区TOP就不远了！-人工智能/强化学习

上传者: 学AI的小魔女

字节跳动 Seed-Thinking-v1.5 论文解读，超越DeepSeek-R1的工作！

字节跳动 Seed-Thinking-v1.5 论文解读，超越DeepSeek-R1的工作！

上传者: 李小羊学AI

95.RL专题：REINFORCE 算法的执行过程

95.RL专题：REINFORCE 算法的执行过程

上传者: 文言AI

8年经验告诉你，学强化学习的顺序千万不要学反了！博士精讲强化学习dqn及ppo算法原理及实战（人工智能自动驾驶/深度强化学习/超级马里奥/大模型）

8年经验告诉你，学强化学习的顺序千万不要学反了！博士精讲强化学习dqn及ppo算法原理及实战（人工智能自动驾驶/深度强化学习/超级马里奥/大模型）

上传者: 人工智能-研究院

在日本，千万不要随便扭扭蛋……

在日本，千万不要随便扭扭蛋……

上传者: 言趣教育妍一老师

58.DeepSeek专题：MOE 主要有哪些优化？

58.DeepSeek专题：MOE 主要有哪些优化？

上传者: 文言AI

77.RL专题：强化学习发展历史

77.RL专题：强化学习发展历史

上传者: 文言AI

LLM常见面试题（八） -- 幻觉专题

LLM常见面试题（八） -- 幻觉专题

上传者: 文言AI

68.DeepSeek专题：介绍下R1训练的四个阶段

68.DeepSeek专题：介绍下R1训练的四个阶段

上传者: 文言AI

强化学习（RL）与多目标优化（MOO）的深度融合正推动AI决策能力迈向新高度！

强化学习（RL）与多目标优化（MOO）的深度融合正推动AI决策能力迈向新高度！

上传者: 科研火花