深入解析transformer反向传播

作者: 连博AI说

作者简介: 北京大学数院计算数学博士,前百度凤巢主任架构师

描述: 在本期视频中,我们详细介绍了张量下的链式法则,并基于此对Transformer在矩阵形式下的求导进行了全面推演。这将有助于大家更好地理解Flash Attention等Transformer加速技术。欢迎观看!

深入解析transformer反向传播

推荐视频

反向传播算法可视化展示

反向传播算法可视化展示

上传者: 红橙在等你

【精读AI论文】知识蒸馏

【精读AI论文】知识蒸馏

上传者: 同济子豪兄

[5分钟深度学习] #02 反向传播算法

[5分钟深度学习] #02 反向传播算法

上传者: 风中摇曳的小萝卜

deepseek 全网最硬核解读(五) Moe详解

deepseek 全网最硬核解读(五) Moe详解

上传者: 学车辆的算法工程师