[论文简析]End-to-End Video-Language Transformers..Masked Visual-token..[2111.12681]

作者: 秋刀鱼的炼丹工坊

作者简介: 经中此篇如此高深,我确实不懂。

描述: 论文题目: VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling 论文地址:http://arxiv.org/abs/2111.12681 代码:https://github.com/tsujuifu/ pytorch_violet * 视频受up能力限制经常出现中英混杂,散装英语等现象,请见谅。如论文理解报道出了偏差,欢迎各位怒斥。

[论文简析]End-to-End Video-Language Transformers..Masked Visual-token..[2111.12681]

推荐视频

[论文简析]ViT: Vision Transformer[2010.11929]

[论文简析]ViT: Vision Transformer[2010.11929]

上传者: 秋刀鱼的炼丹工坊