作者: 秋刀鱼的炼丹工坊
作者简介: 经中此篇如此高深,我确实不懂。
描述: 论文题目: VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling 论文地址:http://arxiv.org/abs/2111.12681 代码:https://github.com/tsujuifu/ pytorch_violet * 视频受up能力限制经常出现中英混杂,散装英语等现象,请见谅。如论文理解报道出了偏差,欢迎各位怒斥。