文档备案控制台

开发者社区问答正文

“基于对比多模态预训练理解中文视频和文本”中，针对视频-文本进行预训练主要存在的挑战，提出了什么解决

“基于对比多模态预训练理解中文视频和文本”中，针对视频-文本进行预训练主要存在的挑战，提出了什么解决方案？

展开

收起

游客zvexcvxjsyxmm 2022-03-29 09:48:52 479 版权

来自：大淘宝技术

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

答题百晓生

本文提出一个基于重建和对比学习任务的多模态预训练模型VICTOR，并建立千万数量级的高质量中文视频-文本数据集。VICTOR以Transformer为主体，设计出基于重建和基于对比学习的七个任务训练模型。基于重建的任务包括掩码语言建模、掩玛句子生成、掩码帧序列建模和掩码句子序列建模四个任务，充分捕捉视频和文本的序列信息和交互信息；基于对比的任务包括对偶的视频-文本对齐、视频内的掩码帧对比学习和视频间的掩码帧对比学习三个任务，在避免简单的视频-文本对齐任务会融合不确定的多模态信息的同时，增强视频内的时空信息融合。VICTOR模型拥有上亿级参数，在构造的千万数量级的淘系视频-文本数据集中进行预训练，并在多个下游任务（如视频文本匹配、视频推荐、标题生成）获得了SOTA的性能提升。VICTOR模型的设计和提出，有效促进了预训练在中文视频-文本领域的进展，并可在多个视频相关业务（如视频推荐、视频分类等）广泛应用。

答复内容摘自《2021技术人的百宝黑皮书》，这本电子书收录开发者藏经阁下载连接：https://developer.aliyun.com/ebook/download/7436

2022-03-29 17:01:16

赞同展开评论

问答地址：

开发者社区 > 大淘宝技术 > 问答

相关问答

Qwen-omni-turbo-realtime 视频流经常断联

285

0

0

现在的大模型可以阅读一本书长度的文本吗？

1006

1

0

大模型如何对文本进行token计算，有提供api吗

726

1

0

ModelScope有 qwen-agent 的讲解视频么？

201

1

0

阿里云语音AI CosyVoice大模型看上去是实时的吗，没有看到像长文本那样异步的回调后可以保存？

225

0

0

阿里云语音AI 语音合成CosyVoice大模型和长文本语音合成有什么区别？

574

1

0

通义听悟大模型可以对视频画片进行逐帧切片嘛？

234

0

0

多模态词汇表是什么？它如何用于视频和音频的生成？

190

1

0

大模型在生成文本方面有哪些革命性突破？

183

1

0

阿里百炼大模型平台为啥不支持上传txt格式的数据集？训练模型需要用到大量的txt文本，这种怎么办？

360

1

0

收录在圈子:

大淘宝技术

1792

+ 订阅

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

我用qoder 和 codex+deepseek 及claude + qwen 3.7同时解题目

阿里云服务器多少钱一年？支持40个连接的配置

阿里云服务器多少钱一年企业用？公司用什么配置？

阿里云服务器多少钱一年？企业用的配置费用价格

阿里云服务器多少钱一年？学生用的配置价格

相关解决方案

更多

网站文本内容安全检测

一键生成PPT及讲解视频

多模态数据信息提取

基于 Spark 和 PyTorch 的模型训练方案

AI 时代的分布式多模态数据处理实践

还有其他疑问?