暂无个人介绍
Sora炸裂了的地方,在于它能理解自然语言,知道那个画面该是怎么样的,它学习很多视频内容(大力出奇迹,需要很多算力),而且一上来就是能制作60s的视频,刚好是短视频的需求,之前的AI视频生成的时间都很短(几秒钟).
本文解析的重点即是 Sora 背后的核心技术 Spacetime Patches,作者认为该技术通过创新的时空数据建模方法,让 Sora 学会预测时空维度上事件和对象的变化、运动和互动,从而建立起视频世界的物理模型,生成极其逼真的视频。
如果非要用三个词来总结Sora,那就是“60s超长长度”、“超强语义理解”和“世界模型”。