AI生成式视频往何处去 “灵动 AI”亮相网易未来大会

简介: 12月22日-23日,以“智能涌现·发现未来”为主题的网易未来大会在浙江杭州举办。在AGI 论坛“AI 三人行”圆桌对话上,南京大学智能科学与技术学院副教授易子立、「灵动AI」创始人雷海波、AI 绘画知名博主娜乌斯嘉三人,共同就《AI 生成视频往何处去?》分享精彩观点,英诺天使基金合伙人王晟为本次对话主理人。

12月22日-23日,以“智能涌现·发现未来”为主题的网易未来大会在浙江杭州举办。在AGI 论坛“AI 三人行”圆桌对话上,南京大学智能科学与技术学院副教授易子立、「灵动AI」创始人雷海波、AI 绘画知名博主娜乌斯嘉三人,共同就《AI 生成视频往何处去?》分享精彩观点,英诺天使基金合伙人王晟为本次对话主理人。

易子立首先教授表示,随着AI 热潮的来临,很多企业已经在尝试使用AI工具,但文生图、文生视频的技术仍有待进一步成熟。目前,AI生成视频的主要技术路径是扩散模型,未来的趋势有可能是归回大模型训练的方式。国外在视频生成底层技术方面具有一定的领先优势,国内在像2D 数字人、AI 社交这样的细分应用上表现更好。相信伴随算力水平的提升和技术范式的革新,将来国内有可能在某些方面超越国外。

「灵动AI」 创始人雷海波

“「灵动AI」是将生成式AI图像技术应用于营销设计端的创业企业,我们过去20年一直在视觉设计和视觉影像行业探索”。「灵动AI」 创始人雷海波在谈及视觉大模型话题时表示,过去做设计社区、媒体和设计平台,几乎每天都与设计师、设计机构打交道。据我所知,目前国内一些顶尖艺术设计类高校,已在日常教学和设计项目中应用了文生图等大模型。因此,AI在生图领域的能力毋庸置疑,但生成视频,落地应用可能还需要半年到1年的时间。

面对国内大模型厂商为何竞争不过国外的问题。他直言,造成这一现象的原因,不仅仅是技术、算力、数据集方面的差距,从设计的维度来看,国内厂商对美学理解还存在欠缺。事实上,当下 Midjourney 生成图的调性、氛围、光影质感,已经远超越人类的表现。如果国内大厂能做出类似 Midjourney 视觉模型,并结合高品质的数据集,配合行业认知和产业化落地能力,垂直应用层面一定是有很大机会的。

被问及「灵动AI」的落地应用场景,他回答的简单而直接,“我们主要是面向前缀场景,比如营销,特别是电商营销。过去,数亿的商家和数十亿的SKU(单款商品)的营销物料都是靠人工来实现的。现在试想,如果上传的商品信息既能在文字、图像等模态上保持不变,又能够与文字、图片、视频等模态模型实现很好的融合,从而为商家产出AI商品图、海报、短视频,甚至是3D交互内容,这个市场需求是很大的。今年,「灵动AI」主要发力点在文生图、垂类模型的研发及探索行业应用,但我们看到了文生图、图生视频对创意生产力带来的解放,更期待AI在3D领域的高质量生成能力”。

作为AI领域的知识博主和模型训练师,娜乌斯嘉认为,AI在视频生成领域归结为四类场景:原视频风格转化、瞬息全宇宙、图生视频、场景转换视频。目前主要是广告制作、预告片制作、推文和短视频创作等领域尝试较多。在图片生成方面, AI 已能达到各种炫目的效果,但在视频生成领域由于控制手段较少,表现力受到一定限制。例如:人物表情在视频中的一致性不够,容易出现“恐怖谷效应”。她希望在视频生成效果控制上,技术能够做到更加精准。但在AI的世界里,创造性的想法一定是大于技术。

英诺天使基金合伙人王晟

站在投资人的角度,王晟表示,目前生成式视频的热度非常高。今年,风险投资主要表现为两端集中:一是资金端集中,只有部分VC敢于真正的出手;二是项目端集中,VC的资金主要投向了计算能力相关项目,如GPU、芯片、高速无损网络、大模型等。明年,大家比较期待的是多模态模型领域,以及多模态能力的落地应用。

当然,AI作为一项智能技术,需要全社会不断地对它加深认知,需要政府、科学家、企业、媒体、资本等共同参与,这样才能促使其获得更好的良性发展。

据悉,「灵动AI」目前已上线近千个商品图场景,初步形成AI工具矩阵。由于拥有特定风格场景的LoRA模型,多个亿级参数的专用AI模型以及智能审美评价系统,在主体控制下,使生成商品图呈现独特的视觉特征和美学调性,从而为企业级用户提供更好的服务。




http://www.cnaifm.com/gyl/2023-12-25/11838.html

http://www.cnaifm.com/aimx/2023-12-21/11777.html

相关文章
|
2月前
|
人工智能 编解码 API
【选择”丹摩“深入探索智谱AI的CogVideoX:视频生成的新前沿】
【选择”丹摩“深入探索智谱AI的CogVideoX:视频生成的新前沿】
|
3月前
|
人工智能
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM
【9月更文挑战第26天】中电金信与复旦大学合作,提出一种基于身份信息增强的多媒体伪造检测方法,并入选ACM MM国际会议。该方法利用身份信息作为检测线索,构建了含54位名人324个视频的多模态伪造数据集IDForge,设计了参考辅助的多模态伪造检测网络R-MFDN,显著提升了检测性能,准确率达到92.90%。尽管如此,该方法仍存在一定局限性,如对非英语国家数据及无明确身份信息的视频检测效果可能受限。
81 4
|
2月前
|
人工智能 自然语言处理 搜索推荐
Sora - 探索AI视频模型的无限可能
这篇文章详细介绍了Sora AI视频模型的技术特点、应用场景、未来展望以及伦理和用户体验等方面的问题。
34 0
|
4月前
|
机器学习/深度学习 人工智能 编解码
|
4月前
|
人工智能 搜索推荐
影视与游戏行业AI视频制作的第3步:为角色生成说话视频
继 影视与游戏行业AI视频制作实战:第一步,角色形象设计的一致性以及影视与游戏行业AI视频制作实战:第二步,为角色生成个性化语音 后,实现角色生动化的下一步动作就是能让图像动起来。
|
4月前
|
人工智能 自然语言处理 语音技术
使用AI识别语音和B站视频并通过GPT生成思维导图原创
AI脑图现新增语音及B站视频内容识别功能,可自动生成思维导图。用户可通过发送语音或上传语音文件,系统自动转换为文本并生成结构化的思维导图;对于B站视频,仅需提供链接即可。其工作流程包括:语音转文本、文本结构化、生成Markdown、Markdown转思维导图HTML以及输出最终的思维导图图片给用户。
91 0
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC-基于EAS服务快速部署一个AI视频生成
AIGC-基于EAS服务快速部署一个AI视频生成
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
中国生成式AI专利38,000个,是美国6倍、超过全球总和!
【7月更文挑战第18天】中国在生成式AI专利上领先全球,申请量达38,000项,超美国6倍,占全球总数过半。WIPO报告指出,中国因政府大力投资AI研发而占据领先地位。GenAI技术虽带来创新,但也涉及伦理、隐私、就业及安全等问题。[查看报告](https://www.wipo.int/web-publications/patent-landscape-report-generative-artificial-intelligence-genai/index.html)**
84 2
|
4月前
|
机器学习/深度学习 人工智能 算法
|
5月前
|
人工智能 数据安全/隐私保护 计算机视觉
旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包
【7月更文挑战第6天】旷视科技开源AI模型MegActor,以照片生成逼真人像视频,模仿表情包。基于条件扩散模型,解决身份泄露和背景干扰问题,使用合成数据、图像分割、CLIP编码及风格迁移技术。虽有视频质量、隐私风险及计算资源限制,但对动画和虚拟偶像行业带来革新。[链接](https://arxiv.org/abs/2405.20851)
110 3