开源音视频剪辑工具:FunASR-APP ClipVideo

简介: 开源音视频剪辑工具:FunASR-APP ClipVideo

视频剪辑是大家生活中经常使用的工具,现有的视频剪辑软件支持种类丰富的视频裁剪、编辑功能。对于一个长视频,剪辑出里面需要的视频片段,往往需要花费很长的时间来浏览视频,剪辑需要的音视频片段。

ClipVideo剪辑工具结合了达摩院语音实验室在Modelscope社区开源的语音识别相关能力,通过语音转文字,以及根据文字内容,快速裁剪出对应的视频片段,提升音视频剪辑的效率。

仅需通过上传视频、识别、复制所需文字片段、裁剪几个简单的步骤,用户可以快速方便的获取所需的视频片段,并且自动生成字幕。

ClipVideo的demo已经上线到Modelscope创空间👇:

https://modelscope.cn/studios/damo/funasr_app_clipvideo/summary

相应的工具包也在Github进行了开源👇:

https://github.com/alibaba-damo-academy/FunASR-APP


如何使用ClipVideo?


方法一: 通过Modelscope创空间,在线便捷体验ClipVideo的DEMO; 方法二:通过源代码将ClipVideo服务部署在本地。 用户可以通过上述两种方式使用基于Gradio交互的ClipVideo服务,其界面设置如下,按以下三个步骤可以快速获取根据文本截取的视频片段: (1)上传视频文件, 点击“识别”按钮进行识别; (2)复制识别结果中的文字段落至“待裁剪文本”处; (3)配置字幕设置(可选),点击“裁剪”或“裁剪并添加字幕”按钮。 对于有批量处理文件需求的用户,ClipVideo支持通过命令行的方式交互,详见Github。 图1 通过Gradio服务使用ClipVideo

ClipVideo背后的语音技术

ClipVideo方便准确的裁剪的背后是达摩院语音实验室自研的一系列语音相关模型,包括语音端点检测(Voice Activity Detection, VAD),语音识别(Automatic Speech Recognition, ASR),标点预测(Punctuation Restoration)及时间戳预测(Timestamp Prediction, TP)。ClipVideo按如图2所示的逻辑组成了完整的交互链路。图2 ClipVideo程序流程

为了准确而高效的识别(可能较长的)输入视频,ClipVideo调用了Paraformer-Large-长音频版识别模型,其链路中包含FSMN-VAD模型,支持时间戳预测的BiCIF-Paraformer-Large ASR模型以及CT-Transformer标点预测模型。其中BiCIF-Paraformer-Large ASR模型是达摩院新一代端到端ASR方案,兼具AED(attention-encoder-decoder)框架的离线ASR准确性与非自回归(non-autoregressive)方案的高效率,并且使用额外的CIF头在多倍帧率的情况下进行帧权重预测从而得到时间戳,省略了传统时间戳预测所需要的额外的hybrid force-alignment模型(图3)。图3 (a)Paraformer模型结构;(b)带有时间戳预测功能的BiCIF-Paraformer的Predictor结构


实验表明,Paraformer-Large模型的ASR准确率与时间戳预测准确率均为优异。具体参见FunASR论文:

https://arxiv.org/pdf/2305.11013.pdf上述全部模型均已在ModelScope和FunASR社区进行了开源:https://github.com/alibaba-damo-academy/FunASR上述全部模型均可以在modelscope上体验与下载:https://modelscope.cn/models?page=1&tasks=auto-speech-recognition&type=audio
Future Work在本文介绍的功能基础之上,下一步ClipVideo将集成说话人日志的功能,提供基于说话人识别结果的音视频裁剪功能,届时也将陆续上线于通义听悟等产品之中,供大家体验,敬请期待!

相关文章
|
4月前
|
数据采集 JSON 监控
Kotlin高效App爬取工具:利用HttpClient与代理服务器的技巧
Kotlin高效App爬取工具:利用HttpClient与代理服务器的技巧
|
4月前
|
小程序 容器 JavaScript
探索uni-app:构建跨平台应用的神奇工具
探索uni-app:构建跨平台应用的神奇工具
|
4月前
|
XML Java 测试技术
『App自动化测试之Appium应用篇』| 元素定位工具Appium-Inspector从简介、安装、配置到使用的完整攻略
『App自动化测试之Appium应用篇』| 元素定位工具Appium-Inspector从简介、安装、配置到使用的完整攻略
623 3
|
4月前
|
XML Java Android开发
Android App开发实战项目之模仿美图秀秀的抠图工具(附源码和演示视频 简单易懂 可直接使用)
Android App开发实战项目之模仿美图秀秀的抠图工具(附源码和演示视频 简单易懂 可直接使用)
139 0
|
4月前
|
JavaScript 前端开发 测试技术
移动端(APP)自动化脚本工具详细列举(autojs、easyclick、hamibot、ctrljs ...)
移动端(APP)自动化脚本工具详细列举(autojs、easyclick、hamibot、ctrljs ...)
1684 0
|
4月前
|
小程序 开发者
关于UniApp启动到微信小程序工具提示找不到app.json
关于UniApp启动到微信小程序工具提示找不到app.json
366 0
|
4月前
|
XML 测试技术 开发工具
『App自动化测试之Appium应用篇』| 元素定位工具uiautomatorviewer从简介、特点、启动到使用的完整过程
『App自动化测试之Appium应用篇』| 元素定位工具uiautomatorviewer从简介、特点、启动到使用的完整过程
188 4
|
1月前
|
Web App开发 5G Linux
FFmpeg开发笔记(四十四)毕业设计可做的几个拉满颜值的音视频APP
一年一度的毕业季来临,计算机专业的毕业设计尤为重要,不仅关乎学业评价还积累实战经验。选择紧跟5G技术趋势的音视频APP作为课题极具吸引力。这里推荐三类应用:一是融合WebRTC技术实现视频通话的即时通信APP;二是具备在线直播功能的短视频分享平台,涉及RTMP/SRT等直播技术;三是具有自定义动画特效及卡拉OK歌词字幕功能的视频剪辑工具。这些项目不仅技术含量高,也符合市场需求,是毕业设计的理想选择。
60 6
FFmpeg开发笔记(四十四)毕业设计可做的几个拉满颜值的音视频APP
|
22天前
|
存储 BI Android开发
全开源仿第八区H5APP封装打包分发系统源码
全开源仿第八区H5APP封装打包分发系统源码
81 4
|
25天前
【Azure App Service】如何来停止 App Service 的高级工具站点 Kudu ?
【Azure App Service】如何来停止 App Service 的高级工具站点 Kudu ?

热门文章

最新文章