前言
随着数字化与信息化进程的持续深入,以及人工智能(AI)科技的迅猛发展,企业对于数据信息的获取与处理的重要性有了更为深刻的认识。在这一大背景下,市场迫切需求一种能够支持多模态文件信息抽取能力的解决方案。这种能力需要能够识别和解析包括文本、图像、音频和视频在内的各种格式文件,从而高效提取出极具价值的信息。今日,我们为您精心寻觅到一款理想的解决方案——【多模态数据信息提取】方案,运用先进的大模型来进行数据的深入理解与精细分析处理。
多模态数据信息提取方案支持多种场景,包括文本信息提取、图片信息提取、视频信息提取,用户可以根据不同的需求进行结构化信息挖掘、提取、分析和摘要等,并支持批处理模式下的离线作业,提高大规模数据处理效率,降低 50% 的业务落地成本。
方案架构
本方案以函数计算 FC 为例,构建的 Web 服务来接收用户的请求,在函数计算内部将视频关键帧图片上传到对象存储 OSS 中,然后将关键帧图片地址和提示词发送至百炼模型服务,由其调用视觉模型 qwen-vl-max-latest 处理后,结果返回后,再次调用文本模型 qwen-max-latest 处理,最终将结果返回给用户,方案架构图如图
部署操作
在多模态数据信息提取方案介绍页面,点击【立即部署】进入部署操作体验页面,如果你没有开通阿里云百炼大模型服务,那么需要你先开通阿里云百炼大模型服务,开通服务后,在阿里云百炼大模型服务平台:https://bailian.console.aliyun.com/?spm=a2c6h.28997786.0.0.11234015Z4XOqi#/home 点击【API-KEY】
在 API-KEY 管理页面,点击【创建我的API-KEY】完成API-KEY的创建,并复制保存 API-KEY
复制好创建完成的API-KEY,点击实验操作的前往部署,在函数计算部署页面,粘贴刚才复制的 API-KEY,其他的都默认选择,然后点击【创建并部署默认环境】
等待函数计算部署成功,这个过程大概耗时1分钟左右
等待函数计算部署成功之后,点击【访问域名】
在WebUI页面,我们选择【示例1】,示例1默认加载关键词【型号,价格】,在点击【提取信息】后,会有限按照关键词来提取文档信息
点击提取信息后的提取结果如图
这个时候你可以去掉关键词【型号,价格】后再次点击【提取信息】,再没有关键词的情况下,模型会自动解析,可能会出席那每次提取信息后返回的内容有差异的情况
释放资源
实验完成之后,如果你不再使用当前函数计算资源,那么你可以选择删除函数计算应用,在函数计算详情页,点击右上角的【删除应用】释放资源,
或者在函数计算应用列表的操作列,点击【删除应用】
均可以完成函数资源的释放。到这里关于多模态信息提取中文本信息提取的部署操作也就结束了。
其他体验
如果你还想体验多模态信息提取的其他应用场景的信息提取,比如图片信息提取、视频信息提取。我们当前评测文档中提供的只有文本信息提取方案,那么【视频信息提取】方案的操作我也体验过,体验地址:https://www.aliyun.com/solution/tech-solution-deploy/2860032?spm=a2c6h.29876473.J_9552847120.2.2d0443beRC1hEm 体验效果如图,感兴趣的小伙伴可以自行体验哈
测评反馈
这里我对于测评中涉及的解决方案部署操作界面、操作文档、部署流程、验证效果的内容做一个整体的反馈。
多模态数据信息提取解决方案部署操作界面简单,步骤也不多,操作都比较简单容易上手,文档中对于每一步的执行步骤也有详细的描述,辅助截图以及文档操作步骤,新手小白也可以轻松部署。整个部署流程也比较顺畅,按照资源准备,函数计算部署的操作比较符合正常的部署流程。最后效果的验证,提供了官方示例,可以方便大家快速验证部署后的效果。总的说来整个流程比较顺畅, 效果也不错。
疑问&建议
目前对于多模态数据信息提取解决方案的整个操作下来,以及最后的文本信息提取效果验证,并没有看到【五种信息提取方案】,实际上当前操作文档中目前只有文本信息提取方案,我从另外的部署文档中找到了【视频信息提取】方案,也放在了上面的测评文档中了,那么这里的【五种信息提取方案】来自那儿呢?
对于现有的文本信息提取方案,目前部署之后是通过在线 WebUI界面操作的方式来实现文本内容信息的提取,那么实际情况中,往往是需要通过API接入的方式来嵌入企业现有的业务系统,而不是通过嵌套或者WebUI跳转页面这样的操作方式。那么是否有对应的API接口文档或者接口接入方案来帮助企业落地企业业务系统呢?
对于此次的操作体验那必须是体验感拉满,希望后期可以有API接入方案,企业可以通过调用API接口上传待识别文本信息、图片信息、视频信息等来获取想要的内容,那么企业落地就完美了。