云端问道23期—实操讲解(5种提取方式)

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
.cn 域名,1个 12个月
简介: 本次方案的主题是多模态数据信息提取,介绍了如何基于大模型搭建信息提取应用,总共包含了五个场景,分别是文本信息提取、文档文件信息提取、图片OCR信息提取、图片结构化属性提取以及视频理解与内容提取。1. 内容产品架构图分析2. 文本信息提取3. 文档文件信息提取4. 图片OCR信息提取5. 图片结构化的属性提取6. 视频理解与内容提取

云端问道23期—实操讲解(5种提取方式)


内容介绍

1. 内容产品架构图分析

2. 文本信息提取

3. 文档文件信息提取

4. 图片OCR信息提取

5. 图片结构化的属性提取

6. 视频理解与内容提取

 

01. 内容产品架构图分析

image.png

这是方案的架构图设计的云产品,有函数计算,FC百炼模型服务以及对象存储OSS,通过使用函数计算FC构建的外部服务来接收用户的请求。在函数计算内部将文本、文档、提示词发送至百炼模型服务。将图片上传至对象存储OSS中,然后将图片地址和提示词发送至百炼模型服务,尤其调用模型来处理之后,最终将结果返回给用户。

 

02. 文本信息提取

image.png

为大家演示一遍部署流程,第一个场景是文本信息提取,点击立即体验。第一步、前往百炼控制台来开通百炼模型服务。此界面是已经开通百炼模型服务。如果说未开通的用户界面上会有一个开通服务的按钮,点击开通即可。

image.png

然后点击右上角的人形图标,进入到API-KEY管理页面,点击查看,这是创建好的API-KEY,API-KEY后续操作中央使用的,我们记录保存即可。第二步、点击前往步数部署FC应用,部署类型选择直接部署名称和角色名称默认即可。第一选择华东1(杭州),这里需要API-KEY点击复制,并部署默认环境。正在部署的过程大约需要一分钟左右。

image.png

部署成功之后,我们在环境信息里面有个访问域名,点击访问域名。在这里,我们使用示例一,然后默认使用原提示词进行提取信息。关键词越明确,提取的信息结果就越精准。这是通过文档提取的一个内容结果。我们在删除提示词,利用模型自动分析理解来提取信息。

image.png

这是通过模型字多分析理解提取出来的结果。函数计算的应用列表,删除应用,第一个场景就完成了。

 

03. 文档文件信息提取

第二个场景是文档文件信息提取,点击立即提炼,同样也需要在百炼控制平台获取API-KEY查看。

image.png

前往部署,部署这个FC的应用,部署类型选择直接部署,一个名称和角色名称还是默认。第一个是华东1(杭州)输入百炼API-KEY,点击创建并部署,耐心等待1分钟左右,成功之后来访问域名。我们使用第一个示例,通过默认的关键词来提取信息,这是通过关键词来提取的信息。我们再删除关键词,通过模型自动分析理解来提取信息,分别是两个合同结果就出来了。同样完成之后,如果说是应用不再使用,来删除函数应用。

image.png

 

04. 图片OCR信息提取

第三个场景是图片OCR信息提取,点击立即体验,

image.png

同样先获取API-KEY,点击人形图标来到API-KEY界面,点击查看,需要来创建OSS。

image.png

生成链接Bucket列表。创建Bucket过程分为以下几步,模式选择自定义,Bucket的名称我们来使用文档提供的名称。如果名称被占用则需要更改,因为这个名称是唯一的。第一选择华东1(杭州),存储类型选择标准存储,同城冗余存储,其他默认点击完成创建。

image.png

创建成功后,点击前往部署,再部署FC应用,部署类型是直接部署,因为名称和角色名称还是默认。输入百炼API-KEY。对象存储名便选择刚刚设置的勾选即可。RAM角色也是默认,点击创建并部署默认环境,等待部署,部署成功后访问域名,使用示例,选择默认的提示词来提取信息,这是通过关键词来提取的文档图片信息。然后再删除关键词,点击提取,这是通过模型自动分析理解提取的图片信息,完成之后同样删除应用。

image.png

删除成功之后,再来我们演示一下第四个方案。

 

05. 图片结构化的属性提取

下图是图片结构化的属性提取,点击立即体验。

image.png

首先前往API-KEY,点击查看,然后创建OSS。点击Bucket列表创建Bucket。同样也是自定义创建,输入名称华东1(杭州)。同种类型是标准存储,同城冗余存储。读写权限为私有点击完成创建,发现已存在名称无法设置,于是更改名称,重新点击完成创新。

image.png

创建成功之后前往部署FC应用。部署类型是直接部署,名称和角色名称都是默认的,地域是华东一(杭州),输入百炼API-KEY,勾选存储名,点击创建部署稍等1分钟左右。部署成功之后,我们来访问域名,使用默认示例,还是依然使用默认的提示词提取信息。这个就是通过关键词来提取的图片信息,于是再次删除关键词,通过模型自动分析和理解来提取,这是提取的一个内容结果。完成之后,如果说应用不再使用,我们来删除FC应用。

image.png

image.png

 

06. 视频理解与内容提取

现在进行第五个场景视频理解与内容提取,点击立即体验。同样来获取百炼API-KEY,并进入API-KEY管理界面,点击查看,再创建OSS,点击Bucket列表,连接创建Bucket。这里还是子定义创建,Bucket的名称,选择华东一(杭州)。存储类型还是标准存储,同城冗余存储。存储图写权限为私有,其他保持默认,连接完成创建。

image.png

Bucket创建成功之后,再进行部署FC应用。部署类型选择直接部署,应用名称,角色名称读指默认的地域是华东1(杭州),这里需要输入百炼API-KEY,点击复制,勾选存储桶名,创建并部署默认环境。

image.png

正在部署稍等1分钟左右,部署成功来访问域名。我们使用这里示例,在此可以输入与视频相关的文字资料,并点击提取,此视频的提取耗时会比较久,我们耐心等待一下。这是通过视频来提取的一个内容信息结果。

image.png

应用不再使用,我们需要清理一下资源,清除应用,并删除应用。今天的这个方案部署操作就完成演示了。

image.png

相关文章
|
搜索推荐 JavaScript 前端开发
77 网站点击流数据分析案例(原理及意义)
77 网站点击流数据分析案例(原理及意义)
453 0
|
数据采集 分布式计算 编译器
利用Pholcus框架提取小红书数据的案例分析
利用Pholcus框架提取小红书数据的案例分析
|
编解码 运维 监控
课时9:典型案例2:函数计算在音视频场景实践
课时9:典型案例2:函数计算在音视频场景实践
|
17天前
|
数据采集 人工智能 自然语言处理
FireCrawl:开源 AI 网络爬虫工具,自动爬取网站及子页面内容,预处理为结构化数据
FireCrawl 是一款开源的 AI 网络爬虫工具,专为处理动态网页内容、自动爬取网站及子页面而设计,支持多种数据提取和输出格式。
88 18
FireCrawl:开源 AI 网络爬虫工具,自动爬取网站及子页面内容,预处理为结构化数据
|
16天前
|
存储 编解码 数据处理
云端问道第4期实践教学——多媒体数据存储与分发方案部署演示
该文档详细介绍了阿里云一键部署和手动部署多媒体数据存储与分发方案的步骤。一键部署通过资源编排服务(ROS)实现自动化,涵盖注册账号、开通服务、创建OSS Bucket、配置CDN加速及绑定IMM等功能,简化了复杂操作。手动部署则更细致地展示了每个配置环节,包括网络规划、资源创建、域名绑定、CDN配置、证书加密及最终的验证与清理,确保用户对整个流程有清晰理解。两种方式均以OSS为核心,支持数据上传、转码处理和加速分发,保障高效稳定的用户体验。
|
2月前
|
存储 人工智能 自然语言处理
高效档案管理案例介绍:文档内容批量结构化解决方案解析
档案文件内容丰富多样,传统人工管理耗时低效。思通数科AI平台通过自动布局分析、段落与标题检测、表格结构识别、嵌套内容还原及元数据生成等功能,实现档案的高精度分块处理和结构化存储,大幅提升管理和检索效率。某历史档案馆通过该平台完成了500万页档案的数字化,信息检索效率提升60%。
|
5月前
|
JavaScript 前端开发 定位技术
云解析地图作业问题之在搭建页面中简化数据筛选的过程如何解决
云解析地图作业问题之在搭建页面中简化数据筛选的过程如何解决
42 0
|
存储 关系型数据库 MySQL
用户案例合集 | 物联网平台的时序数据处理难点与优化实践
本文汇总了四个典型的物联网平台的实践经验,把它们曾面临的数据难题以及解决思路分享给大家。
316 0
|
编解码 人工智能 运维
|
弹性计算 运维 监控
课时9:典型案例2:函数计算在音视频场景实践(一)
典型案例2:函数计算在音视频场景实践(一)