海量数据的智能处理及在网盘场景中的应用实践

本文涉及的产品
阿里云盘企业版 CDE,企业版用户数5人 500GB空间
简介: 本次分享主题为海量数据的智能处理及在网盘场景中的应用实践,涵盖面向非结构化数据的多样化处理能力、数据处理智能化演进、企业网盘基于智能媒体管理的应用转型以及智能化和内容结构化能力。通过丰富的AI算子和智能媒体管理,实现图片、音视频等多媒体数据的高效处理,并支持多模态检索、知识库构建与AI助手等功能,助力企业网盘智能化升级,提升用户体验和数据管理效率。

海量数据的智能处理及在网盘场景中的应用实践


内容介绍:

一、面向海量非结构化数据的多样化处理能力

二、数据处理的智能化演进及应用

三、企业网盘基于智能媒体管理的应用转型

四、企业网盘的应用智能化和内容结构化能力表示

 

本次分享主题为海量数据的智能处理及在网盘场景中的应用实践,介绍阿里云存储在多媒体数据处理领域的智能化探索、正在被广泛使用的智能原子能力,并演示该能力在网盘场景中的应用实践。

 

一、面向海量非结构化数据的多样化处理能力

众多存储客户的需求正随着数据规模的急剧膨胀而日益增多,特别是当数据量达到庞大规模时,这些客户在内容分发、多媒体数据处理以及AI数据预处理等场景中的数据处理需求变得愈发频繁。今天,我将主要分享几方面的内容。首先,是关于存储的智能媒体管理产品,它提供了多样化的数据处理能力。

其次,在过去一年中,我们在AI领域发布了众多智能化的算子,并且即将推出一款企业网盘产品,该产品将基于数据处理能力进行AI化的转型,如引入AI助手或构建知识库等功能。接下来,通过视频感受AI应用所带来的显著效果。

目前,智能媒体管理已经具备了处理海量非结构化数据的能力。总体来说,它涵盖了六十余项基础数据处理能力、二十余项AI数据处理能力,以及十多项数据安全能力。在六十多项数据处理能力中,我们为图片、音视频以及文档、文件等提供了丰富的处理算子,例如图片的压缩、缩放与裁剪,视频的转码、拼接以及内容提取等。视频处理还支持边转边播功能,即能够在转码的同时进行视频播放,实现及时起播和按需转码,从而大幅降低客户的公网下行流量以及转码成本。此外,我们还提供了完善的文档处理能力,包括文档的在线阅览、多人在线编辑以及格式转换等。在文件处理方面,则提供了压缩解压、压缩包预览等功能。

过去一年,在智能处理能力方面也取得了显著进展,主要分为识别、聚类、生成以及编辑四大类能力。同时,针对隐私保护场景,我们也提供了十余项数据安全能力,包括数据加密、盲水印、源头保护以及日志审计等。基于这些强大的能力,MM能够对对象存储中的数据进行丰富的处理,从而支撑起互联网电商、社交、工具场景以及AI大模型的AI数据预处理等多种应用场景。

除了丰富的算子能力外,还提供了全面的数据管理、任务管理以及任务操作能力。例如,我们提供了一项工作流功能,因为很多用户并不只是对一个文件进行单次处理,而是需要进行一系列连续的处理操作。在AI数据预处理环节,客户可以先对图片进行裁剪、缩放,然后添加水印,再进行OCR识别等一系列操作。通过工作流功能,可以将这一系列操作进行简化。此外,触发器可以对增量数据进行自动处理,批处理则可以对存量数据进行批量操作。我们还提供了数据及任务管理等其他能力。

 

二、数据处理的智能化演进及应用

重点做的AI算子,主要分为四个方面智能识别、智能聚类、智能检索、智能创作这四个能力都是依托于完善的AI基础设施包括表格存储Table Store支持百亿级别的索引规模。在MM的后边有丰富的Embedding向量模型可以对图片、视频等多媒体文件做向量化操作。另外依托于阿里云云上丰富的GPU算力,以及通义大模型的不断迭代,支撑ASS能力发展。

第一智能识别,面向视频监控场景、AI数据处理场景提供了丰富的智能识别能力,包括图片的标签识别、人脸识别、车辆信息识别,以及人体识别等。图片的标签识别可识别近两千多种标签。人脸识别除可识别人脸的位置外,还可识别人脸的心情、是否佩戴口罩、眼镜等。车辆信息识别可以识别车辆的颜色、车牌号,可应用于智能交通场景中。

人体识别技术不仅能够定位单个人体的位置,还能够识别出图片中多个人体所在的位置。智能聚类功能则可以根据内容实现自动化聚类。例如,我们之前为某动物科学研究所开展的项目中,就需要对牛这一类别进行更为细致的划分。我们不仅仅希望识别出图片中的是牛,更希望能够进一步区分出水牛,甚至是山地水牛或野生水牛等具体种类。由于仅凭外观判断存在难度,我们结合了图片的向量语义信息和图片本身所携带的元数据信息,进行了聚合类的索引操作。这样,用户就可以根据索引自动地对这些图片信息进行分类。

第二智能检索功能。该功能目前能够支持百亿规模的数据进行实时检索,使用起来非常简单。用户只需在多媒体管理系统中创建一个元数据索引集(即数据集),并将这个数据集与对象存储服务的存储桶进行关联。系统就会自动抽取存储桶中数据所携带的元数据,并进行向量化的语义分析。最终,用户可以通过接口进行语义检索,比如检索“灯火辉煌的城市”所对应的照片。

第三智能创作。智能创作是基于AI大模型算法的内容生成。重点包括两项能力,一是故事生成,可以利用AI算法按照时间或者人物生成一些故事相册,比如我们手机里面常用的云相册,可能会生成回忆,或某一时间里推荐的一些相册内容。在文档助手中提供了多种文档撰写能力,让文档撰写更有效率。比如可以通过Copilot方式做文档认证、文档撰写、文档风格语义的改写,或是文档的扩写。

 

三、企业网盘基于智能媒体管理的应用转型

以上是过去一年智能媒体管理在AI方向所做的一些工作。下面会介绍基于这些能力,企业网盘在过去一年做的一些AI应用转型。

智能媒体管理提供了非常强大的AI能力。本次分享主题为依托智能媒体管理强大的AI能力,以及通义大模型给企业网盘场景带来变化。

首先企业网盘。随着云计算的蓬勃发展,大量客户会把数据部署在云上,也会把业务构建在云上。随着数据规模的不断变大,业务场景变得更加复杂,客户对云存储产品也提出了更高的要求。很多客户不再基于简单的对象、文件的接口,和从零开始构造自己的业务系统,而是在探索。比如存储能不能从自己的账号权限系统结合,精确地控制访问权限,业务流程以及OA的流程打通,使数据能够在各组织实体、地域、不同的业务流程之间方便地进行数据的分发和信息的流转。

在场景的催生下,诞生了PDS相册与网盘服务产品,向下脱胎于阿里云十年磨一剑的存储产品,天然具备稳定、安全、高性能、低成本的优势;向上为用户提供了开箱即用,类似SaaS的云产品,使用户可以低开发甚至0开发的创建网盘产品。同时提供了PC端、手机端、网页端等参考工具,使用户很容易部署网盘系统,而且我们可以提供一些知识库的能力,使用户开箱即用地使用AI和大模型加工和处理数据。中间是企业网盘的中间件,目前这套系统已经沉淀了大概EB量级的用户数据,服务了超过一亿的注册用户,每天经过大模型分析和加工的数据量超过PB量级。这就是网盘的中间件,坚实的底座,比如对象表格之类的存储系统,提供了稳定、可靠、高性能的数据和数据管理能力。在这之上,我们聚合几千家企业对文件管理的需求,沉淀不同类型的能力。

可以通过钉钉、微信或飞书登录,也能通过summer或LDAPI对接企业的账号系统。文件方面除了传统的管理能力,也有全球加速、跨地容灾的一些高级特性。也支持多个用户在不同地域协同对数据编辑,也支持一百多种文件类型的实时预览和编辑,列表还在不断地增加中。特别是依托智能媒体管理能力,可以把AI大模型引入到网盘中,对用户从数据到内容的各个环节进行加工和处理,比如单纯对于用户在网盘上存储的数据,提供智能文档撰写、生成相册的美图美颜图片智能裁剪的数据处理能力可以通过非结构化数据结构化的方法将用户的存储数据转化为信息比如把提取人脸的信息、体的信息、视频里的标签、出现的人物,也包括把图片里的文字信息通过OCR提取、然后语音通过ASR提取等转化成信息。

这些信息在索引系统里可以很方便地被用户使用用户可以通过全文的检索或支持限量的混合泡沫态检索轻松定位自己所需数据。现在依托大模型,可以再提取这些信息中的高维特征比如按照人物关系,对信息进行聚类,或按照时空的关系对他们组合,然后产生一些故事集锦、精彩集锦或知识库能力。最后可以依托这些高维信息的特征,慢慢将数据应用的层次拓展到内容,在网盘上实现内容推荐、内容交易等能力。

把网盘对数据的使用分成三个阶段。首先是传统存储基于完全的文件名、目录数来处理非计划数据,比如视频、图片。可以通过提取的能力,把识人、断物等特征提取出来。现阶段企业完全可利用自己的思维为公众提供知识分类上的服务比如可以把人力资源的知识、开发的知识整合到一起。在网盘系统里,数据加工处理流程如图所示相当于用户在存储上大量的非结构化数字结构化,保存在键值索引、倒排索引、向量索引,地理空间位置索引之中。

当用户有检索业务的场景,比如构造搜索的应用、知识库应用,完全可以用自然语言发起检索。通过大模型进行自然语言的解析,分析用户的检索意图,然后分发到不同的检索引擎实现召回。召回的结果会通过ACL或用户自定义的权限系统、业务系统进行处理,避免权限问题。接下来会根据用户检索意图体现出的权重做语义重排,结果再返回,用户就可以基于返回的结果,轻松零代码的构建出检索应用。这些结果重新再组合,加上一些历史的信息重新送给大模型,就可以在一些AIDC应用里阐述更多内容。

 

四、企业网盘的应用智能化和内容结构化能力表示

网盘使用大模型和AI的几个典型场景。

首先是多模态的检索。这个能力相比于传统网盘,可以将混合的各种模态数据,比如语音、文本、视频等一起传到网盘,模型会自动分析特征,构造各种索引。用户真正召回数据时就不再使用,比如文件名或全文简单的方式,完全可以使用语义的数据召回。比如可以描述小鸟在枝头,就可以召回所有含有这一语义的图片。大模型可以分析用户的检索意图,不只有语义模式,可以联合多个索引,分析检索中的位置信息和时间信息的诉求,比如利用照片里的GPS坐标做位置查找,也可利用照片里的拍摄时间做时间查找。

所以用户可以熟悉出一个混合条件,比如在什么时间、地点、做什么照片,都可以被模型准确召回。除图片外,对其他模块数据,文本也有类似能力,别于传统的全文检索,用户在文档检索输入的内容并不完全匹配,只需描写大概意思就可找回网盘上保存的相关文本。视频也一样, demo现在就在演示视频召回的情况用户可以直接检索一个场景,然后返回对应的视频。用户也可利用超声波的特性实时在网盘上打开视频播放。这是第一个步骤多模态检索里,所能够带来的能力。

其次是知识库,中小企业在使用大模型时一直有一个问题,是很难在自己领域里低代码甚至0代码地把这个东西用好,同时要付出对接、微调,甚至重新训练等代价,才能真实地在业务场景里用自己的领域知识和AI能力来服务自己的业务场景。同时在网盘系统提供更加简便的方式用户只需通过一个非常简单的操作就可以建设这样的一个知识库,然后根据自己的领域知识在里录入知识分类。这里演示的是用户直接用自然语言描述自己的知识分类。

用户也可举一个或几个详尽的例子,或用一段或几句对应的话来描述自己企业里对知识的整理。分类录入知识库后,网盘系统会自动地对网盘上杂乱无章的非结构化数据进行扫描,然后按照用户的知识分类,利用大模型对所有的知识进行处理、整理和归纳。最终呈现的结果是可以按照内容把用户的知识井井有条的归纳到对应的分类,为其他应用,比如AIDC或者交互类的应用提供语料和知识素材。知识库除支持文本数据,也支持跨模态的数据,比如图片和视频,也建立了图片的分类。分类建立完成之后,网盘系统就开始对数据进行分类和梳理拿到结果后,可以看到文档分类里都是内容相关的聚类,为演示知识分类关键词起的比较简单、通用,可以体现知识分类的效果。不论文件在真实的存储系统如何排布,都可以按照某种逻辑视图的方式把这些内容相近的数据归拢到一起。

在这个基础上,可以直接针对知识库进行下一步的应用,比如针对整个知识库提问,直接召回下边列表里对应支持的原始文档。点开可以看到是属于这一分类的文档。大模型可以对知识分类的内容来做更深入的问答,可以对知识分类做综述性提问,经过知识库助手的整理,就可做出回答。比如相册故事会有什么样的算法和衡量方法,我们可以进一步提问这是一个多轮问答模式,可以选一个具体的知识分类,缩小知识分类的范围,综述介绍当前知识分类的主流方法。可以深入对其中的实体来进行提问,可能问其中某一方法的特点,模型可以在知识库里准确定位对应知识,做出总结,同样也可以对知识实体做出对比和综述。像这个问题就可以展示优缺点之间的对比结果。依托知识库,就可以很容易为企业做一些领域知识服务。

第三个能力是AI助手,从传统的网盘通过界面点击等使用模式来看,提供了一种新的方式,即通过交互的方式使用网盘,用户完全可以在AI助手里打入网盘使用的意图,比如检索什么样的图片、文档,网盘都会执行对应动作,把用户需要的东西展示出来。

同时网盘也支持内建的能力交互,用户完全可以表达内容生成的意图,助手会跟用户做进一步交互,用户再详细阐述自己的意图模型,返回结果能力结合文档的协同编辑,或是文档智能助手能力,很容易实现文档的润色、翻译、语气改写、归纳总结等智能的Propeller文档助手。

网盘的助手能力也可以支持针对特定的一个或几个文件来进行归纳和提问。比如用户可以直接查阅一个文件,这时会弹出一个文件的查找框,用户可选择一个或几个文件,然后针对特定的内容做归纳和整理,即可以针对这个文档直接提问,问题被提交后AI助手会针对用户确定的几个文档总结、归纳,然后结合用户的问题产生最终结果结果是现在demo呈现。

同时对于企业的内部知识,我们也可以预制知识库的方式呈现把整个网盘的使用手册作为一个预制的知识放在知识库,用户在使用APP时遇到任何问题,可以用这样的方式获得答案。比如想知道怎么删除文件,直接问助手就能拿到一个详细的解答,相当于多模态的数据告诉他怎么操作。

同时也支持对网盘上的数据归纳。整个网盘中存在文件里的内容也可做检索和总结,也可对实体中的多份文件对比

以上为分享全部内容

相关文章
|
8月前
|
存储 数据采集 人工智能
AI时代:云存储加速多模态数据存储与管理创新
阿里云存储产品高级解决方案架构师欧阳雁(乐忱)分享了中国企业在全闪存高端存储市场的快速增长,指出AI大模型的发展推动了企业级存储市场。去年,高端企业级存储闪存占比约为25%,相较于欧美50%的比例,显示出中国在AI领域的巨大增长潜力。演讲涵盖AI业务流程,包括数据预处理、训练和推理的痛点,以及针对这些环节的存储解决方案,强调了稳定、高性能和生命周期管理的重要性。此外,还介绍了数据预处理的全球加速和弹性临时盘技术,训练阶段的高性能存储架构,推理场景的加速器和AI Agent的应用,以及应对大数据业务的存储考量,如对象存储、闪电立方和冷归档存储产品。
38995 20
|
17天前
|
存储 人工智能 数据管理
云端问道17期方案教学-AI场景下的对象存储OSS数据管理实践
本文介绍了AI场景下的对象存储OSS数据管理实践,由阿里云技术专家明锦分享。主要内容分为两部分:1) AI场景下对象存储实践方案,包括对象存储的应用、优势及在模型推理中的优化;2) OSS常用工具介绍,如OSSFS、Python SDK、Go SDK等,并详细说明了这些工具的特点和使用场景。文中还探讨了不同模式下的性能优化,以及即将推出的OS Connector for AI/ML工具,旨在提升数据下载速度和IO性能。
|
存储 机器学习/深度学习 人工智能
云存储Clouder认证:基于存储产品快速搭建网盘—课时2:传统存储面临的挑战
云存储Clouder认证:基于存储产品快速搭建网盘—课时2:传统存储面临的挑战
|
缓存 算法 开发工具
MediaBox助力企业一站式获取音视频能力
LiveVideoStackCon2023上海站,阿里云视频云专场系列演讲-4
95 0
|
人工智能 智能设计
免费体验阿里云智能LOGO一键在线设计!帮你解决设计难题!
免费体验阿里云智能LOGO一键在线设计!帮你解决设计难题!在线生成的logo来满足需求。市面上很多在线“免费生成”的logo,样式少、没版权,效果还不好看,LOGO在线设计还得是阿里云!
4898 0
免费体验阿里云智能LOGO一键在线设计!帮你解决设计难题!
|
存储 运维 数据挖掘
带你读《云存储应用白皮书》之22:9、智能媒体管理
带你读《云存储应用白皮书》之22:9、智能媒体管理
129 0
|
SQL 存储 运维
乐元素 X Hologres:一站式高性能游戏运营分析平台
乐元素 X Hologres:一站式高性能游戏运营分析平台
1796 1
乐元素 X Hologres:一站式高性能游戏运营分析平台
|
SQL 存储 运维
乐元素 X Hologres,一站式高性能游戏运营分析平台
乐元素 X Hologres,一站式高性能游戏运营分析平台。
662 0
乐元素 X Hologres,一站式高性能游戏运营分析平台
|
存储
《玩转海量音视频云存储——数娱行业音视频云存储解决方案架构解密》电子版地址
玩转海量音视频云存储——数娱行业音视频云存储解决方案架构解密
153 0
《玩转海量音视频云存储——数娱行业音视频云存储解决方案架构解密》电子版地址
|
数据管理 数据库 开发者
14点整直播开聊!到底什么是一站式在线数据管理?
《数据库风向标》是阿里云数据库与阿里云开发者社区联合打造的一档聚焦数据库新趋势与新技术的视频栏目,节目每期会请到几位资深技术大咖,与大家共话数据库热点话题。
342 0
14点整直播开聊!到底什么是一站式在线数据管理?