企业数字资产管理流程

简介:
    上期我们数据资产管理的定义和分类,小编最近又看了些国外的网站,发现在国外DAM更多被称作数字资产管理(Digital Data Management),两者没有明显的差别,只是后者通常更多涉及一些多媒体数据比如图片、语音、视频等等。
    所谓数字资产管理是从内容生成到其进入持久化存储这一阶段的流程管理,至于之后从数据脱库到进入归档是针对各系统对数据时效性的要求是数据服务管理的范畴。前一个流程大致有以下11个阶段,这也是我们今天要讲的主要内容。

1

    首先,企业内的每一个员工都是内容创建者,甚至可能时刻都在创造着这个世界上独一无二的内容。所以面对每个公司独一无二的数据资产,一般IT会采用两级备份的方式。在线备份,或者叫在线存储可能更贴切一点,即通过网盘形式要求用户只能将数据存放在带冗余带防灾的存储系统上(例如带UPS的磁盘阵列),然后进一步通过定期的任务将特别重要的某些文件夹通过镜像或批量方式转存到异地的磁带库里,完成容灾存储。

2

    下一步是对数据的编辑与处理,先说编辑,需要对进入DAM的数据做前期筛选,包括创建者的筛选,编辑人员的筛选以及最终用户的筛选(这也被成为康奈尔三层选择模型),以照片为例,由于DAM容量的关系,如果需要纳管全量数据可能有点困难,因此对源数据量需要进行编辑,也是满足目标系统的质量要求,例如一个面向公安系统的对外DAM页面关联内部喜用卡账户系统,对于所有用户照片就会有更高的质量要求。
    再说处理,这是进入DAM的准备阶段,包括对文件重命名,例如命名为身份证号.jpg;图像裁剪,将照片裁剪成32mm*26mm的标准大小;批量压缩以满足格式要求;图像处理以满足亮度、对比度以保证图像的辨识度。

3

    下面一个步序是元数据应用,这里有两类应用方式,一是嵌入式元数据应用,即将元数据随着主数据一并传输,有点类似于数据仓库的Schema on Write,即在应用接入DAM之前就定义好元数据,目标系统只能对这些原始字段中做报表统计;另一种方式是系统元数据应用,即根据目标系统量身打造元数据列表,类似于数据湖的Schema on Read,仅在需要的时候定义业务词汇表与数据字典。两种方式相比,前者为保证元数据的可靠性,需将其绑定在原始数据上,因此在传输到DAM再到业务系统都是无损无压缩的状态,这样的数据量对带宽可能是一个挑战,甚至需要引入一些第三方工具,例如优化图片传输的Adobe Bridge工具,当然对于技术人员也提出了更高的要求,包括创建Bridge模板,映射字段,标准化字库等等;而后者不涉及第三方工具,元数据可在线应用,但是也是由于这种自由度,业务系统在访问时需要消耗DAM相当的计算处理时间。

4

    接下来就是数据入DAM,相信在多数情况下,企业总是希望数据一旦生成就能快速进入资产系统,终端用户可以几乎实时地获取想要的数据。但这几乎是不可能的,因为这些数据没有任何命名规则且没有做任何元数据的关联,这就跟这些数据还散落在各个用户的PC机上一样。
    推荐的数据导入有两种方式,一种是大规模的批量,即先将目标数据统一集中在一个临时的组织级目录下,完成数据的标记和分类,然后移出到DAM并删除之前的临时目录;另一种方式是集成导入,即填充式元数据的方式,在最终系统对所需元数据定义清晰的时候再按照目标系统要求进行资产的重命名与元数据关联,当然由于前期没有任何准备,这种数据提取方式会非常耗时,好处就是DAM中的数据一定是准备就绪的数据,不会有空元数据域的情况,也不会有数据类别混乱的情况。
    随着云技术的普及,企业越来越多地选择在DAM系统中集成一些云存储系统,例如Box,DropBox或Google Drive等等,以便快速引入存储在云端的数据,这样可以雇佣一些兼职人员或买一些第三方公司的数据,以扩充自身DAM。这些数据同样需要应用元数据。记住**没有元数据的数字资产只是在占用企业存储空间**!

55

    接下去我们需要鉴别元数据的有效性,这一步中我们需要检查上载的数据都映射到了对应的客户系统,任何错误或空值需要人为或通过系统规则进行校正,尤其是当源系统或目标系统进行了变更或升级之后。只有完成了这一步,我们才能将数据传输到客户那边。
    到了目标系统,资产可能会被重新定义并反复使用,这时我们需要在每次重用时对现有资产打上版本标签。这里不同的DAM产品会有不同的版本定义方式,大部分会将现有的系统元数据应用到新版本,但不会提供端到端的新视图,如果需要一个全新的版本视图,则需要添加一个新的数据资产并重新命名,但新的资产可能不会复制已有的元数据。
    对于任何资产,我们都需要保证其时效性进行管理,毕竟过时的数据没有市场价值,包括冗余内容以及未被终端系统调用的数据的时效策略。另外过多的数字资产也会影响用户搜索的效率,因为我们需要更多的时间去打标签和搜索标签,因此对数字资产的范围需要精简明确的定义。最后对于一些使用云存储作为DAM载体的企业,存储的成本也是需要考虑的。
    举个例子来说,百度文库的时效策略是这样的,任何上载的数字资产会在DAM系统中保留五年;超过五年后,一些从来没有被访问过的数据将被移出系统,当然百度会保存离线副本作为归档,被访问过的数据会继续保存五年,任何超过10年或更久的数字资产将每年被下线并批量归档到离线副本中。

5

    最后就来介绍下持久化存储,按照存储级别可分为在线深度存储(例如Amazon Glacier),离线持久化存储(例如磁盘阵列)以及离线归档(例如百度文库),需要注意的是,即便数据离线了、被归档了,元数据依然需要关联到这些历史数据上。

6

    数字资产管理系统作为企业数据的中央系统,需要妥善的管理和运营,企业不妨设置专职的DAM管理人员或部门,在充分理解业务需求的情况下,迅速地建立数据模型和制定元数据列表,快速搭建起匹配的数据服务。
相关文章
|
设计模式 Java API
微服务架构演变与架构设计深度解析
【11月更文挑战第14天】在当今的IT行业中,微服务架构已经成为构建大型、复杂系统的重要范式。本文将从微服务架构的背景、业务场景、功能点、底层原理、实战、设计模式等多个方面进行深度解析,并结合京东电商的案例,探讨微服务架构在实际应用中的实施与效果。
688 6
|
存储 机器学习/深度学习 人工智能
云端数字资产管理:构建高效数据生态
随着数字化进程的加速,云上数字资产管理已成为企业成功的关键因素之一。通过采用适当的云存储方案、实施严格的安全措施、建立高效的搜索和检索系统,企业可以充分利用数字资产的价值,推动业务发展。未来,随着人工智能、机器学习等技术的应用,云上数字资产管理将进一步提高效率和智能化水平,为企业创造更多价值。
|
10月前
|
存储 人工智能 数据库
Agno:18.7K Star!快速构建多模态智能体的轻量级框架,运行速度比LangGraph快5000倍!
Agno 是一个用于构建多模态智能体的轻量级框架,支持文本、图像、音频和视频等多种数据模态,能够快速创建智能体并实现高效协作。
2818 22
Agno:18.7K Star!快速构建多模态智能体的轻量级框架,运行速度比LangGraph快5000倍!
|
存储 消息中间件 运维
架构升级的救星!流量回放自动化测试的必备指南
大家好,我是小米,一名29岁的技术宅。今天分享一个物联网领域的实用技能——流量回放自动化测试。系统重构后,测试工作量巨大,本文介绍如何通过日志收集和数据回放进行自动化测试,包括离线、实时和并行回放模式,帮助快速定位Bug,提升测试效率和系统稳定性。欢迎关注我的微信公众号“软件求生”,获取更多技术干货!
494 3
|
文字识别 数据可视化 前端开发
《智能文档处理“百宝箱”:数字化时代文档处理的必备利器》
在数字化时代,文档处理面临工具选择难、调试耗时、内容复杂和校对困难等问题。合合信息推出智能文档处理“百宝箱”,包含文档解析测评工具、可视化文档解析前端和向量化模型,助力开发者高效解决这些问题。这些工具广泛应用于企业办公、金融、教育和医疗等行业,提升文档处理的效率和准确性。
315 1
|
数据挖掘 Python
【Python】已解决:Python pandas读取Excel表格某些数值字段结果为NaN问题
【Python】已解决:Python pandas读取Excel表格某些数值字段结果为NaN问题
1443 0
|
API 区块链 Python
对接API火币/币安/OK/欧易交易所系统开发详细功能/案例设计/策略项目/源码功能
合约量化系统是一种自动化交易工具,它通过计算机程序实现交易决策和执行。
|
JSON 物联网 Serverless
|
小程序 API 调度
消费级显卡,17G显存,玩转图像生成模型FLUX.1!
近期stable diffusion的部分核心开发同学,推出了全新的图像生成模型FLUX.1。