数据是黄金还是垃圾?(下)

简介: 数据是黄金还是垃圾?(下)

提出这些问题并不意味着要从系统中删除所有的数据。如果没有一些有意义的数据,平台可能无法运作。确切地说是要指出应该评估和质疑保留数据的策略,以确保所有保存的数据都有价值。如果在过去你没有依靠数据做出更好的决定,那么从明天开始使用所有数据的机会也不会太大。即使你开始使用数据,也不太可能使用所有的数据。因此,应该确定:


  • 哪些数据具有真正的价值?
  • 哪些数据有价值但应该存储在低成本的存储系统?
  • 哪些数据可以删除?

然而,在大多数情况下,数据的价值会随着时间的推移而降低,无限的数据不等同于无穷的价值。两者会有一个平衡点,在该点之后,旧数据的价值开始明显地衰减。因此需要了解数据的价值,把数据在某一年的价值与之前二年、五年的价值进行比较,以此类推,从而确定一个数据不再带来赢利的时间点和额外数据的增加会对保留客户、做出更好决策等等带来的接近于零价值的时间点。


微信图片_20220121185310.jpg


解决困局方案

分层存储

在认识到某些数据具有巨大价值、某些数据具有较低价值、某些数据可能有价值、某些数据根本没有价值之后,我们就可以为有价值的数据设计一种以成本为划分标准的分层存储方案,并删除具有较低价值或没有价值的数据。还可以将数据进行转换和压缩以确保以显著的低成本保留大部分有价值的数据。


微信图片_20220121185326.jpg


假设一家公司确认它的一部分数据具有真正的价值,但存储成本高于数据所创造的价值。这意味着到了应该考虑分层存储方案的时候了。许多公司以业务处理系统的需求为主选择某种类型的存储系统。这个决定的结果是几乎所有系统和应用都依赖优质的存储系统。尽管绝不是所有的其它系统都需要冗余性、高可用性和与主要业务处理系统一样快的响应时间。对于具有较低价值的服务和需求,可以考虑使用数据的分层存储方案。


例如,可以把不经常访问,不需要立即响应的数据存放在较慢的、低成本和低功耗的存储设备上。另一个选择是分割架构,以服务其中的某些应用的数据需求,以解决“存档数据服务”的功能。为了节省处理能力,也许对“存档数据服务”的请求以异步方式进行发送,当结果生成后发电子邮件通知。


也有许多其他的选择可以通过分层的解决方案来降低成本。不常访问的客户数据可以放在云存储系统。对于旧的和不变的数据,可以把它们从数据库中删除并以静态形式存储。数据越旧,就越不被频繁地访问到;因此,随着时间的推移,可以转移到较低的存储层。


该解决方案匹配成本及其所能创造的价值。并不是每个系统或每条数据都能对公司的业务提供相同的价值。通常我们根据公司员工的技能或对公司的价值为员工支付薪水,那么,为什么不以同样的方式去设计系统呢?如果某组数据有价值,但不多,那只需为它们构建一个能和它们的价值相当的系统。这种方法确实存在一些缺点,例如要求运维人员支持和维护多个存储层,但只要对这些额外成本进行适当的评估,分层存储系统就可以适用于许多公司。


数据转换

数据转换所遵循的原则是基于ETL“提取、转换和加载”(Extract, Transform and Load)的过程。ETL的概念可以帮助你避免在业务系统中存储大量数据。在理想情况下,这些ETL过程,除了从主要业务系统中删除数据之外,与保留同样时间段的原始数据相比,它还会减少对整体存储量的需求。将昂贵的详细记录浓缩成汇总表和事实表,致力于回答特定的问题,有助于节省空间和加快处理。


微信图片_20220121185343.jpg


例如,如果要做出正确的业务决策,需要考虑到市场营销部门所关心的每个客户行为的需求。市场营销部门可能对在一段时间内购买一定数量以上产品的人口统计分析有兴趣。为了满足这些需求,保存每次购买的原始记录可能是最灵活的方式,但是市场营销部门可能觉得也可以按月统计客户购买产品的数量。突然之间,对数据的要求降低了:因为许多客户都是回头客,所以可以把每个原始交易记录拆分成买方记录、交易物品记录和每月购买物品数量记录。现在可以把在线交易记录保持四个月,以便生成最新的季度详细报告,然后把这些具体的交易信息汇总成买方个人摘要提供给市场营销部门,同时汇总成内部各部门摘要提供给财务部门使用。实施这个计划后,需要存储的数据量可能减少高达50%。此外,这个计划也帮助我们降低了应用生成报表所需的响应时间,提高了市场营销部门的效率。


又如,如果以提供更好客户体验数据处理为宗旨,那么当客户使用平台时,我们可能会向客户推荐产品。这些推荐可能包括其他看过或买过同类产品的客户还购买了什么其他的产品。当用户在选购时,应用程序通过扫描所有的购买记录来计算和展示该客户与产品关联的图表,这项工作可能太复杂,在这么短的时间里根本无法实现。出于这个原因,我们希望提前处理和保留产品与客户的关系。这样,在计算的同时也减少了存储所有历史交易细节的必要。产生预处理关系图表不仅加快了对客户的响应时间,而且也减少了长期保存数据的需求。


总结

数据变旧和数量增长,会使公司的运营成本增加。同时在数据变旧之后,对企业的价值通常会降低。执著于那些过期数据价值的原因包括无知、感性的选择价值。我们应该用真正的货币价值而不是感性的、主观臆断的价值来正确地分析数据存在的价值。


在确定了数据价值及其成本之后,则应考虑实施分层存储系统,使数据存取的成本和数据所带来的价值相匹配。这种分层策略,一方面是采用先进的高速存储设备;另一方面是删除或清理价值较低的数据。对于那些即使在数量上有所减少却不会显著改变其价值的数据,数据转换和汇总能够将有助于降低成本和增加盈利。


相关文章
|
8天前
|
云安全 监控 安全
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1451 8
|
7天前
|
人工智能 安全 前端开发
AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope 重磅发布 Java 版本,拥抱企业开发主流技术栈。
484 11
|
19天前
|
人工智能 Java API
Java 正式进入 Agentic AI 时代:Spring AI Alibaba 1.1 发布背后的技术演进
Spring AI Alibaba 1.1 正式发布,提供极简方式构建企业级AI智能体。基于ReactAgent核心,支持多智能体协作、上下文工程与生产级管控,助力开发者快速打造可靠、可扩展的智能应用。
1260 43
|
19天前
|
人工智能 前端开发 算法
大厂CIO独家分享:AI如何重塑开发者未来十年
在 AI 时代,若你还在紧盯代码量、执着于全栈工程师的招聘,或者仅凭技术贡献率来评判价值,执着于业务提效的比例而忽略产研价值,你很可能已经被所谓的“常识”困住了脚步。
1167 88
大厂CIO独家分享:AI如何重塑开发者未来十年
|
2天前
|
存储 弹性计算 容灾
阿里云服务器ECS自定义购买流程:超详细新手入门教程
本文详细介绍阿里云服务器ECS自定义购买全流程,涵盖付费模式、地域选择、网络配置、实例规格、镜像系统、存储、公网IP、带宽计费及安全组设置等关键步骤,适合新手入门参考,助你轻松完成云服务器选购与部署。
195 121