数据是黄金还是垃圾?(上)

简介: 数据是黄金还是垃圾?(上)

微信图片_20220121185113.jpg


数据是黄金还是垃圾? 

互联网的出现,特别是移动互联网的飞速发展产生了大量的数据。这些海量数据是公司开展业务的宝贵财富。经常有人说:“数据是未来的石油”,“数据是未来的钞票”,“数据是未来的黄金”。如果数据真的那么有价值,那么无限增加数据就会带来无限的价值,公司光靠不断积累数据就能成为世界上最有价值的公司。事实上,今天庞大的数据存储量已经为各公司带来了沉重的技术和财务负担,那么数据到底是黄金还是垃圾呢?


数据的价值

对大多数公司而言,挖掘数据所产生的价值对业务影响极大。例如,各种商业活动会在交易平台上产生不同的交易数据,这些数据经过清洗、过滤、整理和分析可以提供给商户,完成客户服务、精准营销、风险评估等各种工作,为公司带来价值,因此,从这个角度来说,数据的价值如同黄金一般珍贵。


微信图片_20220121185135.jpg


数据的成本

存储数据是需要成本的,数据的成本绝非只有物理存储空间成本那么简单,实际上它包括了下述五种成本要素:


  • 物理存储器

各种专用或通用的数据存储设备或者分布式存储设备

  • 人员和软件

为了有效地管理存储而必须配备的人员与软件所投入的资金和努力

  • 电力和空间

为确保存储系统能正常运行所需要的电力和IDC机房空间的投入

  • 遍历的时间

为了检索数据而不得不遍历存储空间所耗费的时间

  • 灾备的成本


为了保证数据安全而进行数据备份所需要的各类资源,数据的成本 = 物理存储器 + 人员和软件 + 电力和空间 + 遍历的时间 + 灾备的成本。


微信图片_20220121185210.jpg


数据的成本价值困局

数据对企业的价值并非相同。在许多企业中,时间会减低我们可以从任何特定数据元素中所获得的价值。例如,很多旧数据对建立交易模型用处不大。某个客户与电子商务平台交互的旧记录可能有用,但其价值远不如最新的数据。电话公司几年前的详细通话记录没有最新的通话记录对用户的价值大。三年前的银行交易记录不如最近几个星期的有用。人们可能会偶尔看一下老照片和老视频,但是经常看的还是最近上传的新照片和新视频。虽然我们不能说所有的旧数据都没有新数据价值大,但在大多数的情况下,新数据更有价值是一个事实。


微信图片_20220121185226.jpg


上面的表达方法叫RFM图,R代表数据的产生时间(Recent), F代表数据的使用频率,M代表以货币表达的数据价值(Monetary)。从上面的RFM图可以看出,越是最近产生,越是经常使用的数据其货币价值越高(右后上方的顶点)。相反,产生很久,而且不常使用的数据几乎没有什么货币价值。


如果数据的价值随着时间的推移而降低,那么为什么我们还要保存那么多的数据呢? 我们把这个问题叫作数据的成本价值困局。大多数公司并没有对数据价值随时间的推移逐渐降低和维持高速增长的数据成本这些事实引起高度注重。通常情况下,更新、更快存储技术的出现使我们能够以更低的初始成本来存储相同数量的数据,或者用相同的成本来存储更多的数据。随着单位存储成本的下降,我们要保存更多数据的愿望也逐渐膨胀。在高速增长的公司,除了要考虑数据的价值很可能会随着时间的推移而降低的事实之外,我们还要考虑虽然单位存储成本下降,但保存数据的总成本极有可能增加的事实。如何对此做出合理的决策对大多数企业提出了独特的新挑战。



成本与价值匹配的策略

如果法律或法规要求你保留历史数据,比如电子邮件或财务交易记录,那么别无选择,只能遵守法律。在其它情况下,你可以对数据的价值和保存它的成本进行评估。


MBA课程往往花费大量时间去讨论什么样的客户是非赢利性客户。所谓的非赢利性客户是指那些为了维持这些客户,所花费的成本超过从其本身所能获得的利润。利润也包括由于这些客户的引见而带来的业务所产生的利益。在理想情况下,最好不要保持非赢利性客户或停止继续为他们提供服务。筛选非赢利性客户的概念同样也适用于筛选数据。在大多数情况下,经过足够的调查分析,你很有可能会发现什么数据能增加收益,什么数据会降低收益。就像某些客户不能给企业带来利润一样,某些数据能带给我们的价值远低于用于维护它们所花费的成本。


每种选择方案都有一定的价值。准确的价值则取决于最终所选择的方案能够带来的利益。数据选项的价值有限度,为了给这个价值一个界限,我们应该开始回答下述五个问题:


  • 我们过去经常依靠数据做出有价值的决定吗?
  • 在那个决定中,我们使用多久以前的数据?
  • 该数据最终创造的价值是多少?
  • 维护这些旧数据的成本是多少?
  • 平衡成本,最终的结果我们赢利吗?
相关文章
|
算法 安全 大数据
隐私计算实训营第5讲-------隐私求交和隐语PSI介绍以及开发实践
隐私求交(Private Set Intersection, PSI)是利用密码学技术在不暴露数据集以外信息的情况下找到两集合的交集。隐语SPU支持三种PSI算法:ECDH(适合小数据集)、KKRT(基于Cuckoo Hashing和OT Extension,适合大数据集)和BC22PCG(使用伪随机相关生成器)。ECDH基于椭圆曲线 Diffie-Hellman,KKRT利用OT Extension实现高效处理,而BC22PCG通过压缩满足特定相关性的随机数减少通信量。此外,还有基于Oblivious Pseudo-Random Function (OPRF)的PSI协议。
1625 0
|
数据可视化 测试技术
9个时间序列交叉验证方法的介绍和对比
在本文中,我们收集了时间序列的常用的9种交叉验证方法。这些包括样本外验证(holdout)或流行的K-fold交叉验证的几个扩展。
2489 0
9个时间序列交叉验证方法的介绍和对比
|
存储 算法 安全
密码学系列之九:密钥管理
密码学系列之九:密钥管理
2825 45
|
SQL Java 关系型数据库
SpringBoot 系列之 MyBatis输出SQL日志
这篇文章介绍了如何在SpringBoot项目中通过MyBatis配置输出SQL日志,具体方法是在`application.yml`或`application.properties`中设置MyBatis的日志实现为`org.apache.ibatis.logging.stdout.StdOutImpl`来直接在控制台打印SQL日志。
SpringBoot 系列之 MyBatis输出SQL日志
|
机器学习/深度学习 人工智能 城市大脑
城市大脑 | 智慧城管解决方案
本文介绍了城市大脑 | 智慧城管解决方案的方案概述,方案价值及优势以及最佳实践。
城市大脑 | 智慧城管解决方案
|
19天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
32198 117
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
9天前
|
应用服务中间件 API 网络安全
3分钟汉化OpenClaw,使用Docker快速部署启动OpenClaw(Clawdbot)教程
2026年全新推出的OpenClaw汉化版,是基于Claude API开发的智能对话系统本土化优化版本,解决了原版英文界面的使用壁垒,实现了界面、文档、指令的全中文适配。该版本采用Docker容器化部署方案,开箱即用,支持Linux、macOS、Windows全平台运行,适配个人、企业、生产等多种使用场景,同时具备灵活的配置选项和强大的扩展能力。本文将从项目简介、部署前准备、快速部署、详细配置、问题排查、监控维护等方面,提供完整的部署与使用指南,文中包含实操代码命令,确保不同技术水平的用户都能快速落地使用。
4721 4
|
15天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
6821 18
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
|
14天前
|
人工智能 机器人 Linux
OpenClaw(Clawdbot、Moltbot)汉化版部署教程指南(零门槛)
OpenClaw作为2026年GitHub上增长最快的开源项目之一,一周内Stars从7800飙升至12万+,其核心优势在于打破传统聊天机器人的局限,能真正执行读写文件、运行脚本、浏览器自动化等实操任务。但原版全英文界面对中文用户存在上手门槛,汉化版通过覆盖命令行(CLI)与网页控制台(Dashboard)核心模块,解决了语言障碍,同时保持与官方版本的实时同步,确保新功能最快1小时内可用。本文将详细拆解汉化版OpenClaw的搭建流程,涵盖本地安装、Docker部署、服务器远程访问等场景,同时提供环境适配、问题排查与国内应用集成方案,助力中文用户高效搭建专属AI助手。
4780 11