带你读《数据资产》第一章绪论1.1界定数据(一)

简介: 《数据资产》第一章绪论1.1界定数据(一)

1.1.3         数据与物质

 

数据和物质都是物理存在的,但数据的存在和物质的存在是不同的,主要表现在可标识性、可共享性和生命周期性 3个方面[6]

(1)可标识性

自然界的物质都是可标识的,所谓相同的两个东西指的是同质化的两个东西,例如,面对两杯水,可以说一样的两杯水;而对于数据,一个数据的存在和两个相同数据的存在是一样的,两个相同的数据的说法意义不大,两个相同的数据表示自然界的一个事物,即一个数据,一般采用一个数据的两个副本的说法。对于数据,通常讨论数据的相似性,而不讨论数据的相同性,相似性由相似性函数定义,可以说个相似的数据

数据的这种特性说明数据是面向值的,即如果有两个数据对象有相同的值,则认为它们是一个对象的两个副本。


(2)可共享性

共享就是指共同分享,在物理世界中主要指某样东西被多个人分。例如共享午餐是指共享者一起吃午餐,其实每个共享者吃的东西并不一样,同样的东西是不可能被吃进两个人的肚子里的。 

而数据共享的概念有本质上的不同,数据共享是指同样的数据被多个共享者使用,并且每个共享者拥有完全一样的数据量、数据形式和数据内容,即拥有数据的副本。相对于数据生产来说,将一个数据复制随意多个副本是轻而易举的事情,因此,数据是可共享的,并且数据拥有者通常愿意将其拥有的数据拿出来共享。

数据的可共享性意味着数据的边际成本很低,能够创造更多的价值。但是,数据的可共享性也可能带来负面效果,例如,因为数据副本的制作相对于数据生产来说非常容易,所以对数据所有权的保护就非常困难,数据的稀缺性也极易受到挑战。


(3)生命周期性

自然界中的物质会老化,有生命周期;而数据不会老化,没有生命周期。数据从其被生产出来到被删除这个过程看起来像是有生命周期的,但其实不是。根据数据的时间属性,一个数据本身是不会随时间的推移而变老、变旧的,例如,将一张照片数据存放多年以后,只要载体还存在或者不断替换新载体,这个数据对象本身是不会发生变化的,数据不会减少,质量也不会下降。

数据被生产、存储、修改、删除的过程通常是一个应用系统执行的结果,也可能是现实中对应该数据的事物的生命周期发生变化的数据反应,而不是计算机系统中数据的生命周期。这一点对于数据科学研究者而言非常重要。


1.1.4         大数据

 

关于大数据,不同的人群有不同的理解。当前,大数据人群可以被分为 3类:有大数据的人群、做大数据的人群和用大数据的人群。很多时候大家在谈论大数据时,实际上是在谈论不同的东西,即有大数据的人谈论数据资源及其规模,做大数据的人谈论大数据带来的技术挑战,用大数据的人则谈论大数据带来的决策   变革。

那么,大数据是数据、技术还是应用呢?事实上,数据的价值和挖掘这些价值的时效是大数据的核心内涵。

 

·  关于价值:首先,如果一个数据集没有价值,就不需要被关注;其次,如果一个数据集的价值密度高,即大部分数据是有价值的,那么直接读取数据集就能获得价值,没有技术难度。因此,真正的大数据是价值密度低的数据集,从数据集中获取价值像大海捞针一样。大数据是高难的技术挑战。


·  关于时效:首先,所有的大数据处理和分析都应该在希望的时间内完成,如果过了希望的时间,就没有意义了,这是一个技术难题;其次,在竞争中,要比竞争对手更快地完成大数据处理和分析。


这样来看,给定一个大数据,如果没有技术能够在希望的时间内挖掘其价值,那么大数据是一个技术挑战,否则就是一个大数据应用。需要注意的是,一个大数据应用可能会转化成大数据的技术挑战。例如,无人驾驶汽车在道路上行驶时,会获取汽车自身的工作数据(行驶速度、油量、引擎工作状态等)、实时路况数据(前车车速、车距、行人等)、道路管理数据(红绿灯、限速等),并及时分析这些数据、及时做出驾驶判断。当汽车速度小于 50km/h时,发现 50m外车道上有行人后,经过 2s的数据分析得出需要刹车的结论是可以接受的;但当车速提高到 100km/h时,数据分析的时间就需要小于 1s。这时,大数据应用变成了大数据技术挑战。


事实上,数据、技术和应用是大数据的 3个要素,数据隐含价值,技术发现价值,应用实现价值。大数据是为决策问题提供服务的大数据集、大数据技术和大数据应用的总称。其中,大数据集是指一个决策问题用到的所有可能的数据,通常数据量巨大、来源多样、类型多样;大数据技术是指大数据资源获取、存储管理、挖掘分析、可视展现等技术;大数据应用是指用大数据集和大数据技术来支持决策活动,是新的决策方法[7]

一个大数据能否为一个决策问题提供服务的关键是:能否在决策希望的时间内有效完成所有的任务。但是数据增长的速度远远大于技术进步的速度,因此,出现了大数据问题。大数据问题是指不能用当前技术在决策希望的时间内处理分析数据的数据资源开发利用问题。大数据问题的关键技术挑战在于:找到隐含在低价值密度数据

 

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
20天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
32433 120
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
16天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
6884 20
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
|
14天前
|
人工智能 机器人 Linux
OpenClaw(Clawdbot、Moltbot)汉化版部署教程指南(零门槛)
OpenClaw作为2026年GitHub上增长最快的开源项目之一,一周内Stars从7800飙升至12万+,其核心优势在于打破传统聊天机器人的局限,能真正执行读写文件、运行脚本、浏览器自动化等实操任务。但原版全英文界面对中文用户存在上手门槛,汉化版通过覆盖命令行(CLI)与网页控制台(Dashboard)核心模块,解决了语言障碍,同时保持与官方版本的实时同步,确保新功能最快1小时内可用。本文将详细拆解汉化版OpenClaw的搭建流程,涵盖本地安装、Docker部署、服务器远程访问等场景,同时提供环境适配、问题排查与国内应用集成方案,助力中文用户高效搭建专属AI助手。
4865 12
|
17天前
|
人工智能 机器人 Linux
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI智能体,支持飞书等多平台对接。本教程手把手教你Linux下部署,实现数据私有、系统控制、网页浏览与代码编写,全程保姆级操作,240字内搞定专属AI助手搭建!
5711 21
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
|
17天前
|
存储 人工智能 机器人
OpenClaw是什么?阿里云OpenClaw(原Clawdbot/Moltbot)一键部署官方教程参考
OpenClaw是什么?OpenClaw(原Clawdbot/Moltbot)是一款实用的个人AI助理,能够24小时响应指令并执行任务,如处理文件、查询信息、自动化协同等。阿里云推出的OpenClaw一键部署方案,简化了复杂配置流程,用户无需专业技术储备,即可快速在轻量应用服务器上启用该服务,打造专属AI助理。本文将详细拆解部署全流程、进阶功能配置及常见问题解决方案,确保不改变原意且无营销表述。
6307 6
|
19天前
|
人工智能 JavaScript 应用服务中间件
零门槛部署本地AI助手:Windows系统Moltbot(Clawdbot)保姆级教程
Moltbot(原Clawdbot)是一款功能全面的智能体AI助手,不仅能通过聊天互动响应需求,还具备“动手”和“跑腿”能力——“手”可读写本地文件、执行代码、操控命令行,“脚”能联网搜索、访问网页并分析内容,“大脑”则可接入Qwen、OpenAI等云端API,或利用本地GPU运行模型。本教程专为Windows系统用户打造,从环境搭建到问题排查,详细拆解全流程,即使无技术基础也能顺利部署本地AI助理。
7781 17

热门文章

最新文章