带你读《数据自治》第一章绪论1.1数据是什么(二)

简介: 带你读《数据自治》第一章绪论1.1数据是什么

1.1.2         数据的属性

 

网络空间的数据具有如下属性[2]

•  物理属性:是指数据在存储介质中以二进制串的形式存在。数据的物理存在占据了存储介质的物理空间,这是数据真实存在的表现,并且数据可以被度量。数据的物理存在可以直接用于制作数据复本、进行数据传输,也可以通过特殊的方法直接从物理存在勘探数据、破解数据。

•  存在属性:是指数据以人类可感知(通常为可见、可听)的形式存在。在网络空间中,物理存在的数据需要通过 I/O设备以某种形式(如显示、声音)展现出来,才可以被人所感知、所认识。人们通过 I/O设备能感知到的数据才能被认为是存在的数据,否则只能猜测数据存在或不存在。

•  信息属性:一个数据是否有含义、含义是什么,这是数据的信息属性。通常,数据通过解释之后就会具有含义(即解释清楚数据表示什么),数据的含义就是信息;也有一些数据是没有含义的,例如,一个随意打入的字符串20xsaff7s9f9dsf7w2就没有含义,但它是数据。

•  时间属性:时间是自然界中的一个基本要素,使自然界万物朝着一个不可逆的方向发展前进,让人类能够区分过去和未来。数据界中没有时间的概念,数据的存在没有过去和未来。将一个数据项itemt1t2t33个时刻分别赋予值 100200100,则 t1t3时刻 item的值是相同的,于是可以说在t3刻,item回到 t1时刻的样子。这是数据界与自然界的最大区别。在自然界,任何事物在任何两个时刻都是不同的。如果要用数据来表示自然界中一个随

时间变化的事物,对应于自然界的时间概念,那么需要给数据加盖时间戳,例如:时间戳20099191738。事实上,在数据界中,数据没有寿命的概念。虽然数据的载体会折旧,但数据不会折旧。因此,可以通过更换数据存放载体的方式来将数据一直存储在网络空间中。

物理属性、存在属性、信息属性之间的关系如下。

•  数据的物理属性和存在属性是一一对应的。例如:data是一个数据,是数据界中存在的数据,其物理存在表现为01100100    01100001    01110100 01100001,而DATA是另一个数据,其物理存在表现01000100010000010101010001000001

•  一个信息属性可以对应多个存在属性(当然也对应多个物理属性)。数据的存在属性和信息属性之间的联系因人而异、因事而异,没有固定的规则和形式。例如:DATAdata是两个数据,就信息属性而言,两者表示同一个信息或同一个信息对象;又如Y.Y.ZHUYangyongZhu也是两个数据,但也可能是同一个信息或表示自然界的同一个人名。

 

1.1.3         数据与物质

 

根据数据的属性,数据和物质都是物理存在的,但数据的存在和物质的存在是非常不同的。主要的不同点表现在可标识性、可共享性和生命周期性 3个方面[2]

(1)可标识性

自然界中的物质都是可标识的,所谓相同的两个东西指的是同质化的两个东西,例如,对于两杯水,我们可以说一样的两杯水,但这两杯水仍然可以被区分开来;而对于数据,一个数据的存在和两个相同数据的存在是一样的,两个相同的数据的说法意义不大,两个相同的数据表示的其实是同一个事物,即一个数据,一般采用一个数据的两个复本的说法。对于数据,通常讨论数据的相似性,而不讨论数据的相同性,相似性由相似性函数定义,可以说两个相似的数据

数据的这种特性说明数据是面向值的,即如果有两个数据对象有相同的值,则认为它们是一个对象的两个复本。

(2)可共享性

共享就是指共同分享,在物理世界中主要指某样东西被多个人分享。例如

享午餐是指共享者一起吃午餐,其实每个共享者吃的东西并不一样,同样的东西是不可能被吃进两个人的肚子里的。

数据共享是指同样的数据被多个共享者使用,并且每个共享者拥有完全一样的数据量、数据形式和数据内容,即拥有数据的复本。获得一个数据的任意多个复本是轻而易举的事情,因此,数据是可共享的,并且数据拥有者通常愿意将其拥有的数据拿出来共享。

数据的可共享性意味着数据的边际成本很低,能够创造更多的价值。但是,数据的可共享性也可能带来负面效果,例如,因为数据复本的制作非常容易,所以对数据所有权的保护就非常困难。

(3)生命周期性

自然界中的物质会老化,有生命周期,但数据不会老化,没有生命周期。数据从其被生产出来到被删除的过程看起来像是有生命周期的,其实不是。根据数据的时间属性,一个数据本身是不会随时间的推移而变老、变旧的。例如,将一张照片数据存放多年以后,只要载体还存在或者不断替换新载体,这个数据对象本身是不会发生变化的,数据不会减少,数据质量也不会下降。

数据被生产、存储、修改、删除的过程通常是一个应用系统执行的结果,也可能是现实中对应该数据的事物的生命周期发生变化的数据反应,而不是计算机系统中数据的生命周期。这一点对于数据科学研究者而言非常重要。

相关文章
|
Linux Docker 异构计算
基于Dify +Ollama+ Qwen2 完成本地 LLM 大模型应用实战
尼恩,一位拥有40年经验的老架构师,通过其丰富的行业经验和深入的技术研究,为读者提供了一套系统化、全面化的LLM大模型学习圣经。这套学习资料不仅帮助许多从业者成功转型,还助力多位工程师获得了高薪工作机会。
2022年最新最详细的IntelliJ idea高效插件的介绍安装,让你的工作效率提升10倍
这篇文章详细介绍了10款IntelliJ IDEA的高效插件,包括Codota代码智能提示、Key Promoter X快捷键提示、CodeGlance代码缩略图、Lombok代码简化、阿里巴巴代码规范检查、SonarLint代码质量检查、Save Actions格式化代码、Translation翻译、Rainbow Brackets彩虹括号和Nyan Progress Bar彩虹进度条插件,旨在帮助提升开发效率和代码质量。
2022年最新最详细的IntelliJ idea高效插件的介绍安装,让你的工作效率提升10倍
|
文字识别 API 开发工具
文字识别OCR常见问题之滴滴行程单无法识别(png上传)如何解决
文字识别OCR(Optical Character Recognition)技术能够将图片或者扫描件中的文字转换为电子文本。以下是阿里云OCR技术使用中的一些常见问题以及相应的解答。
770 2
|
Android开发
Android WindowManager工具类
Android WindowManager工具类
171 0
|
JavaScript 前端开发 测试技术
从零带你手把手实现Vue3响应式原理-下(Map和Set的处理)
在本系列的上一篇文章 带你彻底搞懂Vue3的响应式原理!TypeScript从零实现基于Proxy的响应式库。[1]中 我们详细的讲解了普通对象和数组实现响应式的原理,但是Proxy可以做的远不止于此,对于es6中新增的、、、也一样可以实现响应式的支持。MapSetWeakMapWeakSet
|
机器学习/深度学习 SQL 缓存
【数据库设计与实现】第6章:并发控制
并发控制设计原则事务的并发控制首先要保证并发执行的正确性,满足可序列化要求,即并发执行的结果和某种串行执行的结果是一致的,然后在满足正确性的前提下尽可能地获得最高的并发度。当然在某些业务场景下,可以适当牺牲部分正确性(即接受某些异常),从而获得更高的并发性能。并发控制大体分为悲观算法和乐观算法,为了尽可能深入了解各种算法的优缺点,本章在Oracle、MySQL的基础上增加了PostgreSQL、C
【数据库设计与实现】第6章:并发控制
html+css实战152-定位-hot图标
html+css实战152-定位-hot图标
217 0
html+css实战152-定位-hot图标
房地产英语 Real estate词汇
做地产类网站或软件,这些应该足够了       按揭贷款mortgage loan     按揭购房to buy a house on mortgage; to mortgage a house     房屋空置率housing vacancy rate     安居工程Comfortable H.
2891 0
|
应用服务中间件 nginx Windows

热门文章

最新文章