带你读《数据自治》第一章绪论1.1数据是什么(一)

简介: 《数据自治》第一章绪论1.1数据是什么

    在大数据浪潮的推动下,从数据资源到数据资产再到数据要素,数据的重要性持续提高,数据是数字经济的关键要素”这一论断已经形成共识。持续的信息化使得网络空间形成了庞大的数据资源。对数据资源进行开发利用而形成的数据产业是巨大的。本章界定了数据的内涵,介绍了数据的属性及其与物质的差异、与数据相关的基本概念(包括大数据、数据界、数据资源、数据资产、数据要素等),还介绍了数据产业、数据权属、数据流通、数据自治等内容。本章是本书的导引。

    本章由朱扬勇撰写。

1.1 数据是什么

以前常用的一组名词是信息、信息科学、信息技术和信息产业等,现在常用的一组名词是数据、数据科学、数据技术和数据产业。为什么现在叫大数据而不大信?为解决该问题,首先要理清数据是什么,有什么特性。

 

1.1.1         数据界

 

1.1.1.1               数据是什么

传统上,数据是指 9610118084这样一些数值型数据,其实,数据还包括dataology上海市数据科学重点实验”“2013/09/06符号、字符、日期形式的数据,也包括文本、声音、图像、照片和视频等类型的数据,购物记录、住宿记录、旅行记录、银行消费记录、微博、微信、政府文件等也都是数据。

一般认为数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。

本书对数据的定义如下:数据是指被输入网络空间中的任何东西,是网络空间中的唯一存在。 

之所以这样定义数据,是因为大数据、数据科学、数据技术、数据资源、数据资产、数据要素等概念所指的数据都是网络空间的数据。网络空间中的数据和网络空间外面的数据有很大差异,网络空间中的数据是通过计算机处理的,而网络空间外面的数据是人们手工或利用脑力直接处理的。


1.1.1.2               数据界是什么[1-2] 

数据界被定义为网络空间中的所有数据。而网络空间是数据的载体,不是数据界的组成部分。

随着信息化进程的不断发展,数据被持续、大规模地生产,并存储在网络空间中,形成数据界。虽然是人生产了数据,并且人还在不断生产数据,但数据界中的数据已经表现出不为人所控制、未知性、多样性和复杂性等自然界特征。

(1)数据不为人所控制

名词数据爆”“息爆炸已经出现 30  多年了,自进入大数据时代以来,人们普遍认为数据每2~3年就会翻一番,且人们无法控制数据的增长,甚至也不了解数据的增长速度。人们无法控制的还有计算机病毒的大量出现和传播、垃圾邮件泛滥、网络的数据攻击增多、数据滥用等。人们使用各种电子设备生产数据,例如拍照、拍X光片、做 CT检查、做各种检验等;人们的出行、工作、购物消费、网络会议、娱乐、在线经济等也都在快速、大规模地生产数据;计算机病毒还能自动、快速、大规模地传播数据。这种大规模的随时随地生产数据的情形是任何政府和组织都不能控制的。虽然从个体上来看,其生产数据是有目的的、可以控制的,但是从总体上来看,数据的生产是不以人的意志为转移的,是以一种类似自然的方式增长的。因此,我们说数据的增长和流动不为人所控制。

(2)数据的未知性

在网络空间中出现了大量未知的数据、未知的数据现象和规律,这是数据科学出现的原因。

数据的未知性主要体现在以下几个方面。

•  数据表示了未知的现实事物:早期人们将已知的事情交给计算机完成,将已知的数据存储到计算机中,将已知的算法写成计算机程序。数据、程序和程序执行的结果都是已知的或可预期的。事实上,这期间计算机的主要作用是帮助人们工作,提高工作效率。因此,计算机所做的事情和生产的数据都是清楚的。随着设备和仪器的数字化进程不断发展,各种设备都在生产数据,于是大量人们并不了解的数据被生产出来并存入网络空间。例如,自从人类基因组计划(HumanGenomeProjectHGP开始后,巨量的 DNA数据被存储到网络空间中,这些数据是通过 DNA测序仪器检测出来的,是各种生命DNA序列数据。虽然人们将 DNA序列存入了网络空间,但在将其存入网络空间时,人们并不了解 DNA序列数据表达了什么,有什么规律,是什么基因片段使得人之间相同或不同,物种进化的基因如何变化,是否有进化或突变,等等。

•  网络空间自有的未知数据:网络空间自有的非现实数据更是未知的。例如,电子游戏创造了一个全新的活动区域,这个区域的所有场景、角色都是虚拟的,还有虚拟货币。这些虚拟区域的事物通过游戏玩家与现实世界联系在一起。因此,游戏世界表现出的和内在的东西在现实世界中是不存在的,是未知的。

•  不能看到数据反映的现实:也许网络空间中某些数据早就显示人类将面临一场能源危机,人们却无法从数据中得到这样的知识。虽然每个人都是将个人已知的事物和事情存储到网络空间中,但是,当一个组织、一个城市或一个国家的公民都将其个人工作、生活中的事物存储到网络空间中时,数据将反映这个组织、城市或国家的整体状况,包括国民经济和社会发展的各种规律和问题。这些由各种数据综合反映的社会经济规律是人们事先不知道的,也就是说,信息化工作将社会经济规律这些未知的东西也存储到了网络空间中。

•  无法判别数据的真实性:人们不知道从互联网上获得的数据是否是正确的和真实的,当人们在两个不同的网站上对相同的目标进行搜索访问时,得到的结果可能是不一样的,人们无法判断哪个结果是正确的。

•  如何认识数据界:人们不知道数据界有多大,数据界以怎样的速度在增长,数据界的数据是否会阻塞整个网络,等等。

(3)数据的多样性和复杂性

随着技术的进步,存储到网络空间中的数据的类别和形式越来越多。早期的数据主要通过键盘录入,大部分是字符数据;从 20世纪 90年代开始,多媒体设备、数字化设备的大量出现(例如音频、视频设备等)使数据的生产方式变得多样、生产数据的速度飞速加快,远远超出了信息技术进步的速度,这也为现在的大数据埋下伏笔。数据的多样性是指数据类别多样,如不同语言的数据、不同行业的数据、空间数据、海洋数据、DNA数据等,还包括互联网中/不在互联网中的数据、公开/非公开的数据、企业/政府的数据等。数据的复杂性体现在两个方面:一是数据具有各种各样的格式,包括各种专用格式和通用格式;二是数据之间存在着复杂的关联性。


数据界已经形成。由于网络空间的数据已经表现出不为人所控制、未知性、多样性和复杂性等自然界特征,没有哪个人、哪个组织、哪个国家能够控制网络空间中数据的增长、流动。很多数据表达的是现实中的事物,还有很多(甚至是更多)数据是与现实无关的,这些数据只在网络空间中存在,不表示任何现实的事物,因此这是另外一个世界——数据界。


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
机器学习/深度学习 API 语音技术
|
关系型数据库 测试技术 数据库
使用Docker搭建测试用例管理平台TestLink:简易指南
使用Docker搭建TestLink测试管理软件的步骤如下:首先,拉取`bitnami/mariadb`和`bitnami/testlink-archived`镜像。然后,启动MariaDB容器,创建数据库。接着,启动TestLink容器并连接到MariaDB。检查容器状态确保它们已启动。最后,访问`localhost:8099`以使用TestLink,默认用户名为`user`,密码为`bitnami`。这样,你就能在本地便捷地进行测试管理了。
|
传感器 存储 边缘计算
3000字11张图硬核科普:什么是边缘计算?与云计算有什么联系和区别?
边缘计算是 现代IT 网络架构的一种创新的、革命性的方法,计算处理去中心化并在靠近数据源的网络“边缘”执行它,数据不再发送到云或任何单个数据处理中心,而是被发送到靠近传感器或生成此数据的设备数据源,极大的提高了数据的处理速度,节省了大量的带宽,还提高了数据的安全性。
1808 0
3000字11张图硬核科普:什么是边缘计算?与云计算有什么联系和区别?
|
4月前
|
数据采集 数据可视化 程序员
为什么总有人说低代码不行?
低代码技术通过可视化组件和模块化开发,有效解决企业IT资源不足、开发成本高和需求变化快三大痛点。其优势在于快速开发、降低技术门槛和统一技术栈,但存在灵活性受限、性能不足和供应商锁定风险。低代码特别适合快速原型验证、企业内部应用和业务流程自动化等场景。企业应理性评估其适用性,将其作为数字化转型的高效工具。
|
存储 人工智能 安全
从梦想到现实:十年见证AI自动化漏洞修复的演变
2014年,我怀揣着利用科技创造更安全数字世界的梦想,提出了通过云平台自动化修复第三方网站漏洞的构想。十年后的2024年,随着AI技术的崛起,这一梦想已成为现实。如今,用户只需简单注册并安装插件,AI系统就能自动检测、修复漏洞,整个过程高效、智能。AI不仅提升了系统的可靠性和效率,还具备自我学习能力,使安全防护更加主动。未来,我将继续用AI探索更多可能,推动技术的发展,不断完善这个充满智慧与安全的数字世界。
359 3
从梦想到现实:十年见证AI自动化漏洞修复的演变
|
11月前
|
人工智能 自然语言处理 安全
DogAPI-人工智能接口商城
DogAPI 是一家自 2023 年成立以来快速崛起的全球领先人工智能接口和服务提供商,已服务超 10 万用户与 5000 家企业。平台提供丰富多样的 AI 接口(如 OpenAI、Claude、Azure 等)、高级账号套餐、LLM 训练数据及算力租用服务,覆盖自然语言处理、图像生成等多领域。DogAPI 致力于以优惠价格和一站式解决方案助力开发者与企业,同时提供强大的技术支持与灵活交付方式,推动 AI 技术的实际应用与发展。
309 0
DogAPI-人工智能接口商城
|
XML Java 开发者
通过springboot框架创建对象(一)
在Spring Boot中,对象创建依赖于Spring框架的核心特性——控制反转(IoC)和依赖注入(DI)。IoC将对象的创建和管理交由Spring应用上下文负责,开发者只需定义依赖关系。DI通过构造函数、setter方法或字段注入实现依赖对象的传递。Spring Boot的自动配置机制基于类路径和配置文件,自动为应用程序配置Spring容器,简化开发过程。Bean的生命周期包括定义扫描、实例化、依赖注入、初始化和销毁回调,均由Spring容器管理。这些特性提高了开发效率并简化了代码维护。
|
运维 Kubernetes Java
阿里云容器计算服务ACS ,更普惠易用、更柔性、更弹性的容器算力
ACS(阿里云容器计算服务)推出Serverless容器算力,提供更普惠、柔性、弹性的算力资源,适用于多种业务场景,如复合应用、ACK集成、EMR大数据处理等,帮助企业降低成本、提升效率。
|
Oracle 关系型数据库 数据库
oracle 重启步骤及踩坑经验
oracle 重启步骤及踩坑经验
687 0
|
存储 安全 搜索推荐
这些年在阿里学到的方法论
本文从做事方法、思维方式、目标管理、数据分析、用户增长几方面介绍了相关的方法论,希望能给读者带来一些帮助!
18719 15

热门文章

最新文章