《数据虚拟化:商务智能系统的数据架构与管理》一 1.13 数据虚拟化的历史

简介: 本节书摘来自华章出版社《数据虚拟化:商务智能系统的数据架构与管理》一 书中的第1章,第1.13节,作者:[荷]里克 F. 范德兰斯(Rick F. van der Lans),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.13 数据虚拟化的历史

术语数据虚拟化的历史相对较短。不清楚这一术语确切的创造时间。似乎是Eric Broughton在2005年发表的一篇论文中第一次使用它(见文献[12])。然而,它的概念、一些产品和研究比这早很多。
因为数据虚拟化产品在功能性上很丰富,所以有很多技术都促进了它们的发展。因此,为了展现一幅完整的历史画面,我们需要介绍分布式数据库、数据联合、XSLT和XQuery以及插件的历史。
分布式数据库:技术上来讲,数据虚拟化服务的关键特点之一是数据联合,数据联合可以有效地连接来自异构数据存储集的数据。数据联合技术第一次实现是在分布式数据库服务器中。在分布式数据库服务器中,多个独立的数据库服务器可以以一个单独的逻辑数据库工作。这就意味着数据使用者可以输入一个由不同的数据库服务器管理的多个表的连接查询。分布式数据库服务器的任务是使这些数据库看起来像是一个大的数据库。为了连接来自不同数据库服务器的数据,它们需要实现数据联合技术。
一个重要的方面是分布式连接需要尽可能高效地处理。当这些产品第一次发布时,网络相较于现在来说速度很慢,所以大多数研究都致力于最小化网络负载。20世纪80年代,第一批支持分布式连接的商业数据库服务器被推出,如Ingres、Oracle和Sybase。
大多数数据联合方面的初始研究都是由IBM在他们著名的开始于1979年的System R项目中完成的(见文献[13]和文献[14])。另一个对分布式查询有重大贡献的项目是Ingres项目,它最终带来称为Ingres的开源SQL数据库服务,现在由Actian公司发行。System R是IBM的 System R项目的一个后续项目。后者是SQL的出生地。最终,System R促成了大多数IBM商业SQL数据库服务的开发,包括SQL/DS和DB2。System R*项目始于1979年。该项目的目标是实现一个分布式数据库服务。想了解更多关于这些项目的信息,请参见文献[15]。
一开始,大多数研究和开发的重点在于优化同类数据存储环境中的访问,例如,所有数据存储都将是DB2、Ingres或Oracle数据库。后来,产品允许异构环境中的分布式联合,它涉及其他以SQL为基础或与SQL相似的数据库服务。所以第一个分布式数据库是第一个支持数据联合技术的产品,并且现今数据虚拟化产品都很大程度上继承这项技术。
数据联合服务:第一个可以宣称为专用数据联合服务的产品是IBM的DataJoiner和Information Builders的EDA/SQL(Enterprise Data Access,企业数据访问)。前者是在20世纪90年代早期引进的,而后者是在1991年引进的。这两个产品都不是数据库服务,但主要都用来集成来自不同数据源的数据。除了可以访问大多数SQL数据库服务,这些也是可以访问非SQL数据库的第一批产品。这两个产品已经成熟化且经历过几次名称改动。在成为IBM DB2 Information Integrator的一部分之后,DataJoiner目前被叫作IBM InfoSphere Federation Server,而EDA/SQL被重命名为iWay Data Hub,并且是Information Builders的 Enterprise Information Integration Suite的一部分。
XSLT:由于XML的成功,越来越多的组织机构和网上的数据都可以以XML文件的形式使用。为了转换XML文件的结构,一门叫作XSLT的标准语言在2000年被发明出来。这种语言由W3C标准化组织管理。它是一门执行转换的强大语言。这些年,XSLT已经被许多供应商在多个产品中实现。所有这些实现使XSLT成为一门成熟的技术。
因为数据虚拟化服务需要有能力去操纵被XML组织的数据,所以需要一门语言来平滑XML文件的层次结构并且指定层次结构到关系表。XSLT对于这个要求再适合不过了。所以数据虚拟化的历史和XSLT的历史也有关联。再者,数据虚拟化受益于所有关于这个领域的研究和开发工作。
XQuery:2001年,第一个XQuery标准的工作草本被推出。XQuery是一门查询性和功能性编程语言,用于查询、插入、更新和删除XML文件集合。在许多其他事件中,它可以连接XML文件、提取文件元素、选择文件并且连接关系数据和XML数据。相比于XSLT,XQuery是一种更强大的查询语言,至于在功能性方面,更是比得上SQL。要想获取更多XQuery的描述,请参见文献[16]。
和XSLT一样,XQuery标准是由W3C组织管理的。值得注意的是,XQuery的主要设计者之一是Donald Chamberlin,他也是SQL的两位主要设计者之一。如今,大部分SQL数据库服务器自然地支持XQuery语言。例如,IBM的DB2、Oracle和微软的SQL服务器都可以处理XQuery语句。所有用于合并SQL和XQuery的研究和开发都能被数据虚拟化供应商利用。
插件:互联网是一个富有有价值数据的宝藏。不幸的是,大部分数据无法以一种结构化的形式被利用,大部分数据不能以SQL数据库中的数据访问方式来访问。大部分数据都隐藏(并且有时是深度隐藏)在HTML页面里。例如,航班的价格可以在航空公司的网站上找到,天气相关的数据可以在各种各样的天气网站上找到,但是以一种程序化的方式从这些页面中获取信息不是一件容易的事。我们必须操作这些页面才能得到正确的数据。这不是简单地向这些网站发送SQL或XQuery语句就可以的。
插件是基于网络的应用程序,它们访问来自互联网不同资源里的数据,然后将它们结合到一个应用里。例如,一个插件可能将来自一个网站的犯罪数和Google的地图相结合。为了能够开发这种类型的应用,这些工具的供应商需要一种技术能以一种高效强健的方式来操作网页。这些工具应该能够理解HTML页面里使用的所有语言,包括脚本语言。而插件工具恰好能做这些。
开发插件专用工具的供应商已经花费了大量投资,使得操作过程尽可能像岩石一样坚硬可靠。数据虚拟化服务同样应该能够从这些网站里提取数据,因而可以从这个领域里的所有开发和研究中受益。事实上,提供数据虚拟化技术的公司至少有一家应该具有插件技术的背景,这也是他们公司初始的技术。
如文所述,早在20世纪90年代第一批数据虚拟化产品由IBM和Information Builders推出,在那时也叫作数据联合产品。2000年以后,更多供应商进入市场。例如,Composite Data Virtualization Platform和Denodo Platform的第一个版本都在2002年发布。MetaMatrix,在1999年成立,被Red Hat收购,他们在2011年以开源的方式发布MetaMatrix产品。2010年左右,更多产品被推出,包括Informatica Data Services和Queplix Virtual Data Manager。
在很长一段时间内,数据虚拟化不被大多数组织机构当作战略上的技术。它早先被当作一种处理特殊技术问题的技术。它没有被当作一种使得信息系统更灵活的技术,而是纯粹被当作一种没有清晰商业利益的技术解决方案。2008年左右,这完全改变了。商务智能专家以独特的眼光开始发现数据虚拟化的潜在价值。他们寻找一种新的、更敏捷的方式进行数据集成,除了ETL,他们又发现了数据虚拟化。如今,数据虚拟化已经变成了主流技术;它被看成数据集成的一种有价值的选择方案。其产品已经达到了一定的成熟水平,这也帮助它被大众所接纳。

相关文章
|
9月前
|
存储 BI Shell
Doris基础-架构、数据模型、数据划分
Apache Doris 是一款高性能、实时分析型数据库,基于MPP架构,支持高并发查询与复杂分析。其前身是百度的Palo项目,现为Apache顶级项目。Doris适用于报表分析、数据仓库构建、日志检索等场景,具备存算一体与存算分离两种架构,灵活适应不同业务需求。它提供主键、明细和聚合三种数据模型,便于高效处理更新、存储与统计汇总操作,广泛应用于大数据分析领域。
893 2
|
9月前
|
SQL 缓存 前端开发
如何开发进销存系统中的基础数据板块?(附架构图+流程图+代码参考)
进销存系统是企业管理采购、销售与库存的核心工具,能有效提升运营效率。其中,“基础数据板块”作为系统基石,决定了后续业务的准确性与扩展性。本文详解产品与仓库模块的设计实现,涵盖功能概述、表结构设计、前后端代码示例及数据流架构,助力企业构建高效稳定的数字化管理体系。
|
8月前
|
数据采集 缓存 前端开发
如何开发门店业绩上报管理系统中的商品数据板块?(附架构图+流程图+代码参考)
本文深入讲解门店业绩上报系统中商品数据板块的设计与实现,涵盖商品类别、信息、档案等内容,详细阐述技术架构、业务流程、数据库设计及开发技巧,并提供完整代码示例,助力企业构建稳定、可扩展的商品数据系统。
|
7月前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
291 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
|
8月前
|
机器学习/深度学习 存储 人工智能
RAG系统文本检索优化:Cross-Encoder与Bi-Encoder架构技术对比与选择指南
本文将深入分析这两种编码架构的技术原理、数学基础、实现流程以及各自的优势与局限性,并探讨混合架构的应用策略。
574 10
RAG系统文本检索优化:Cross-Encoder与Bi-Encoder架构技术对比与选择指南
|
7月前
|
JSON 供应链 监控
1688商品详情API技术深度解析:从接口架构到数据融合实战
1688商品详情API(item_get接口)可通过商品ID获取标题、价格、库存、SKU等核心数据,适用于价格监控、供应链管理等场景。支持JSON格式返回,需企业认证。Python示例展示如何调用接口获取商品信息。
|
8月前
|
存储 人工智能 分布式计算
数据不用搬,AI直接炼!阿里云AnalyticDB AI数据湖仓一站式融合AI+BI
阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版(以下简称ADB)诞生于高性能实时数仓时代,实现了PB级结构化数据的高效处理和分析。在前几年,为拥抱大数据的浪潮,ADB从传统数仓拓展到数据湖仓,支持Paimon/Iceberg/Delta Lake/Hudi湖格式,为开放的数据湖提供数据库级别的性能、可靠性和管理能力,从而更好地服务以SQL为核心的大规模数据处理和BI分析,奠定了坚实的湖仓一体基础。
|
8月前
|
数据采集 监控 数据可视化
数据量暴涨时,抓取架构该如何应对?——豆瓣电影案例调研
本案例讲述了在豆瓣电影数据采集过程中,面对数据量激增和限制机制带来的挑战,如何通过引入爬虫代理、分布式架构与异步IO等技术手段,实现采集系统的优化与扩展,最终支撑起百万级请求的稳定抓取。
436 0
数据量暴涨时,抓取架构该如何应对?——豆瓣电影案例调研
|
8月前
|
SQL 数据采集 数据处理
终于有人把数据架构讲清楚了!
本文深入浅出地解析了数据架构的核心逻辑,涵盖其定义、作用、设计方法及常见误区,助力读者构建贴合业务的数据架构。
|
9月前
|
数据采集 存储 分布式计算
一文读懂数据中台架构,高效构建企业数据价值
在数字化时代,企业面临数据分散、难以统一管理的问题。数据中台架构通过整合、清洗和管理数据,打破信息孤岛,提升决策效率。本文详解其核心组成、搭建步骤及常见挑战,助力企业高效用数。
2330 24

热门文章

最新文章