本节书摘来自华章出版社《大数据集成(1)》一书中的第1章,作者 [美] 董欣(Xin Luna Dong)戴夫士·斯里瓦斯塔瓦(Divesh Srivastava),更多章节内容可以访问云栖社区“华章计算机”公众号查看
第1章 大数据集成的挑战和机遇
大数据时代是数据化的必然结果:我们能将世界中的每个事件和交互都转化成数字数据,同时期望从这些数据中分析和抽取出价值。大数据带来许多愿景,使我们能做出由数据驱动的有价值的决策,并以此来改变社会的方方面面。
当前各种各样的领域都在产生和使用着大数据,包括数据驱动的科学、电信、社交媒体、大型电子商务、病历和电子健康(e-health)等等。由于不同数据进行链接和融合会使数据的价值爆炸性地增大,因而大数据集成(Big Data Integration, BDI)问题是在各领域内实现大数据美好愿景的关键。
例如,最近有很多工作通过挖掘万维网抽取出实体、关系以及本体等,以构建通用知识库,如Freebase [Bollacker et al. 2008]、Google知识图谱 [Dong et al. 2014a]、ProBase [Wu et al. 2012]和Yago [Weikum and Theobald 2010]等。这些工作均显示,使用集成的大数据可以改善Web搜索和Web规模的数据分析。
另一个重要的例子是,近年来产生了大量有地理参照的数据,如有地理标记的Web对象(如照片、视频、推文)、在线登记(如Foursquare)、WiFi日志、车辆的GPS轨迹(如出租车)以及路边传感器网络等。这些集成的大数据为刻画大规模人类移动提供了契机[Becker et al. 2013],并对公共卫生、交通工程和城市规划等领域产生了影响。
本章中,1.1节描述大数据集成的问题和传统数据集成的要素。1.2节讨论BDI带来的特定挑战。我们首先确定BDI不同于传统数据集成的方面,然后给出几个研究BDI中数据源特性的最新研究案例。BDI还提供了传统数据集成不能提供的机会,1.3节重点介绍其中的一些机会。最后,1.4节给出本书其余部分的章节安排。