大数据治理系列：2 再谈大数据应用的经典场景-阿里云开发者社区

大数据通常是根据道格·兰尼(DougLaney)首先描述的三个维度或特征来描述的:容量、多样性和速度。同时，众多组织也开始意识到，准确性也是一个关键因素，即数据背后的“信任因素”。尽管技术人员并不总是认可最终的“V”(价值)，但要想让任何大数据工作取得真正的成功，需要将洞察转化为业务价值。这三个V加上第四个V，即准确性，代表了每个大型组织在努力从其数据资源中提取价值、做出更好的决策、改进操作和减少风险时，每天都要处理的数据治理挑战的各个方面。

在任何组织中，只是对大数据的某些部分是感兴趣的和有用的。随着这些数据的快速变化和多样性(通常是非结构化的)，组织很难有效地使用这些数据来获得新的见解和改进决策。组织面临着许多考虑事项，例如有哪些其他数据源可用，以及如何在已知的情况下使用它们。例如:

1、如何管理、使用和分析不常见、不熟悉、不能格式化的数据；

2、如何使用非传统的客户数据来源(如呼叫中心数据或社交媒体的评论),以更好地理解和预测客户的行为；

3、如何处理时间敏感的数据实时决策,如识别安全风险；

4、如何使用和响应基于机器的事件日志和传感器数据,预测停机,或确保及时得到维护；

5、如何找到并获得高价值的新数据源的数据,可以连接到传统来源改善决策；

6、如何利用新技术来降低总拥有成本(TCO),同时从数据中获得最大价值。

尽管不同行业之间存在大数据应用的差别和差异，但围绕这些挑战出现了五个主要应用典型场景:

1、大数据探索；

2、增强360°的客户视图；

3、安全和智能扩展；

4、操作型数据分析；

5、数据仓库优化。

这些场景并不相互排斥。基于传感器的信息的识别和使用可以与其他传统信息进行归纳和关联，例如在一个增强的或扩展的数据仓库中的销售或定价，然后基于分析为客户提供更好的营销活动或更好的欺诈或安全风险识别提供更好的洞察。

一、大数据探索

现在人们常说，数据是“新石油”，也就是说，数据是一种具有巨大潜力的资源，但需要勘探和提炼才能获得这种价值。就像石油和天然气行业依靠勘探来确定最具生产力的钻探资源一样，使用大数据的第一步是发现你所拥有的资源，并建立获取这些资源的能力，并将其用于支持决策和日常运营。多年来，任何信息集成工作的关键步骤都是理解数据。对于大数据来说，这仍然是至关重要的一步，也是必不可少的一步。然而，大数据如此之多，以至于这项任务很快就显得非常艰巨。大数据探索是你开始发现价值的最好方式。

为什么这种理解和探索如此迫切?如果您不知道什么可用，什么是您拥有的，那么在任何其他活动都没有从它获得新价值的有意义的方法。如果您不了解数据的数量，那么您就无法了解如何适当地管理数据的环境。如果您不了解数据到达的频率或它变得无用的速度有多快，那么您就无法做出及时的、实时的决策。如果你不知道各种各样的信息，那么你就不知道如何整合你所拥有的，或者如何将它与其他信息来源联系起来，那么你就仍然没有获得新价值的有意义的方法。如果您不了解数据包含的内容，那么您就不知道这些数据可能会给您的组织带来哪些风险，是决策失误还是潜在的法规遵从性风险，以及相关的处罚和罚款。

组织有多个管理信息的应用程序，从CRM系统到企业内容管理、数据仓库和快速增长的企业内部网。挑战在于，任何重要的决策、客户交互或分析都不可避免地需要来自多个不同来源的信息。随着世界的变化，我们已经发现了许多其他数据来源的增加，人们需要这些数据来执行日常工作和做出重要决策。从示例、传感器、机器日志和网站点击流中收集的所谓“原始”数据的增长，提出了另一个挑战。如何组织大数据探索解决每个组织都面临的挑战:来自大量新来源和传统来源的信息以不同的形式存储在许多不同的系统和竖井中，如下图所示。

1、识别有价值的数据

大数据探索成为一种识别数据的方法，你可以从中获得价值或利润，而不是简单地存储并成为浪费的数据。例如:

（1）一家领先的医疗保健提供商通过自动化从所有来源获取新的合规相关数据，包括内部备忘录、网页更新和监管公告，并有选择地将这些数据分发给目标员工，极大地提高了其合规地位。这减少了该公司面临的罚款、禁令和其他合规相关风险。对现有非结构化数据资产更有效和自动化的使用也使公司减少了140名全职员工，每年节省了1120万美元的劳动力。

（2）一家领先的飞机制造商实现了一个门户网站，该网站使其员工可以极大地提高对与一个主要新型号的供应链相关的所有非结构化数据的可见性。供应链管理人员能够从规格表、提货单和其他文件中检索关键数据的速度使他们能够反复避免零件交付延迟和错误，这为公司节省了数百万美元。该公司还估计，仅在印刷、分发和存储纸质文档方面，就能将项目中的知识型员工减少9%，节省100万美元。

很明显，发现和识别感兴趣的数据，尤其是在不同的非结构化和结构化内容存储库中，是大数据探索的一个关键方面。这改善了信息访问和知识共享，减少了潜在的重复和无关的工作，并最终增强了决策。基本功能，如索引、搜索、发现和文本分析，都需要支持将许多这样的资源合并到组织中。

2、数据科学团队的支持

另一个关键方面是使团队能够围绕数据科学的新兴概念和数据科学家的相应角色展开工作。数据科学包含了一系列技能，例如统计和数学分析和建模、模式识别和学习，以及数据可视化技术，这些都超出了基本数据分析的范围。数据科学家建立假设，找到潜在的相关数据源，然后应用分析和建模技术来测试假设数据。这些工作也是探索性的工作，必须评估数据源的可用性和可能歪曲结果的偏差。数据源可能需要过滤或汇总，以与其他标准信息相关联。可能需要不同的模型、算法和方法来执行任务，例如时间序列分析、音频和视频分析，或者优化技术的应用，例如线性或二次规划。

例如，圣诞节前几周周末商店销售额的大幅下降可能表明天气是一个可能的因素。数据科学家可能会开始他的假设,收集历史交易数据在5年的时间窗口选择城市,然后结合国家气象局的气象数据相同的时间框架和城市分析,和其他数据可能有助于发现潜在的相关性,如航班延误和交通记录。经过分析，验证了假设，数据科学家可能识别出特定的数据源(例如，实时航班延误)最有可能实时预测销售影响。对市场营销部门的建议可能是，使用这个来源来识别新兴的销售趋势，并调整从商店渠道到在线渠道的销售报价。

因此，大数据探索是后续工作的基础，它可以深入了解这些不同的内容，以及在哪里可以有效地应用数量和种类的数据。这种工作通常由数据科学家、数据分析师和领域专家组成的团队进行，主要关注以下关键任务:

（1）确定可用的信息来源；

（2）发现可能使用的特点(如细节和统计)和现有的信息来源的关系；

（3）验证假设或寻找关联生成假设(例如,暴风雪显著减少存储销售但增加在线销售)；

（4）从治理角度寻找特征和风险(这是否包含敏感信息来源或为合并与现有带来潜在的敏感信息来源?)；

（5）决定是否实施(和保持)特定的数据源。

其结果是将原始的大数据转换为可支持后续应用的精炼可用信息。

二、增强360度客户视角

全面了解客户的行为，例如他们为什么购买，他们如何喜欢购物，为什么他们会改变，他们接下来会买什么，什么因素导致他们向别人推荐一家公司，以及他们不喜欢什么，对每个公司来说都是战略性的，即组织应该首先把大数据的工作重点放在客户分析上，使他们能够“真正理解客户需求并预测未来的行为”。

在过去的10 - 15年里，组织一直在使用系统和应用程序，这些系统和应用程序通过客户关系管理(CRM)和主数据管理(MDM)系统来关注它们的客户。但是，存储此级别的客户数据时，将客户视为信息对象;客户有诸如姓名、地址和电话号码之类的东西。尽管这些信息与事件和事务(如订单或电话)相关，但通常很少深入了解使客户参与组织的那些方面。

众多组织认为大数据提供了更好地理解和预测客户行为的机会，通过这样做，更有效地与现有和潜在客户互动，并改善客户体验。数据来源包括交易、多渠道交互、社交媒体、通过会员卡等来源聚合的数据，以及其他与客户相关的信息,如下图所示, 提高了组织创建客户偏好和需求的完整画面的能力，这是营销、销售和客户服务数十年来的一个重要目标。

这一原则不仅适用于零售部门，而且同样适用于电信、医疗保健、政府、银行和金融以及消费者和公民参与的消费产品部门，以及与合作伙伴和供应商的企业间的互动。

1、扩大客户相关数据的范围

社交媒体是一个新的大数据源的例子，淘宝或京东等协作渠道让客户能够更畅所欲言地表达他们的期望和结果。组织的产品或服务的问题可以立即表达出来，并暴露给大量的个人，这可能对销售或客户支持产生潜在的负面影响。相反，企业目标市场中的特定个人的关系和“喜好”可以产生对组织提供的产品的极大兴趣。

通过将这些数据与内部和外部来源相结合，组织创建的不仅仅是客户的“邮件标签”视图。这种360度视角支持以下分析结果:

（1）细粒度的客户细分；

（2）生命周期价值分析；

（3）下一个最优的报价；

（4）最近交易的历史；

（5）购买的产品类别；

（6）现有组织员工之间的关系。

有了这类信息，营销就可以针对不同的客户群体提供及时的、快速的优惠，代理商可以确定下一个最佳的优惠或行动来保持客户的忠诚度，客户支持可以对出现的问题做出快速反应。

除了这些分析，提供战略洞察客户行为，360度视角的重要性延伸到一线员工。有远见的企业意识到需要加强他们的团队面向客户的专业人员，提供正确的信息来吸引客户，发展可信赖的关系，并取得积极的成果，如解决客户问题，向上销售和交叉销售产品。要完成这些任务，他们需要能够快速浏览大量信息，以发现特定客户需要什么。

2、分析客户的个性化需求

这种增强的客户视图的一个焦点是个性化的客户需求。对每个客户的更全面的了解会带来更大的收益和更低的客户流失率(也称为流失率或自然减员率，这是衡量一段时间内客户流失的指标)。组织希望这种直接的一对一的个人体验能够实现以下目标:

（1）通过建立跨所有渠道的客户行为和偏好的综合视图来增加收入；

（2）通过添加社会分析来增加与客户的亲密度，作为了解他们与组织及其产品的交互的有价值的额外来源；

（3）通过更快、更全面地了解单个客户的体验和服务水平来提高客户满意度；

（4）通过预测客户离开的可能性，并在接近实时的情况下提供客户保留报价，来提高客户保留率；

（5）通过分析客户使用情况和对报价的实时响应来提高报价接受度。

3、微观市场活动管理

客户对报价响应的分析触及了广泛使用案例的另一个焦点:微观市场活动管理。组织越来越多地发现，针对微观市场(即其客户群的一小部分)的有针对性的消息传递比广泛的广义营销活动获得更高的回报。然而，要有效地做到这一点，组织必须完成以下任务:

（1）捕获和分析消费者对品牌的信心和产品亲和力；

（2）识别并推动本地化品牌和产品的亲和力；

（3）收集和测试新产品的创意；

（4）用电子邮件内容丰富客户数据，区分电子邮件营销服务产品；

（5）通过分析电子邮件内容丰富的客户数据，提高客户的电子邮件活动结果；

（6）通过定制优惠和促销活动提高营销支出的回报;合理的回应增长通常与购买的增长相关；

（7）优化报价和交叉销售，增加每个客户的平均产品;即使是很小的增长，比如每个客户平均增加1.5到2.0个产品，也能带来可观的收入增长；

（8）跟踪社交媒体情绪分析，以衡量有针对性的活动的影响。

最终，这种关注可以促进活动管理的目标，无论是在新产品发布的成功或在选定的渠道或细分市场的销售目标的增加。

4、客户保留

大数据也增强了客户保留能力。组织不仅可以更直接、更亲自地与客户进行接触，而且还可以根据相关数据片段(而不仅仅是事务)中出现的行为，提高留住客户的机会。组织可以通过多个大数据来源来完成这一任务，例如:

（1）使用分行出纳员笔记、呼叫中心笔记和客户电子邮件来识别客户行为或问题的变化；

（2）跟踪社交媒体情绪分析测量组织或其产品和服务的不满；

（3）通过社交媒体识别传统客户主数据中不可见的客户之间的关系，这可能会影响组织的品牌；

（4）提高能力来识别顾客流失风险,采取预防措施,提高客户保留。

与个性化的客户接触和微型市场活动相联系，积极的保留实践提供了更多的机会来维持现有的收入流，而不是试图在竞争市场中吸引新客户。

5、实时需求预测

通过需求预测，目标是帮助优化库存。对于制造业或零售业，这是提高整个供应链效率的一部分。通过结合社交媒体等大数据，甚至是即将到来的天气预报，可以识别出新兴趋势，并在需要时满足需求。需求预测可以通过结合以下信息:

（1）按商店、连锁店、产品、类别、销售渠道或区域划分的历史销售模式和价格点；

（2）根据本地情绪信息，了解本地化的趋势；

（3）可能与特定商品相关或引发更高需求的天气或新闻信息(例如，用于接近暴风雪的铲子和用于即将到来的飓风的胶合板)。

通过改进促销策略和执行，目标变得更准确、更及时。通过及时定位以满足需求，可以产生积极的反馈，以支持后续客户或供应链的需求。

三、安全和智能拓展

在组织试图增进对客户的了解的同时，他们也致力于识别和防止对其安全的威胁，维护数据安全性至关重要。在这个大数据时代，与安全相关的事件的平均成本估计会让美国公司付出代价4000万美元/年。在世界范围内，网络犯罪给人们和企业造成了3880亿美元的时间和金钱损失，比世界非法毒品市场的成本还多1000亿美元。身份盗窃达到了三年来的最高点，涉及1260万美国消费者，每年造成的损失超过210亿美元数据泄露。不仅要花钱，它们还会压低股价，造成无法弥补的品牌损失。保护品牌声誉和维护客户信任是依赖于良好数据保护的三大组织目标中的两个法律也要求数据保护。加拿大的《隐私法》、德国的《联邦数据保护法案》、阿根廷的《个人数据保护法案》和韩国的《个人信息保护法案》等50多项国际法律都要求对数据进行保护。

（1）通过分析提升传统安全

为了识别和防范威胁，组织必须加强传统的安全解决方案，通过分析所有类型和大数据来源(非结构化和流)和未充分利用的数据来源来预防犯罪。此外，使用相关的大数据技术，通过分析技术的范围来加强和增强安全解决方案，提高情报、安全和执法洞察力。

为了对抗这些复杂的威胁，组织必须采用有助于发现异常和攻击的微妙指示的方法。这样做需要收集和分析来自安全基础设施和其他方面的数据，包括传统的日志和事件数据以及网络流数据、漏洞和配置信息、身份上下文、威胁情报等等。简而言之，安全已经成为一个大数据问题。

先进企业正在探索定制分析，在各种非结构化数据源上使用额外的大数据技术，包括电子邮件、社交媒体提要、商业交易和全网络包有效负载。有远见的组织正在转向大数据平台，比如基于企业级Apache Hadoop (Hadoop)系统的大数据平台，以帮助解决高级安全挑战。

大数据平台提供的分析类型通常使用历史基线、统计和可视化来发现过去欺诈或安全漏洞的证据。这里有一些例子:

（1）关联全球数以百万计的DNS请求,HTTP事务,和完整的数据包信息来识别恶意通信与僵尸网络相关联；

（2）发现欺诈活动关联的实时和历史原因,以及通过使用基线发现用户行为异常,可能应用程序路径和可疑交易；

（3）语言和预测分析,概要文件的电子邮件和社交网络通讯和识别可疑活动,触发事件发生之前积极的措施。

大数据分析必须存储、处理和分析大量的结构化、半结构化和非结构化数据，而目前的安全解决方案还没有对这些数据进行分析。

安全和智能扩展的应用有几个关键驱动因素，包括以下需求:

（1）分析来自现有的和新的数据源的数据(数据在运动和静止)发现模式和关联；

（2）不断生成分析数据,如视频、音频和智能设备；

（3）结合最新的和经常实时情报信息(货币)；

（4）预测、发现、行动,应对网络和计算机安全威胁；

（5）使用电信和社会数据追踪犯罪和恐怖活动。

基于这些驱动程序，在这个用例中出现了以下三个主要场景。

网络威胁预测与防范

所有组织都很容易受到来自其计算机网络的威胁，包括外部和内部的威胁，无论该组织是政府、金融机构、公用事业公司，甚至是制造商或零售商。

网络攻击可能是报道最多的威胁，尤其是在公开宣布的数据泄露或网络系统不堪重负的情况下，但它们只是外部威胁之一。这些攻击的范围可能从国家支持或国家援助的努力，有组织的网络犯罪或个人黑客。通常，这些攻击是持久的、复杂的、试图危害组织的尝试。高级持久威胁可能包括恶意软件(受感染的软件或计算机病毒)、拒绝服务攻击或其他旨在禁用、破坏或危害组织操作的攻击。

另一个正在出现的外部威胁是“黑客主义”，这是基于计算机的努力，以抗议特定组织的业务或商业行为。此类攻击可能来自团体或个人，其目的通常是向其他外部人员(如客户)展示一种可见的观点。这样的攻击可能仅仅来自与某个国家或其他组织的联系，而这些组织是黑客活动的主要目标。

内部威胁仍然是需要预测和预防的第三类威胁。这些威胁有许多可能的触发因素，比如组织决策、员工的经济状况、员工绩效或生产力的变化，或者员工与经理或同事的关系。有些情况可能是无害的和偶然的，而另一些可能是更恶意的或基于经济回报。用户可能窃取或出售知识产权、客户列表，甚至员工数据。

黑客组织Anonymous在索尼取消了对Linux的支持后，对索尼及其PlayStation网络发起了拒绝服务攻击，这就是这些威胁如何让一个组织付出高昂代价的一个例子。个人用户数据和信用卡信息被大量窃取，网络瘫痪了近一个月。索尼公司的损失约为1.71亿美元，更不用说对其品牌声誉的损害了。

组织内的网络事件的影响可能很大，影响生产力(损失工时)和财务绩效(损失销售、信用评级和股票价格)，导致增量成本(加班和监管罚款);隐性成本(负债和失去的机会)，以及对组织的损害。

预测能力具有发现新出现的网络威胁和减少妥协和暴露风险的潜力。为了支持预测能力，组织需要更广泛的数据组合:

（1）高容量网络和DNS事件；

（2）快速变化的标识符；

（3）用户访问和历史使用模式；

（4）之前被用于攻击的历史记录的恶意软件感染或网络传播路径；

（5）电子邮件、文档存储库,数据在网络上的变化；

（6）社交网络、工作任务、访问权限和其他数据创建高风险点；

（7）人力资源报告,新闻,和员工评价潜在的内部威胁；

（8）社交媒体提要,新闻,和政府报告指出黑客入侵的风险。

通过将广泛而多样的大数据组合在一起，组织增加了识别潜在攻击载体和内部风险并实施缓解策略的机会。

加强监测的洞察力

一些安全风险具有物理形式。在城市或公用事业公司，这种风险可能来自针对个人或工厂操作的犯罪活动。对于零售商来说，这种风险可能是在商店或自己的仓库中发生盗窃。对于保险公司来说，了解与事故相关的状况，比如从街头摄像头拍摄的数据或上传到互联网的图片，有助于减少欺诈。要对这些物理风险有更深入的了解，需要监视媒体的形式，通常是来自内部或外部来源的视频和音频数据。

以视频和音频为基础的设备可以产生大量恒定的流信息。最近的一个这样的解决方案的例子需要在1 / 14秒内处理来自1000多个传感器的275 MB数据，可以通过使用更广泛的信息源和类型来改进监视洞察力:

（1）收集和处理数据的机器(互联网、卫星电视、视频和音频)；

（2）非结构化数据分析、相关性和模式匹配；

（3）与监测平台活动工作流集成；

（4）部署安全监测系统探测、分类、定位和跟踪潜在威胁在高度敏感的位置。

通过将这类数据与流分析功能结合起来，组织可以快速处理大量的信息，并产生关于可能构成威胁的物理条件的重要信息。

犯罪预测与防范

预测犯罪活动是全球执法组织的一个焦点。这种预防可以改进查明罪犯或可能犯罪的地点的努力，以便更好地在这些地区工作并减少这些地点的犯罪。其他组织，如金融或市政服务，正在寻求解决欺诈问题。欺诈活动可能会增加组织的风险，减少其收入，产生遵从监管机构的问题(可能包括罚款)，并可能影响组织与客户、员工或合作伙伴的关系。

除了传统的信息，如已知方或客户，各组织正在寻找重要的新信息来源，以便实时跟踪罪犯，预测和预防犯罪。这些资料来源如下:

（1）移动和社交媒体沟通渠道；

（2）语言和身份分析文本和声音来源；

（3）合并信息罪犯,逮捕,呼叫服务(911),人力资源和地理信息从多个渠道；

（4）历史信息成员福利和津贴。

通过分析这些大数据，调查人员可以从数十亿条记录中获得信息，并在几分钟内(而不是几天或几周)联系到合适的特工，从而使他们能够以更快的速度和适当的资源做出反应。这种洞察力可能包括犯罪或欺诈模式的可视化、复杂威胁或隐藏事实的检测，以及通过多个别名和监视列表对已知嫌疑人进行主动监视。

四、操作型数据分析

操作分析关注于更好地使用机器数据。机器数据通常等同于日志或传感器数据，这些数据当然是机器数据领域的一部分，但它的范围更广。机器数据是由计算机程序、应用程序或其他机器自动创建的任何信息，不需要人工干预。例如:

（1）系统或应用程序日志；

（2）传感器读数；

（3） GPS信号(例如,从手机和汽车或卡车位置设备)；

（4）调用数据记录；

（5）配置数据；

（6）来自api和消息事务的数据；

（7）网站点击流数据；

（8）网络包数据。

每一种类型的机器数据都包含各种不同的数据。考虑来自计算机系统生成的日志的数据范围。下图中的图表突出显示了一些可以持续生成的日志消息类型，在某些情况下是在更改之后生成的(例如，数据库更改日志)，而在其他情况下是在恒定流中生成的。即使在这部分机器数据上，也有大量的输入数据和分析技术可以应用。

对于原始格式的机器数据，组织无法使用生成的各种各样的机器数据。考虑到机器数据具有以下属性:

（1）到达不同的时间间隔,经常变化；

（2）以指数速度增长；

（3）大量以各种格式出现，通常没有标准；

（4）需要结合现有的企业数据；

（5）需要复杂的分析和相关性在不同类型的数据集；

（6）需要独特的基于数据类型和可视化功能以及行业/应用。

航空公司就是一个很好的例子。一架飞机每秒钟从数百个传感器和指示器中产生大约5 GB的数据。每飞行30分钟就会产生大约10tb的数据。如果一架飞机一天有10个小时的飞行时间，它在这段时间内会产生200 TB，在一年的过程中可能会产生57 PB。用这个数字乘以给定机队的所有飞机，就有很多数据要处理。

通过从运营的角度分析这些数据，航空公司可以开始通过识别飞机的哪些部分表现不佳，哪些需要维修来进行预测。在故障和引起延迟之前，可以计划维修和解决问题。通过检测机器数据中的异常和模式，组织可以避免因紧急维修或延迟带来的高成本，这些都会让客户感到不安。这种情况并非航空公司或运输或公用事业行业的其他组织所独有;它适用于任何制造产品、维护建筑物或操作系统和网络的组织。

运营分析利用大数据技术来分析大量的这些多结构的、经常在运行的机器数据，并利用广泛的分析能力从中获得洞察力，从而产生更好的业务结果。机构可采取以下行动:

（1）分析机器关注的数据,以确定事件；

（2）预测模型应用到识别潜在的异常；

（3）结合信息理解服务水平；

（4）监控系统,以避免服务退化或中断。

在这个应用中有几个关键的场景，下面的部分一一描述。

1、交通流量管理

交通流量既存在于物理世界，也存在于计算机系统和网络世界。通过查看与系统或网络相关的数据范围，操作分析可以帮助预测和改进交通流量。在现实世界中，实时数据流(从城市入口和出口的摄像头收集的数据)、出租车、公交车和卡车的GPS数据、航空公司航班信息和天气信息可以结合在一起，从而更好地了解哪里存在实际瓶颈，以及替代路线在哪里。例如:

（1）交通管理部门可以确定巴士在其各自路线上的位置，或确定不遵循指定路线的巴士，并确定改善乘客体验的机会；

（2）乘客可以根据历史数据实时估计巴士在沿途下一站的到站时间，或在一站延误的概率，或在一天中的不同时间或一周中的不同天数在一站的行驶时间；

（3）旅行者可以预测的最佳时机和方法去机场,等什么时候离开去机场赶飞机基于当前的交通状况和可能的航班延误。

在数据的世界里，实时数据是从来自于网络交换机和数据包，应用程序和系统日志，处理器和I/O通道的监视器，用户界面的响应时间，以及消息队列中收集的。其中一些信息可能有助于分析安全威胁。其中一些数据可能确定导致处理延迟或客户或员工潜在停机的关键瓶颈。同样，对潜在故障或网络流量的一致峰值的预测允许操作人员和管理员在故障影响业务操作之前采取纠正措施。

2、环境监测与评价

大量的仪表和传感器现在用于环境监测。这种监测可以从部署在河流和海湾的用于评估水供应的传感器的物理、化学和生物数据的多个流到部署在建筑物中的用于改进能源消耗的传感器。

这些来自传感器和仪表的数据可以根据更大的气象数据进行分析，并进行汇总，以确定基于天气的因素和动态。社交媒体提要可以与此数据结合，以确定通过人际交互报告的其他因素。这些数据可以可视化，并以标准格式提供给科学家、工程师、决策者、教育工作者或设施管理人员进行实时评估。这些数据可以潜在地与外部系统、研究人员、决策人员或操作单位共享，以增强协作和改进资源管理。根据行业的不同，一些好处可能包括以下方面:

（1）帮助资源管理更有效地应对改变当地水资源。用户可以使用web门户访问、聚合、分析和设置自动警报；

（2）创建更快和更准确的洪水预测；

（3）识别和追踪污染和基于位置的信息,提高公众安全；

（4）简化海产品、航运、和监控操作；

（5）通过识别热点或替代方法来降低建筑能耗。

3、预见性维护

大多数行业都有某种需要维护的设备。这些设备可能是复杂制造过程的一部分，可能是建筑物的加热或冷却系统，甚至可能是产生数据的传感器和仪表。在系统关闭之前识别问题并解决它们可以节省时间、金钱和资源。

在化学和石油工业企业应用新技术和捕获和原始数据转换成信息的过程加速石油的发现,在上游和下游,提高生产效率最大化设备使用,减少意外关闭,延长设备使用寿命。确保油井和钻机的安全可靠运行，避免灾难性故障，对油气行业的安全至关重要。机器数据分析有助于完成以下任务:

（1）优化油井生产产量和降低生产成本来匹配客户需求；

（2）降低成本相关的停机时间,劳动,维护,维修频率,灾难性的故障频率,和解决问题的时间,导致下列事项:

-增加每个站点每年可用的额外小时数；

-增加每个站点关闭之间的平均时间。

（3）降低风险，以环保意识和负责任的方式运作；

（4）预测哪些设备最有可能发生故障，并评估每次故障的潜在成本；

（5）开发故障预测方法,“学习”随着情况的变化。

在石油钻井平台上，通过分析大数据来检测导致作业环境中非生产时间的事件，并提供操作人员需要采取行动的信息，以优化作业或采取纠正措施来减少非生产时间。

通过操作建模和预测分析，优化油田和炼油资产可以产生显著的积极的经济影响。生产者可以通过跨功能共享信息、可视化交互式数据以及组织内外的协作来优化资产。

虽然这个例子是大型生产环境的操作环境变量,预测维修相关的各个行业,零售连锁超市是否确保他们的冰柜和冰箱功能充分保护食物或金融服务组织维护大型系统网络及时交付银行和贸易交易。

五、数据仓库优化

传统意义上，数据仓库是企业中数据的中央存储库，允许从操作、事务和主数据源收集和关联数据。数据在进入数据仓库时进行结构化，以支持共同的理解。从数据仓库，数据可以分散到不同的数据集市和业务智能和报告解决方案，这些解决方案回答常见的和重复的业务问题，并驱动业务决策。

例如，日常订单和销售事务从操作系统反馈到数据仓库。这些事务可能记录订购和购买商品的客户，因此它们在仓库中与来自客户数据中心的客户主数据相链接。数据仓库中的信息结构支持生成汇总的订单和销售数据，例如，按日期、渠道、地理位置和人口分类。业务用户接收此信息的报告或视图，并将其用于关注正在为销售而苦苦挣扎的特定地理位置，或识别特定类别的购买者首选的新兴渠道。

然而，大数据的出现正在改变传统的数据仓库观。使用更广泛的数据的需求或愿望改变了为后续分析收集或合并数据的方法。组织必须处理结构化、非结构化和流数据的混合，这些数据通常具有低延迟需求(以分钟或小时为单位进行分析，而不是以周或月为单位)，并且仍然支持跨这些不同类型的数据的查询和报告。

例如，原始传感器数据(例如来自电子汽车、军事传感器或智能电表的数据)可以被采集、清洗和转换，然后从操作角度进行分析。但是，数据可能需要进行进一步的分析或查询支持，因此在转换为结构化或半结构化形式之后，可以将数据放入数据仓库进行决策支持、业务智能或其他进一步的分析。

同样地，组织也意识到在开放的社交媒体数据中有大量未被挖掘的信息。然而，数据仓库和标准关系数据库并不适合分析社交媒体数据。社交媒体数据是非结构化的，需要不同的技术来处理和提取有用的信息。

将所有这些新数据存储在数据仓库本身中可能是不切实际的。这些数据变化迅速，种类繁多，数量也很大。在标准仓库结构中集成和部署此数据所需的潜在时间，更不用说获得必要的存储来包含它，这意味着组织无法在传统数据仓库环境中存储所有数据。对于试图单独使用数据仓库的大数据的企业来说，这既是一个技术问题，也是一个财务问题。

数据仓库还存储不经常访问的低接触“冷”数据(例如，大量旧的历史事务数据)。我们需要的是一个二级计算和存储平台，它对于存储大数据和数据仓库优化有三种不同的方法，如下图所示。

采用的方法不仅仅是获取和存储新的数据源; 它还涉及将很少使用的或历史数据转移到附加技术的载体，在这些载体中，他们仍然可以方便地访问、查询、探索和分析数据，但存储成本更低。

（1）预处理中心

在确定应该将哪些数据移动到数据仓库之前，预处理中心将企业级Hadoop功能定位为数据的暂存区或着陆区。早期的探索可能需要确定您希望移动哪些数据来运行更深入的分析或以更低的成本存储数据。这不是必需的步骤，但是可以在组织希望保留某些数据的领域中使用。

流计算还可以通过处理和分析流数据来使用实时组件，而不需要首先存储流数据，并确定应该保存哪些数据(无论是在Hadoop分布式文件系统(HDFS)还是在数据仓库中)。在某些情况下，确实需要保存数据;能够处理和处理正在发生的信息也可以减少仓库中的存储。使用这种着陆区域方法，可以在将数据加载到数据仓库之前对其进行清理和转换。

（2）可查询档案

在可查询存档方法中，可以使用信息集成软件和工具从仓库和应用程序数据库中卸载不经常访问或过期的数据。然后，可以将卸载的数据与仍然在数据仓库中的数据联合起来进行查询和报告。

数据联合实际上涉及合并来自多个数据源的数据，使它们作为单个数据源呈现给用户。数据联合使用户能够访问企业中的任何位置的数据，无论其格式或供应商。通常与从多个源(例如数据库类型、模式或结构差异)查询数据相关联的复杂性对用户是隐藏的。

（3）探索性分析

在探索性分析方法中，流计算支持对动态数据进行分析，通常使组织能够执行以前可能在仓库中完成的分析，从而优化仓库并支持新类型的分析。可以将不同的数据类型(结构化、非结构化和流)与仓库数据组合在一起，从而使深度分析能够提供以前不可能提供的见解。流计算可以作为一个分析过滤器，找到高价值的数据块，然后可以存储在BigInsights或数据仓库中。

数据仓库优化以现有的数据仓库基础设施为基础，利用大数据技术增加其价值。这个应用需要完成以下任务:

（1）向现有数据仓库投资添加新源；

（2）优化存储和提供可查询的档案；

（3）使数据更简单，成本更低；

（4）在全球运营中增加分析使用；

（5）使用更快的查询启用复杂的分析应用程序；

（6）规模预测分析和商业智能；

（7）改进数据仓库和分析功能和性能，提高数据仓库的可伸缩性，同时降低成本和简化结构。

总的来说，这种方法是关于组织优化和使用他们的仓库基础设施来支持新出现的和现有的历史数据量，从而在不需要的情况下处理各种数据格式转换每个源，并仍然允许一系列特殊的查询、报告和分析，以驱动新的见解和价值。

大数据治理系列：2 再谈大数据应用的经典场景

热门文章

最新文章

相关课程

相关电子书

相关实验场景