一个大数据应用是如何炼成的-阿里云开发者社区

一个大数据应用是如何炼成的

2017-08-01 1430

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介：

经历了多年的BI专题应用建设，有幸能在一个传统企业里探索大数据应用的建设过程，发现了很多不一样的地方，获得了不同的感受，在此以一个真实的案例的建设过程来品味其中的不同，也许能获得一些启示。

课题是怎么来的?

大数据应用最大的挑战，就是未来的不确定性，因此，传统公司动辄提前半年进行投资预算规划的方式是不太适合大数据的。

做大数据几年，虽然说现在靠谱的大数据的商业模式也就在广告、金融、公益等方面，但真要下决心干某个大数据应用项目，其突发性、偶然性也非常强，因为对于大数据这个不成熟事物，无论是哪类公司，观望占了很大部分，对大数据的质疑有之，对于大数据安全的惶恐有之，对于合作模式的疑惑有之，更多的是不停的提出想法，不停的被否定。

企业顺应大势成立了大数据团队，最痛苦的是不知道干什么，什么能干，什么不能干，也没啥可借鉴的经验，这跟当前创业公司也类似吧，不知道哪种模式是靠谱的。

大数据几乎无所不能，但真要做起来，其实当前是能者寥寥，虽然趋势不可挡，但这一波搞大数据应用的，似乎大多要死在黎明前，一个概念从提出到最终普世大众，的确路慢慢儿修远兮。

今天要聊的，是个公益课题，电话反欺诈，课题有一定的偶然性，安全部门提到了，问我们能不能做做看，感觉社会意义很大，比如腾讯有反欺诈盒子，360有拦截系统，本来某公司希望来做这个课题，但综合各方面因素，还是决定自己做。

作出这个决策的实际一天不到，所以决定自己做，基于以下几个因素：

一是这个大数据应用是有显著效益的。

二是很好评估，不像很多BI应用产出无法评估，备受质疑。

三是公司大数据平台建立了，提供了基础条件。

四是自主建模团队建立了一年多了，不需要太依赖合作伙伴，因此也无需走那套冗长的招标流程，失败的代价也会小。

团队如何组建?

跟传统的安排不同，抛出这个课题后，主动接受这个挑战的，却是一名从一线刚过来的同事，面对不确定性，想来大多数有资历的员工也会犹豫老半天吧，这个也有一定偶然性。

谷歌讲到了招聘人才，提到了无论多大代价也要找到创意精英，而做大数据，更加需要，需要主动型的创意精英，如果传统企业每个人仍然像传统那样局限在自己一亩三分地，很难有创新突破。

很幸运，我们有一只黑天鹅。

这种自愿组队模式的确有很大的好处，不按计划分配，尊重个人的意愿，更能激发人的主动性，团队组建也非常快，当天组队，第二天就开干，不存在类似项目的繁琐流程。

虽然团队成立有一定的偶然性，但的确与与企业近年来在大数据组织创新、人才引进和人员流动上的努力分不开。

假如没有大数据组织的成立，谁牵头都是个问题;假如不扔掉传统的包袱，很难有人专心做这个;假如没有企业内的人才流动和外部人才的引入，我们也干不了这个事。

平台资源如何解决?

在那个传统BI小型机时代，要做一个项目，抛开硬件资源环境的投资立项过程不说，光是一个新项目的集成估计也不止一个月。

而这个项目不同之处是：

一是基于大数据平台的租户能力，资源申请所见即所得，加上流程，一周内全部搞定。

二是提供的组件较为丰富，特别是流处理资源的快速提供，为反欺诈的实时性提供了坚实的基础，换在几年前基本不可能。

三是公司技术团队的保障，使得大多技术问题得以尽快解决，这也有赖于公司在大数据平台上的末雨绸缪。

某人说过，凡是能用钱解决的问题都不是问题，但技术这个东西，虽然用钱的确可能解决，但对于大多数公司，钱都是个大问题，因此技术问题的解决又是何其艰难。

比如我们碰到Kafka的一些问题，长期难解决，大多企业的机制流程恐怕也不允许随便开价100万招个技术专家来解决吧，传统企业的自我技术进步是部血泪史，外面的专家开价开不起，自己的专家起来了，又怕被人家挖。

开发历程

敏捷开发现在提得很多了，但感觉以前BI的建设就是最大的敏捷，最极致的情况，一个人搞定需求、开发、上线和维护，当然，现在软件工程的确还是要靠分工协作，需要一套方法论来解决显性迭代和维护配合的问题。

大数据创新太特殊了，没必要循规蹈矩，抛开全部的束缚，一切要为速度让步。原因是失败可能性很大，速度越快成本越低，同时既然对于公司原有业务没有影响，因此可以放手去干，什么文档都可以不要，什么既定流程都可以不遵守，反正光脚不怕穿鞋的。

因此，这个课题做的非常快。

第10天，做出一个反欺诈简单模型，包括了案例分析、数据准备、数据建模及验证等，我们的观点是第一个版本可以粗糙一点，希望尽快验证这个事情的可行性，否则一切都是徒劳，因此就是讨论和验证数据。

当时规定两个礼拜如果出不了结果，就会放弃，这类应用失败可能性很高，但船小好调头，以后做一些创新，都建议给创新做个时间止损点。

第25天，生产完成部署，也就是具备系统支撑能力，除了系统部署方案需要专业部门把关，其他基本是能省就省，当时的想法是，这类创新项目最好一个月就能搞上线，起码能测试吧，相对以前BI应用项目动辄半年甚至1年的节奏，的确大不同。

创新，速度始终是王道，因此日报变成刚需，也回忆起了某位离职运营商去创业的一个领导，他说每天凌晨就要看昨天的日报，以便安排当天的工作，我们可能做不到这么疯狂，但日报的节奏是对的。

第30天，一直在外呼现场进行验证迭代，直到36天，获得认可为止，以后就是持续调优，但这个数据已经可以投入生产了。一般电话诈骗很难在事中干预，但这个模型做到了，准确度达到90%以上，通过实时事中干预挽回收入损失超千万。

这个应用就是中国移动的天盾大数据反欺诈系统，它就是这么诞生的，没有什么大汇报，没有什么流程，就是很轻很轻的来了。

现在算法还有很多问题，反欺诈矛与盾的争夺是很艰辛的，面上的风光底下是每天建模师的艰苦卓绝的努力，上了很多新算法，很多很多失败，拉低了成功率，对于这个大家是异常焦虑的，群里总是不停的讨论，大家都知道这个是核心竞争力，路还很长，还需要坚持。

小结

这个应用还难言成功，只是传统企业在大数据应用上的一次不同的尝试，但不管怎样，互联网快速迭代的那套的确是给了很大的启示，自己做了，才知道原来的差距是如此巨大，自己的能力是如此脆弱。

从课题的角度讲，要认识到大数据这个事物的不确定性，选择它具有偶然性，没有规划能预料到这个，当前大数据变现商业模式也并不成熟，不要奢望投资大数据马上有产出，也许能力储备是第一位的。

从组织的角度讲，大数据人才属于稀缺人才，要么打破原有框架，不拘一格外部找人才，要么充分企业内挖潜，让人员能流动起来。流动的人才有一个特点，即至少有一颗骚动的心，主动性对于做成功一件事极为重要。

从能力的角度讲，假如要向大数据转型，则还是要对“没有一个大数据公司，能依靠合作伙伴获得成功”这句话有所敬畏，大数据的核心能力要掌握在自己手里。

从平台的角度讲，如果没有大数据平台的建立，这个项目能够有效果也许是半年以后的事情，但机会稍纵即逝，没人会等你这么久，因此此类基础设施建设不能犹豫，“书到用时方恨少”。

从开发的角度讲，先设定一个小目标，搞他个十万八万的，只要有点看得见的产出就行啊，快速迭代，始终是王道，失败了也没什么大不了，我们缺的就是经验，多头并行也不是不可以，只要有足够的创意精英。

当然说易行难，以上几点对于大多数公司来说是如此不易，也不能以一个应用的成功与否说明任何问题，大数据要成功，就像黑天鹅，有一定偶然性，但如果连准备的勇气都没有，没有一点实质改革的动作，就没有任何成功的可能了。

本文作者：佚名

来源：51CTO

一个大数据应用是如何炼成的

热门文章

最新文章

相关课程

相关电子书

相关实验场景