暂无个人介绍
大数据作为一种技术手段,可以将业务和技术结合起来,使得医院、卫生部门、保险公司以及个人都能从中得到相应的价值。医疗大数据是医疗行业的未来,未来肯定是一个智慧医院,数字化医院。
spark是现在非常流行的一个计算框架,本文重要是用spark框架做推荐系统的实现。
最近看到一篇文章介绍了数据分析与挖掘的十大经典算法:C4.5,K-Means,SVM,Apriori,EM,PageRank,AdaBoost,KNN,Native Bayes,CART。
数据分析与挖掘,指的是通过对大量的数据进行观察与分析。发掘其中的未知的,潜在的、对决策有价值的关系、模式和趋势,并利用这些规则建立决策模型、提供预测性支持的方法和过程。
最近在学Python金融大数据分析,在安装Python进行大数据分析的环境时遇到很多问题,例如:在安装pandas包时候就要到各种错误,总是缺少很多安装包,最后发现利用Python的Anaconda进行科学计算环境的搭建非常方便。
ItemCF算法不是根据物品内容的属性计算物品之间的相似度,而是通过分析用户的行为记录来计算用户的相似度。该算法认为物品A和物品B相似的依据是因为喜欢物品A的用户也喜欢物品B。
Spark与elasticsearch结合使用是一种常用的场景,小编在这里整理了一些Spark与ES结合使用的方法。
spark应用程序在集群中以一系列独立的线程运行,通过驱动器程序(Driver Program)发起一系列的并行操作
Spark是一个基于内存的计算框架,本文主要是介绍Spark的独立部署。
Spark可以运行在各种集群管理器上,并通过集群管理器访问集群中的其他机器。 Spark主要有三种集群管理器,如果只是想让spark运行起来,可以采用spark自带的独立集群管理器,采用独立部署的模式;如果是想让Spark部署在其他集群上,各应用共享集群的话,可以采取两