漫谈阿里大数据
目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象。我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚的。
MaxCompute理解数据、运算和用户的大脑:基于代价的优化器
回顾大数据技术领域大事件,最早可追溯到06年Hadoop的正式启动,而环顾四下,围绕着数据库及数据处理引擎,业内充斥着各种各样的大数据技术。在云栖社区2017在线技术峰会大数据技术峰会上,阿里云大数据计算平台架构师林伟做了题为《MaxCompute的大脑:基于代价的优化器》的分享,为大家分享阿里巴巴大数据计算服务的大脑——基于代价的优化器的设计和架构。
大数据上云那些事儿:(一)上云工具之爬虫(Scrapy)数据
在如今互联网环境下,网络上的各种业务数据,如新闻,社交网站,交易类数据等各种各样的数据越来越多被应用到企业的数据运营中,这些数据一般都数据量巨大,是最适合用MaxCompute来进行分析和加工的一类数据,尤其可以利用MaxCompute的机器学习能力来完成一些数据挖掘的业务场景,本文就介绍如何利用开源的Scrapy爬虫框架来爬取新闻网站的数据到MaxCompute中。
自然语言处理技术及行业应用案例
本文简单介绍了阿里云NLP技术平台中几个关键的点,如阿里目前正在做国际化,目前包含的语种从东南亚语种,西班牙语种,正扩展到欧洲语种。除此之外阿里NLP还在做行业级应用,包括在城市管理,医疗领域中已经推出了很多应用产品。
HBase写性能优化
本文介绍了三种HBase数据写入的方法(1种多线程,2种mapreduce),并介绍了各类性能调优的方法