试读《大数据日知录：架构与算法》有感-阿里云开发者社区

试读《大数据日知录：架构与算法》有感

2014-10-26 1052

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 活动地址：http://blog.csdn.net/blogdevteam/article/details/39894901。

活动地址：http://blog.csdn.net/blogdevteam/article/details/39894901。

其实“大数据”这个词在我的脑海中还没有一个比较确切的定义，几年前我接触了一个名词“海量数据”，它主要是指在数据库中如何处理优化查询海量数据的SQL，或者使用NoSQL（Not only SQL）进行处理，进而进行数据分析、数据挖掘等，从大量无规律的数据中提取出有价值的信息，总之海量数据是与数据库紧密关联的。而这两年兴起了“大数据”浪潮，我认为“海量数据”强调的是数据量的大小，而大数据则不仅仅是数据量的大小，还指数据本身的大小。用《大数据时代》中的4V特点来概括大数据就是：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）。

大数据的应用场景

大数据时代已经来临，比如淘宝网的日交易记录、用户浏览商品的记录就是大数据的典型应用场景，根据这些“数据”能够推断出用户购买商品的习惯、用户喜欢什么样的商品，进而更加准确的推荐一些商品给用户，以此提高交易额和交易量。再比如微信的应用，6亿多用户本身就是“大数据”，再加上6亿多用户彼此之间的关系，更是形成了一张巨大的社交网络。如何为这6亿用户提供高质量的实时通信交流、如何提供精确的搜索，都是大数据应用领域需要研究的课题。

pagerank 排名算法

pagerank即搜索引擎是根据什么样的规则、应用什么样的算法来对网页进行关联度筛选的，正好试读部分提供了这部分的内容。以前曾经写过简单的网页爬虫程序，抓取指定网站的页面的新闻等。原理很简单，就是通过请求网站获取返回的html进行分析，用正则筛选出包含关键字的页面的href和标题，然后存入数据库中。而通过试读部分我了解到，pagerank即网页的页面等级基于两个假设：数量假设、质量假设。pagerank算法刚开始赋予每个网页相同的重要性得分，通过迭代递归计算来更新每个页面节点的pagerank得分，直到得分稳定为止。

TAO图数据库

我还关注到了试读当中介绍的Facebook的TAO这个跨数据中心分布式图数据库。它由分布在多个数据中心的数千台服务器构成，为了能够实时响应应用请求，系统架构更重视可用性和低延时，尤其是对读操作做了很多优化。

通过主cache和从cache的二级缓存机制，降低缓存之间的耦合，同时系统也易于扩展。

未来大数据将会在各个领域不断发展和演变，并深刻的影响人类的生活。它涉及到的新技术、新架构非常繁杂，包括分布式、机器学习、数据挖掘等各个技术方向，并作为移动互联网、云计算、物联网等应用领域的核心支撑。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

试读《大数据日知录：架构与算法》有感

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

试读《大数据日知录：架构与算法》有感

热门文章

最新文章

相关课程

相关电子书

相关实验场景