基于MaxCompute的数仓数据质量管理
数据对一个企业来说已经是一项重要的资产,既然是资产,肯定需要管理。随着业务的增加,数据的应用越来越多,企业在创建的数仓过程中对数据的管理也提出了更高的要求,而数据质量也是数仓建设过程不容忽视的环节。本文针对MaxCompute数仓建设过程中如何做数据质量给出规范建议,为实际数据治理提供依据及指导。
天猫智能数据驱动平台:一休
互联网、移动互联网、云计算时代的迅猛发展,积累了海量的数据,与此同时,数据也成了公司的核心资产,如何高效发挥数据的价值成了争相研究和探索的课题。数据驱动就是一种在决策策略上使用数据的最好体现之一。
[杂谈]了解一些额外知识,让前端开发锦上添花
在前端学习里面,很多人都是注重学习代码(html,css,js)。或者是一些框架,库(jquery,vue,react),或者是各种工具(webpack,gulp)。在以往的文章里面,或者自己和别人交谈,都有建议过别人多练,不要闷头就写代码,多深入了解当中的原理,学习其中的思想。
三种分布式爬虫系统的架构方式
分布式爬虫系统广泛应用于大型爬虫项目中,力求以最高的效率完成任务,这也是分布式爬虫系统的意义所在。
分布式系统的核心在于通信,介绍三种分布式爬虫系统的架构思路,都是围绕通信开始,也就是说有多少分布式系统的通信方式就有多少分布式爬虫系统的架构思路。
使用scrapy抓取股票代码
个人博客:https://mypython.me
源码地址:https://github.com/geeeeeeeek/scrapy_stock
抓取工具:scrapy
scrapy介绍
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。
数据挖掘敲门砖--Python爬虫入门
Python爬虫.jpg
WHAT
数据挖掘是一门综合的技术,随着Ai的兴起,在国内的需求日渐增大。
数据挖掘的职业方向通常有三个,顺便概要地提一下所需的技能(不仅于此)
数据分析方向:需要数理知识支撑,比如概率论,统计学等
数据挖掘方向:需要懂得主流算法的原理及应用,数据库的原理和操作
科学研究方向:通常是科学家们在深入研究数据挖掘的相关基础理论和算法
但是看完简介,好像和爬虫没什么关系?
接着往下看。