@dailidong@_高分内容_个人页-阿里云开发者社区

发表了文章 2019-06-13

分布式工作流任务调度系统EasyScheduler自定义任务插件开发

发表了文章 2019-06-13

开源分布式工作流任务调度系统EasyScheduler使用详解

发表了文章 2019-05-28

分布式工作流任务调度系统--Easy Scheduler 1.0.3 发布

Easy Scheduler Release 1.0.3 Easy Scheduler 1.0.3是1.x系列中的第四个版本。新特性： [EasyScheduler-254] 流程定义删除和批量删除 [EasyScheduler-347] 任务依赖增加“今日” [EasySchedule.

发表了文章 2019-03-30

分布式工作流任务调度系统Easy Scheduler正式开源

Easy Scheduler是一个分布式工作流任务调度系统，主要解决数据研发ETL错综复杂的依赖关系，而不能直观监控任务健康状态等问题。Easy Scheduler以DAG流式的方式将Task组装起来，可实时监控任务的运行状态，同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。

发表了文章 2019-01-04

大数据分析的下一代架构--IOTA架构设计实践

IOTA的特点： [x] 去“ETL”化 [x] 高效：时时入库即时分析 [x] 稳定：经过易观5.8Pb，5.2亿月活数据锤炼 [x] 便捷：支持SQL级别的二次开发和UDAF定义 [x] 扩充性强：组件基于Apache开源协议，可支持众多开源存储对接

发表了文章 2018-06-03

HBase之Rowkey设计总结及方舟实战篇

一、引言 HBase由于其存储和读写的高性能，在OLAP即时分析中越来越发挥重要的作用，在易观精细化运营产品--易观方舟也有广泛的应用。作为Nosql数据库的一员，HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录)，Rowkey设计的优劣直接影响读写性能。

发表了文章 2018-05-26

以获客为目标，如何从0到1实现用户增长？

以获客为目标，如何从0到1实现用户增长？周长清 2018-04-11 18:08 UTM, 代码部署, 留存分析, 网站分析, 转化漏斗每个网站都有目标。

发表了文章 2018-05-22

那些100%被浪费的运营预算，其实本可以避免

那些100%被浪费的运营预算，其实本可以避免仲志成 2018-04-11 17:41 广告屏蔽插件, 用户召回, 用户触达, 精细化运营, 节支随着数字技术的迅速发展，运营、产品和营销人员可以使用的数字化运营及营销推广手段也越来越多。

发表了文章 2018-05-22

用户召回推送消息到达率低？用这4问推出最优解

用户召回推送消息到达率低？用这4问推出最优解张晓亮 2018-04-11 17:08 App后台进程促活, 到达率, 推送消息, 最优解, 用户召回在消息推送这件事上，国内无法使用谷歌官方的GCM，各个ROM厂商对消息推送的实现也存在一定差异，甚至同一厂家开发的不同版本ROM在兼容性上都存在差异。

发表了文章 2018-05-16

下一代大数据即时分析架构--IOTA架构

本文对比了 Lambda数据架构的痛点，通过实践和总结出新一代大数据分析架构IOTA架构，欢迎讨论

发表了文章 2018-04-22

大数据分析的下一代架构--IOTA

IOTA是什么？你是否为下一代大数据架构做好准备？经过这么多年的发展，已经从大数据1.0的BI/Datawarehouse时代，经过大数据2.0的Web/APP过渡，进入到了IOT的大数据3.0时代，而随之而来的是数据架构的变化。

发表了文章 2018-04-22

mac下ll命令使用

Create a file named "~/.profile" and add the following line to it: alias ll='ls -lGh' Restart your terminal session。

发表了文章 2018-04-18

工作要做对，更要做到位

日本的管理人员在布置工作内容的时候会把问题交待五遍：第一遍陈述问题。渡边君，到超市打瓶酱油？第二遍重复问题。

发表了文章 2018-03-31

class kafka.common.NotLeaderForPartitionException(kafka.server.ReplicaFetcherThread)异常处理

[2017-06-15 19:33:14,716] ERROR [ReplicaFetcherThread-0-0], Error for partition [3_7_0_20170615,6] to broker 0:class kafka.

发表了文章 2018-03-27

Hive实现分组排序或者分页

使用到的语法：ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)简单的说row_number()从1开始，为每一条分组记录返回一个数字，这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序，再为降序以后的没条xlh记录返回一个序号。

发表了文章 2018-03-23

五种开源协议的比较(BSD，Apache，GPL，LGPL，MIT)

五种开源协议的比较(BSD，Apache，GPL，LGPL，MIT) 发表于: 互联网 | 作者: 博客教主标签: Apache,BSD,GPL,LGPL,MIT,协议,开源当Adobe、Microsoft、Sun等一系列巨头开始表现出对”开源”的青睐时，”开源”的时代即将到来！现今存在的开源协议很多，而经过Open Source Initiative组织通过批准的开源协议目前有58种(http：//www.opensource.org/licenses /alphabetical)。

发表了文章 2018-03-22

永久关闭linux swap

一般来说，Linux的虚拟内存会根据系统负载自动调整。内存页（page）swap到磁盘会显著的影响Kafka的性能，并且Kafka重度使用page cache，如果VM系统swap到磁盘，那说明没有足够的内存来分配page cache。

发表了文章 2018-03-20

journalnode Can't scan a pre-transactional edit log异常处理

一个测试环境hadoop集群由于磁盘满导致宕机，启动后发现journalnode报如下异常： 2018-03-19 20:48:04,817 WARN namenode.

发表了文章 2018-03-19

该虚拟机的某个磁盘已经由虚拟机或者快照使用问题解决

解决方式如下： 1）删除虚拟机配置文件下面的.lck文件 2）删除类型为快照的.vmsn/.vmsd文件然后重启虚拟机即可

发表了文章 2018-03-19

np.linalg.norm(求范数)

1、linalg=linear（线性）+algebra（代数），norm则表示范数。 2、函数参数 [python] view plain copy x_norm=np.

发表了文章 2018-03-18

大数据存储平台调优之Hadoop优化

大数据存储平台调优之Hadoop优化在搭建完集群、完成Linux系统配置(优化)后以及建好HDFS上的目录后，我们接下来需要对Hadoop集群做一些优化的工作。我们从两个方面来说：一是HDFS存储方面，一是计算方面 1、 HDFS方面： 1> 存储格式的选择对于分析类型的业务来说，最好的存储格式自然是列存储，因为数据量巨大，只扫关心的数据列无疑具有很大优势。

发表了文章 2018-03-13

大数据存储平台之异构存储实践

经常做数据处理的伙伴们肯定会有这样一种体会：最近一周内的数据会被经常使用到，而比如最近几周的数据使用率会有下降，每周仅仅被访问几次；在比如3月以前的数据使用率会大幅下滑，存储的数据可能一个月才被访问几次。

发表了文章 2018-02-17

让keras训练深度网络时使用多个显卡

1、使用nvidia-smi pmon 查看linux系统的gpu情况，如下：显然是2张显卡，如何让它们都工作呢 2、keras提供了keras.utils import multi_gpu_model使用多个显卡的功能：在原来的model基础上使用multi_gpu_model函数指定一...

发表了文章 2018-02-16

python文件操作

使用open打开文件后一定要记得调用文件对象的close()方法。比如可以用try/finally语句来确保最后能关闭文件。 file_object = open('thefile.txt')try: all_the_text = file_object.read( )finally: file_object.close( ) 注：不能把open语句放在try块里，因为当打开文件出现异常时，文件对象file_object无法执行close()方法。

发表了文章 2018-02-07

linux查看是否开启超线程

我们知道intel的cpu拥有超线程技术，可以为一个逻辑核心开启两个处理线程。通过查看物理CPU数，每个CPU的逻辑核数，CPU线程数可以得知是否开启了超线程。物理CPU数 [root@localhost daxiang]# cat /proc/cpuinfo | grep "physica...

发表了文章 2018-02-05

Hive性能优化（全面）

Hive性能优化（全面） 2018-02-02 Hadoop大数据应用 1.介绍首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。

发表了文章 2017-12-10

查看安装的tensorflow版本号和路径

输入python，进入python命令行 import tensorflow as tf tf.__version__ 查询tensorflow安装路径为: tf.__path__ 结果如下:

发表了文章 2017-12-09

Log Aggregation Status TIME_OUT的缘起

在spark on yarn运行中，有时会发现spark程序运行完毕后，spark的运行界面没有信息，或者找不到相关的运行信息了，经仔细查看NodeManager UI ,出现如下信息： Log Aggregation Status TIME_OUT

发表了文章 2017-11-23

App统计指标定义

发表了文章 2017-11-09

网站(h5)统计指标定义

（一）流量统计 1. 独立用户数：在当前计算周期内，访问统计对象的不重复用户数。万瑞数据系统通过对用户所使用的浏览器赋予唯一标识来识别用户的身份。同一浏览器在当前计算周期内多次访问同一统计对象时，该浏览器被计算为一个独立用户。

发表了文章 2017-11-09

网站统计指标定义

（一）流量统计 1. 独立用户数：在当前计算周期内，访问统计对象的不重复用户数。万瑞数据系统通过对用户所使用的浏览器赋予唯一标识来识别用户的身份。同一浏览器在当前计算周期内多次访问同一统计对象时，该浏览器被计算为一个独立用户。

发表了文章 2017-11-09

对DStream.foreachRDD的理解

最近在使用Spark Streaming过程中，对foreachRDD有点疑问，查阅资料后记录如下： foreachRDD(func)的官方解释为 The most generic output operator that applies a function, func, to each RDD generated from the stream.

发表了文章 2017-09-21

大数据治理系统框架Apache Atlas实践

大数据元数据和数据管理框架 Apache Atlas实践今天技术小伙伴占卫同学分享了Apache Atlas元数据管理实践，被atlas的强大的血缘关系管理能力震撼，以下为本次分享内容： •Apache Atlas简介 •Apache Atlas架构 ...

发表了文章 2017-09-05

大数据下的企业数据仓库建设

为何要建数据仓库数据仓库整体架构数据仓库—分层数据仓库—STG层数据仓库—ODS层数据仓库—DWD层数据仓库—DWS层 dws层示例 ...

发表了文章 2017-08-03

2017易观OLAP算法大赛

大赛简介目前互联网领域有很多公司都在做APP领域的“用户行为分析”产品，与Web时代的行为分析相类似，其目的都是帮助公司的运营、产品等部门更好地优化自家产品，比如查看日活和月活，查看渠道来源，提高留存、转化、活跃度等等。

发表了文章 2017-07-16

mysql快速导入5000万条数据过程记录(LOAD DATA INFILE方式)

mysql快速导入5000万条数据过程记录(LOAD DATA INFILE方式) 首先将要导入的数据文件top5000W.txt放入到数据库数据目录/var/local/mysql/data/${db_name}/ 下，并确保导入用户拥有这个txt文件的权限,否则会报Error 13错误 1.

发表了文章 2017-06-15

centos禁用ipv6

两步完成 vi /etc/sysctl.conf net.ipv6.conf.all.disable_ipv6=1sysctl -p /etc/sysctl.conf

发表了文章 2017-06-06

Redis3未授权访问漏洞导致服务器被入侵

今天在腾讯云上搭的开发环境里的一台机器cpu load飚升老高，然后还能登陆上去，top后发现两个可疑进程、/root/目录下有修改过的文件、/opt目录被干掉了，后经分析，这台机器上有redis外网服务，/root目录下还有个READ_ME.

发表了文章 2017-05-17

赏心悦目风景二

摘自网络

发表了文章 2017-04-16

开源数据库中间件对比

Proxy式架构和客户端式架构的优劣 Proxy式架构客户端式架构优点 1，集中式管理监控和升级维护方便 2，解决连接数问题 1.

发表了文章 2017-04-08

深入了解volatile

volatile关键字经常在并发编程中使用，其特性是保证可见性以及有序性，但是关于volatile的使用仍然要小心，这需要明白volatile关键字的特性及实现的原理，这也是本篇文章的主要内容一、Java内存模型想要理解volatile为什么能确保可见性，就要先理解Java中的内存模型是什么样的。

发表了文章 2017-04-08

dfs.datanode.du.reserved 预留空间不生效的问题

生产环境（cdh5.5.1）遇到一个问题：已经设置 dfs.datanode.du.reserved预留空间为20G，但是磁盘仍然被写满了。当挂载磁盘作为datanode的存储空间，如果磁盘大小为2000G，使用df -h 显示：总磁盘大小2000G，使用1930G，剩余40G，就会发现：2000G -（1930G+40G）= 30G，还差了30G空间。

发表了文章 2017-04-05

Apache Spark 内存管理详解

Apache Spark 内存管理详解 Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。

发表了文章 2017-03-20

kafka彻底删除topic

今天发现一个线上kafka(版本为0.8.2.2)多天前已不再消费的topic标记为删除(marked for deletion)，而我们每天有定时删除topic的shell脚本，会把无用的topic干掉，但发现这些topic只是被标记为删除，而并没有真正删除，其server.

发表了文章 2017-03-03

配置ntpd时钟同步服务

ntpd时钟同步服务目录参考： CentOS配置时间同步NTP: http://www.crsay.com/wiki/wiki.php/server/centos/ntp-set 解决ntp的错误 no server suitable for synchronization found: http://www.

发表了文章 2017-02-28

Ambari和ClouderaManager主要不同对比

打算对新建的hadoop集群使用管理工具，列了以下主要的不同点：主要的不同点 apache Ambari ClouderaManager Express(免费版) 配置版本控制和历史记录支持不支持二次开发支持...

发表了文章 2017-02-08

python使用snappy压缩

今天在网上找了很久，终于找到1个snappy压缩命令行，记录下来： 1.wget https://bootstrap.pypa.io/get-pip.py 2.python .

发表了文章 2016-12-18

Hadoop YARN 的工作流程简述

1、Client 向 YARN 提交应用程序，其中包括 ApplicationMaster 程序及启动 ApplicationMaster 命令2、ResourceManager 为该 ApplicationMaster 分配第一个 Container，并与对应的...

发表了文章 2016-10-27

修改ranger ui的admin用户登录密码踩坑小记

修改的ranger ui的admin用户登录密码时，需要在ranger的配置里把admin_password改成一样的，否则hdfs的namenode在使用admin时启动不起来,异常如下: Traceback (most recent call last): ...

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

@dailidong@_个人页

个人介绍

擅长的技术

分布式工作流任务调度系统EasyScheduler自定义任务插件开发

开源分布式工作流任务调度系统EasyScheduler使用详解

分布式工作流任务调度系统--Easy Scheduler 1.0.3 发布

分布式工作流任务调度系统Easy Scheduler正式开源

大数据分析的下一代架构--IOTA架构设计实践

HBase之Rowkey设计总结及方舟实战篇

以获客为目标 ，如何从0到1实现用户增长？

那些100%被浪费的运营预算，其实本可以避免

用户召回推送消息到达率低？用这4问推出最优解

下一代大数据即时分析架构--IOTA架构

大数据分析的下一代架构--IOTA

mac下ll命令使用

工作要做对，更要做到位

class kafka.common.NotLeaderForPartitionException(kafka.server.ReplicaFetcherThread)异常处理

Hive实现分组排序或者分页

五种开源协议的比较(BSD，Apache，GPL，LGPL，MIT)

永久关闭linux swap

journalnode Can't scan a pre-transactional edit log异常处理

该虚拟机的某个磁盘已经由虚拟机或者快照使用 问题解决

np.linalg.norm(求范数)

大数据存储平台调优之Hadoop优化

大数据存储平台之异构存储实践

让keras训练深度网络时使用多个显卡

python文件操作

linux查看是否开启超线程

Hive性能优化（全面）

查看安装的tensorflow版本号和路径

Log Aggregation Status TIME_OUT的缘起

最新Hive函数

App统计指标定义

网站(h5)统计指标定义

网站统计指标定义

对DStream.foreachRDD的理解

大数据治理系统框架Apache Atlas实践

大数据下的企业数据仓库建设

2017易观OLAP算法大赛

mysql快速导入5000万条数据过程记录(LOAD DATA INFILE方式)

centos禁用ipv6

Redis3未授权访问漏洞导致服务器被入侵

赏心悦目风景二

开源数据库中间件对比

深入了解volatile

dfs.datanode.du.reserved 预留空间不生效的问题

Apache Spark 内存管理详解

kafka彻底删除topic

配置ntpd时钟同步服务

Ambari和ClouderaManager主要不同对比

python使用snappy压缩

Hadoop YARN 的工作流程简述

修改ranger ui的admin用户登录密码踩坑小记

分布式工作流任务调度系统EasyScheduler自定义任务插件开发

开源分布式工作流任务调度系统EasyScheduler使用详解

分布式工作流任务调度系统--Easy Scheduler 1.0.3 发布

分布式工作流任务调度系统Easy Scheduler正式开源

大数据分析的下一代架构--IOTA架构设计实践

HBase之Rowkey设计总结及方舟实战篇

以获客为目标 ，如何从0到1实现用户增长？

那些100%被浪费的运营预算，其实本可以避免

用户召回推送消息到达率低？用这4问推出最优解

下一代大数据即时分析架构--IOTA架构

大数据分析的下一代架构--IOTA

以获客为目标，如何从0到1实现用户增长？

该虚拟机的某个磁盘已经由虚拟机或者快照使用问题解决

以获客为目标，如何从0到1实现用户增长？

该虚拟机的某个磁盘已经由虚拟机或者快照使用问题解决