阿里云实时计算的前世“功”今生“能”
不修内功,难成大器。为了将Apache Flink在阿里巴巴真正运行起来,阿里巴巴实时计算团队做了大量的优化,在阿里云上的产品正式命名为实时计算,以Flink SQL为主要API,致力于打造一款全球领先的实时计算引擎。
EM 算法求解高斯混合模型python实现
注:本文是对《统计学习方法》EM算法的一个简单总结。
1. 什么是EM算法?
引用书上的话:
概率模型有时既含有观测变量,又含有隐变量或者潜在变量。如果概率模型的变量都是观测变量,可以直接使用极大似然估计法或者贝叶斯的方法进行估计模型参数,但是当模型含有隐藏变量时,就不能简单使用这些方法了。
HAWQ技术总结
HAWQ技术总结:
1、 官网: http://hawq.incubator.apache.org/
2、 特性
2.1 sql支持完善
ANSI SQL标准,OLAP扩展,标准JDBC/ODBC支持。
Hadoop集群nodes unhealthy解决方法
欢迎关注大数据和人工智能技术文章发布的微信公众号:清研学堂,在这里你可以学到夜白(作者笔名)精心整理的笔记,让我们每天进步一点点,让优秀成为一种习惯!
在搭建好Hadoop集群之后,所有服务均可正常启动,但是在运行MapReduce程序的时候,发现任务卡在7/09/07 22:28:14 INFO mapreduce.
storybook的介绍和使用 比较火的响应式UI开发及测试环境
storybook是一套最近比较火的响应式UI 开发及测试环境。
可以可视化开发调试react,vue组件
官网:https://github.com/storybooks/storybook
至于为什么叫storybook,应该是敏捷开发中的user story有关,找了篇 文章,不了解的同学可以看下
根据官网介绍一个story是一个或多个UI组件的单一状态,基本上像一个可视化测试用例。
EDAS ScheduleX 问题
浅谈
ScheduleX 简称分布式任务调度,简单的可以理解为就是一个分布式的计划任务,多台机器安装了 ScheduleX 的客户端后,用户可以在 控制台进行统计的任务调度和分配处理。
schedulerx-console 是 SchedulerX 的控制台,用于创建、管理定时任务。
面向大数据与云计算调度挑战的阿里经济体核心调度系统—Fuxi 2.0全揭秘
随阿里经济体和阿里云丰富的业务需求(尤其是双十一)和磨练,伏羲的内涵不断扩大,从单一的资源调度器(对标开源系统的YARN)扩展成大数据的核心调度服务,覆盖数据调度(Data Placement)、资源调度(Resouce Management)、计算调度(Application Manager)、和本地微(自治)调度(即正文中的单机调度)等多个领域,并在每一个细分领域致力于打造超越业界主流的差异化能力。
熟悉常见概率分布
生活中的很多事情潜在的都符合某种规律。例如:反复抛掷一枚均匀的硬币,出现正面和反面的机会是差不多的;我们认识的人里面特别高或者特别矮的都不多,大部分人的身高都在一个比较接近的范围内。概率论通过概率分布来描述事件出现的频率。本文选取了一些常见的概率分布做一些介绍,以方便在今后使用的时候可以查阅。
> 当然,“常见”是一个很口语而非科学的说法,因为这很难有明确的标准。如果想要对更多的概率分布做深