解析阿里云分布式调度系统伏羲
本文涉及的内容是阿里云分布式调度团队在分布式调度系统的设计、实现、优化等方面的实践以及由此而总结的分布式系统设计的一般性原则,具体包括分布式调度的任务调度、资源调度、容错机制、规模挑战、安全与性能隔离以及未来发展方向六部分。
Alluxio使用——开篇
一.Alluxio概述
Alluxio(前身Tachyon)是世界上第一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。
Alluxio项目源自加州大学伯克利分校AMPLab,作为伯克利数据分析堆栈(BDAS)的数据访问层。
Ha3搜索引擎简介
Ha3是阿里巴巴搜索团队开发的搜索引擎平台,它为阿里集团包括淘宝、天猫在内的核心业务提供搜索服务支持。
新浪微博上云实践:极端流量下的峰值应对与架构挑战
在混合云架构中,核心关键是专线,它是实现内部与公有云之间弹性的核心。目前微博和阿里云之间已经拉通了多条专线,日常的核心消息通过多机房的消息组件同步到阿里云缓存中,实现前端层面和缓存层面的弹性伸缩。在混合云的模式下,微博目前采用了两种部署方案。
开源工具GPU Sharing:支持Kubernetes集群细粒度
问题背景
全球主要的容器集群服务厂商的Kubernetes服务都提供了Nvidia GPU容器调度能力,但是通常都是将一个GPU卡分配给一个容器。这可以实现比较好的隔离性,确保使用GPU的应用不会被其他应用影响;对于深度学习模型训练的场景非常适合,但是如果对于模型开发和模型预测的场景就会比较浪费。
【云栖大会】阿里云首席架构师唐洪:飞天,互联网规模的操作系统
10月13日,2016杭州·云栖大会主论坛上,阿里云首席架构师唐洪以《飞天,互联网规模的操作系统》为题进行了主题演讲。演讲核心内容:首先,飞天是规模。其次,飞天是性能。第三,飞天是效率。第四,飞天是高可靠。第五,飞天是高可用。第六,飞天是开放
2017双11技术揭秘—阿里数据库计算存储分离与离在线混布
随着阿里集团电商、物流、大文娱等业务的蓬勃发展,数据库实例以及数据存储规模不断增长,在传统基于单机的运维以及管理模式下,遇到诸多如成本,调度效率等问题,因此,2017年首次对数据库实现计算存储分离,计算存储分离后,再将计算节点与离线资源混布,达到节省大促成本的目的。