袋鼠云是企业数据化整体解决方案提供商,是数据中台架构倡导者、引领者,通过打通数据供应链,构建企业数据化驱动引擎,加速企业数据化进程,让数据成为企业核心竞争力。
能力说明:
掌握计算机基础知识,初步了解Linux系统特性、安装步骤以及基本命令和操作;具备计算机基础网络知识与数据通信基础知识。
暂时未有相关云产品技术能力~
阿里云技能认证
详细说明Dinky 扩展批流统一数据集成框架 ChunJun 的实践分享
最近,我们袋鼠云的UED部⻔小伙伴们,不声不响地⼲了⼀件⼤事——升级了全新设计语言「数栈UI5.0」!数栈UI5.0结合经典的尼尔森十大可用性原则,秉承给客户带来更加好用的功能和体验的目标,进行了重大提升,快点进文章看看,数栈UI5.0都做了什么什么吧!
本文为大家介绍开源项目一站式大数据平台运维管家ChengYing产品包制作
在大型客户场景下,经常面临着增量产品包内存过大影响平台部署效率的问题,袋鼠云从平台对编译策略的优化出发,结合内部产品包出包优化探索,来探讨如何在增量策略下,更优的解决产品包的内存大小问题,以解决增量升级的效率性。想知道袋鼠云具体是怎么做的吗?欢迎点击下文了解详情
上一篇内容讲了资源参数优化,本篇继续说明spark driver以及spark shuffle相关的参数调优。
Hive是大数据领域常用的组件之一,主要是大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点,因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。本文主要描述在底层引擎为Spark时,经常会用到的、常见的配置参数。
HQL提供了两个查看查询性能的工具:explain与analyze,除此之外Hive的日志也提供了非常详细的信息,方便查看执行性能和报错排查。
本文主要介绍hive中创建,查询,修改数据库语句,以及创建表查询表语句
本文主要介绍hadoop基础环境(3.1.3) Hive版本 3.1.2搭建教程。
本文主要说明Hive产生背景,使用场景,特点,体系架构及Hive SQL执行流程。
主库执行insert select 批量写入操作,主从复制通过row模式下转换为批量的insert大事务操作,导致只读实例CPU资源以及延迟上涨
大查询长时间执行无法释放DML读锁,后续同步主库的DDL操作获取DML写锁资源被阻塞等待,导致后续同步主库的操作堆积,主从延迟增长严重。从同步延迟的监控来看,延迟从17:11开始,17:51:59进行kill大查询操作,直到17:53建议业务方将大查询kill掉后才结束。
通过对TOP表数据量的监控,我们可以看到sys_rest_server_log的数据量已经达到7000w,除空间占用外,我们更关注的是该表对数据库带来的性能隐患。若业务上或者人为不当的查询该表数据,其操作的资源消耗在一定程度上一定会对正常业务造成影响。
使用explain关键字可以模拟优化器执行SQL查询语句,从而知道MySQL是如何处理你的SQL语句的,分析你的查询语句或是表结构的性能瓶颈。
索引是表的目录,是数据库中专门用于帮助用户快速查询数据的一种数据结构。类似于字典中的目录,查找字典内容时可以根据目录查找到数据的存放位置,以及快速定位查询数据。对于索引,会保存在额外的文件中。
MySQL 事务主要用于处理操作量大,复杂度高的数据。比如开单,需要添加给订单表增加记录,还需要增加订单的各种相关明细,操作复杂度高,这些操作语句需要构成一个事务。在 MySQL 命令行的默认设置下,事务都是自动提交的,即执行 SQL 语句后就会马上执行 COMMIT 操作。因此要显式地开启一个事务务须使用命令 BEGIN 或 START TRANSACTION,或者执行命令 SET AUTOCOMMIT=0,用来禁止使用当前会话的自动提交。
云掣用技术守护艺考!!!
袋鼠云通过数据集成优化、任务调度优化、代码优化、全链路数据质量保障、故障紧急处理、大数据平台运维,为客户提供大数据系统运维保障服务。
Hive是大数据领域常用的组件之一,主要是大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hive调优是必不可少的技能。影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。本文主要是从监控运维的角度对Hive进行整体性能把控,通过对hive元数据监控,提前发现Hive表的不合理处及可优化点,将被动运维转化为主动运维。
三步改变线上业务库中SQL执行很满,导致每次跑1分钟才结束的难题。
在MySQL中,同样的查询条件,如果变换OR在SQL语句中的位置,那么查询的结果也会有差异,在多个复杂的情况下,可能会带来索引选择不佳的性能隐患,为了避免执行效率大幅度下降的问题,我们可以适当考虑使用统一所有对查询逻辑复杂的SQL进行分离。
在实际的开发运维过程中,想必大家也常常会碰到慢SQL的困扰。一条性能不好的SQL,往往会带来过大的性能开销,进而引起整个操作系统资源的过度使用,甚至造成会话堆积,引发线上故障。而在SQL调优的场景中,一类比较常见的问题,就是隐式类型转换。那什么是隐式转换呢?
云掣帮助客户实现了自建Kubernetes集群的平滑上云,为打造高效的运营模式和完善的供应链体系提供了保障。
近些年,数据安全事件频发。作为企业的核心资产,数据的外泄、破坏都会导致不可挽回的经济损失和核心竞争力缺失。规范的制度建设、权限管理和变更流程是保证数据安全的重要落地措施。袋鼠云DBA团队承接多个客户的容灾架构设计需求,制定可靠、有效的容灾架构方案并推动落地。备份重于一切。我们会优先考虑数据库备份集的容灾设计:两地三中心VS混合云、权限分配&监控告警&恢复演练。
2020年云栖大会百城汇·杭州站,云掣MSP专场圆满落幕!本次云栖大会·云掣MSP专场以“数据智能,智能运维”为主题,主要聚焦企业云化转型演进趋势,云上运维全景监控以及云原生云环境下核心系统高可用保障。
奋哥哥接到业务方线上业务数据库CPU资源告警信息,立马登录业务方阿里云控制台查看具体问题。对于数据库当前正在发生中的问题,我们首先从数据库实时会话信息中尝试抓取有效信息,可以看到该告警实例的会话已经出现堆积状态,大量会话处于"Sending data"状态且从TIME字段可以看到这些会话长时间执行未结束。会话长时间执行表示当前会话一直占用的数据库资源未释放,且堆积会话基本为同一类型的业务SQL,这也就是导致我们数据库资源打高的问题SQL。于是,奋哥哥凭借自己高超的技术解决了这一问题。具体是怎么解决的呢?请看下文!
2020年9月17日,由杭州云掣科技有限公司携手阿里云,联合举办的云栖百城汇·智能运维·云掣MSP专场在杭州市西溪宾馆顺利召开。 本次大会以“数据智能,智能运维”为主题,汇聚了百余位来自金融、零售、制造、能源、医疗等多个行业的领袖,重量级嘉宾在现场进行精彩分享和多元碰撞,共同探讨数字经济下企业云化转型以及数据化运维的新趋势。
云栖大会起源于2009年,历经十一载,云栖大会见证了中国云计算发展史。2019年,全球6万余名嘉宾现场参会,超过1200万线上直播观看,云栖大会成为面向政府、产业、开发者的世界级 • 现象级科技大会,宣告世界迈入“数字经济时代”,阿里巴巴的数智技术是“数字经济的基础设施”。2020云栖大会是一次真正的线上+线下的深度尝试,通过「百城汇」将把云栖大会带到了全国35个 城市。 9月17日,以“智能运维”为主题的线下云栖大会—云栖百城汇·云掣MSP专场开幕在即。届时,来自金融、零售、制造、能源、医疗等多个行业的领袖将齐聚一堂,与云掣科技共同探讨企业数据化运维转型新趋势。
近年来,数据安全问题日渐受到大家的关注,对于任何一家企业,数据无疑是最重要的资产之一。提到数据容灾,大家可能会想到备库和备份的概念,那么我们先来谈谈**备库与备份**的区别。
影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。 本文主要结合实际业务情况,在使用Spark作为底层引擎时,通过一些常见的配置参数对报错任务进行调整优化,主要包含以下两个方面:
Hive是大数据领域常用的组件之一,主要用于大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要因素有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等。本文主要从建表配置参数方面对Hive优化进行讲解。
云数据库产品越来越多,各家云厂商也都推出基于开源MySQL、Postgre等的关系型数据库产品,多副本、高可用、读写分离、分库分表等功能更是集成在各类产品中,降低了机房建设和运维成本,助力更多的客户上云。
所有的好设计其实都是专业思考的过程的反映。通过前注意过程,潜移默化地引导你的阅读顺序,强调重点的内容。好的可视化大屏,是艺术更是科学,细微的变动可能完全影响数据信息的传达。
「智能运维大数据平台」是一款开箱即用的运维监控平台,通过特有的平台功能可以将企业的基础架构、应用程序、日志管理结合在一起,提供统一采集、统一存储、关联分析、统一监控企业业务保障能力,保障企业业务稳定高效运行,同时利用离线计算、实时计算、机器学习等技术,实现运维数据共享、数据开发和加工能力,让开发人员、运营团队和业务团队协同工作,构建和改进软件应用程序,并帮助企业了解业务和用户使用情况。
DataAPI,通过双模式可视化配置生成与注册API,快速构建Oneservice数据服务,形成企业级的API市场和API服务管理平台,提高数据开放与共享效率
什么是FlinkX? FlinkX是一款基于Flink的分布式离线/实时数据同步插件,可实现多种异构数据源高效的数据同步,其由袋鼠云于2016年初步研发完成,目前有稳定的研发团队持续维护,已在Github上开源(开源地址详见文章末尾)。
Streamworks,袋鼠云基于SQL的流计算开发平台,其通过扩展FlinkSQL,实现FlinkSQL与界面化配置映射结合的方式,完成Kafka源数据的读入,并支持流数据与Mysql/Oracle/MongDB等数据源进行维表关联,将最终结果数据导出至Hbase/ES/Greenplum/Oracle/OceanBase等目标数据库,进行一站式的流数据开发。
数栈-离线开发平台(BatchWorks) 中的数据离线同步任务、数栈-实时开发平台(StreamWorks)中的数据实时采集任务已经统一基于FlinkX来实现。
前言 “全面上云的拐点到了!”7月25日,阿里云智能总裁张建锋在2019阿里云上海峰会上做出了明确回答。张建锋表示,今年是云产业一个非常重要的拐点。云上服务与数据库服务成为各类云服务厂商争夺的市场,数据库“高可用“俨然已成为云原生数据库产品的标配,但还未上云的存量数据库该何去何从? 方案背景互联网兴起,银行、医疗、政府行业也步入了智能时代。
引言 本文是对《redis设计与实现(第二版)》中数据结构与对象相关内容的整理与说明。本篇文章只对对象结构,1种对象——字符串对象。以及字符串对象所对应的两种编码——raw和embstr,进行了详细介绍。
引言 本文是对《redis设计与实现(第二版)》中数据结构与对象相关内容的整理与说明。本篇文章只对对象结构,1种对象——字符串对象。以及字符串对象所对应的两种编码——raw和embstr,进行了详细介绍。
物联网( IoT ,Internet of things )是互联网基础上的延伸和扩展的网络,将各种信息传感设备与互联网结合起来而形成的一个巨大网络,实现在任何时间、任何地点,人、机、物的互联互通。
一句话了解DTinsight.Science DTinsight.Science是「可视化建模与交互式代码编写于一体的机器学习作业探索平台」,实现数据接入、可视化实验建模、Notebook编程、模型训练、模型部署、任务运维等开发场景,帮助企业构建算法服务能力,提供高效、安全、稳定的算法运行环境。
关于袋鼠云数据中台专栏V2.0 数据中台如何定义?企业数据化与数据中台的关系是什么?数据中台如何支撑企业战略转型?袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量的实战经验,同时也在为客户服务的过程中,不断完善和升华自身的数据中台理论体系和实践方法论。
5月9日,“创赢鼓楼”2019创新创业大赛总决赛在南京圆满落下帷幕。本次大赛由中共南京市鼓楼区委员会、南京市鼓楼区人民政府主办,鼓楼区委组织部、鼓楼区科学技术局、鼓楼区人力资源和社会保障局、南京鼓楼高新技术产业开发区承办,微链协办。
![image](https://yqfile.alicdn.com/9f340de1fbe02ba7f0e53655748375af47770dfd.png) 袋鼠云数栈3.0版本开始实现商业化以来,已经应用到教育行业、政府行业、旅游行业的浙江大学、山西商务厅、中金易云、京东方、杭州互联网法院、西溪国家湿地公园、西湖风景名胜区、国家电网、云南中烟、常州旅游商贸高等职业技术学校等众多客户,帮助客户搭建和升级大数据计算开发平台,管理大规模数据资源,用工具化和可视化的方式高效进行数据治理,对数据资产进行创新应用,在复杂多元的业务场景中发挥数据价值。
关于袋鼠云数据中台专栏V2.0 数据中台如何定义?企业数据化与数据中台的关系是什么?数据中台如何支撑企业战略转型?袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量的实战经验,同时也在为客户服务的过程中,不断完善和升华自身的数据中台理论体系和实践方法论。