暂时未有相关云产品技术能力~
阿里云GTS-交付技术部-技术中台组
Dataworks不是支持文本数据导入么?为什么Excel数据不能导入?CSV文件不就是Excel文件么?关于这些问题,我整理了一篇文章进行解释。
最新在项目中进行存储优化的一个事情,于是就又把拉链表抬出来了。
最近项目交付上遇到了一些问题,我把自己的回答和想法记录一下,分享给大家。
最近项目交付上遇到了一些问题,我把自己的回答和想法记录一下,分享给大家。
我写过很多如何去对数、如何批量对数的技术文档,最近项目遇到这个问题,我才发现在官方博客上还没有发布过这个课题的文章。这就像灯下黑,太长用到的知识点,反而没有意识到其重要性。
当把数据集成到Maxcompute上后,用户其实最关心的一个技术问题就是集成数据是否与源端一致,本文中介绍的一致性方案比对方案是基于阿里云多个大数据项目实际项目交付实践总结。
如何选择数据离线集成方式,哪些表适合全量集成,哪些表适合增量集成
如何选择数据离线集成方式,哪些表适合全量集成,哪些表适合增量集成
如何在项目交付过程中合理经济的选择数据集成方案
如何在项目交付过程中合理经济的选择数据集成方案
成本和单价是产品的维度还是事实表中的事实?来看看我对这个问题的思考与分享吧。
成本和单价是产品的维度还是事实表中的事实?来看看我对这个问题的思考与分享吧。
这篇文章主要讲一个SQL优化反映的两个优化点。分别是: 一、笛卡尔积逻辑的参数优化。 二、一个复杂JOIN逻辑的优化思路。
2022年6月9日,我在信通院组织的“聚焦数据中台|下一代数据架构沙龙中”中发表了一次《阿里云数据中台架构实践》演讲,这次演讲也包括了其他中台厂商的内容,感兴趣的可以上去看看。
著名管理大师钱德勒总结过一个黄金定律:战略决定组织,而组织决定成败。
简单的比较了一下数据中台架构与数据仓库、BI、DSS之间的关系,并对比了一下Bill Inmon和Ralph Kimball架构的差异。
怎么对齐两段union脚本的数据类型
回到十多年前,增量加工这个方法并不是一种需要特别需要提出的方法,因为关系数据库的存储与计算性能十分有限(即便是MPP数据库平台也不是全都是做全量加工),增量加工是最普遍的方式。本文讲述了如何在MaxCompute上用与关系数据库的不同的方式做增量数据的加工。
分层架构很容易在各种书籍和文档中去理解,但是把建模方法和分层架构放在一起就会出现很多困惑了。接下来,我会从数据研发与建模的角度,演进一下分层架构的设计原因与层次的意义。
最近凑巧参与了一次某行业的业务共创会议,期间讨论到了主数据系统,还有我们该如何参与主数据系统建设的话题。说实话,我一直以为我不会有机会参与到主数据与参考数据系统的话题中去,所以,又去把DAMA的书籍翻了翻。顺便也重新思考了一下主数据与参考数据这个数据治理的课题。
2022年的一月和二月,我花了大量时间来学习研究分类与分级这个课题,但是并未找到答案。我把分类与分级的问题,定义为一个社会知识的问题。因为分类的问题相当广泛,而且也相当复杂,即便是一个科学家也只能对自己小范围内的数据进行有限的分类。而我们做数据中台数据治理项目交付,面对的数据是非常广泛的,全社会的各种各样的数据都可能是我们要分类的目标。要想把类分好,就要对需要分类的数据及其业务含义、适用场景等都有深入的了解。而我,每次即便是看到某一小类数据都非常的头痛,因为我对这个世界的认知太单薄。用一个成语“蚍蜉撼树”来形容我现在想做的事情,再恰当不过了。
集成Oracle数据到MaxCompute,乱码问题分析; 为什么,在oracle数据不乱码,集成到MaxCompute就乱码了? 问题在哪里?
阿里云大数据平台集成时序数据的架构与存储规划
客户需对近3-6个月归档数据进行快速全量查询的需求,涉及查询的423T数据量,达到引擎默认任务数上限,且资源消耗巨大,等于几乎无法查询, 且看maxcompute的海量数据查询方案如何应对这样的场景。
存储策略该怎么设计
MaxCompute 挑战使用SQL进行序列数据处理 --而不是用MR和函数
造一点模拟数据的方法
搜了一下行转列、列转行,除了隐林一篇之外,好像没有了 最近在帮助项目组初学者整理初学者文档,刚好用关系型数据库的例子变化实现了一个 借鉴:https://developer.aliyun.com/article/40518 供大家参考
MaxCompute(ODPS2.0) - 试用新的集合操作命令 EXCEPT & 增量识别
MySql数据库的编码支持UFT8字符集。utf-8编码可能是2个字节、3个字节、4个字节的字符,MYSQL的utf-8编码,只支持3个字节的字符。汉字中很多生僻字都是4个字节的字符,日常生活中人的姓名就会有很多高位的生僻字。
专有云目前还有不少ODPS1.0版本,主要是应对V3之前的平台版本。这个版本的ODPS不支持exists语法,如何换种写法实现。
总有同学提问,说我原来在oracle的存储过程中的循环现在maxcompute支持了,我的程序怎么迁移。这个问题其实非常难以回答,一般来说99%的oracle的代码都可以通过maxcompute的SQL和函数来替代,这个也包括一般的循环语句要解的问题。
关系型数据库支持的DML(delete/update/merge)SQL ,在maxcompute(ODPS)该如何写? 总有人问,现写了一个例子,应该可以说明了。 有问题,欢迎大家指正。
oracle 数据类型 转到ODPS,映射关系