能力说明:
精通JVM运行机制,包括类生命、内存模型、垃圾回收及JVM常见参数;能够熟练使用Runnable接口创建线程和使用ExecutorService并发执行任务、识别潜在的死锁线程问题;能够使用Synchronized关键字和atomic包控制线程的执行顺序,使用并行Fork/Join框架;能过开发使用原始版本函数式接口的代码。
能力说明:
了解Python语言的基本特性、编程环境的搭建、语法基础、算法基础等,了解Python的基本数据结构,对Python的网络编程与Web开发技术具备初步的知识,了解常用开发框架的基本特性,以及Python爬虫的基础知识。
能力说明:
具备数据库基础知识,了解数据库的分类,具备安装MySQL数据库的能力,掌握MySQL数据类型知识,基本了解常用SQL语句,对阿里云数据库产品有基本认知。
暂无个人介绍
数据治理的目的是为了让数据更加准确,降低后续数据清洗的难度,节约成本,加强把控,好处是说不完的,但这实际开发中所遇到的问题却比好处要复杂,你可能考虑到所有的问题,但却无法预估问题解决的难度。
该脚本的最初设计目标是根据ODPS表中的不同二级分区,统计每个字段的详细量级,以便为下游用户提供数据支持。这有助于对中台数据资产进行有效管理,并能够及时关注上游数据质量问题。
咋样才能是一个合格的大数据开发,其实我也很迷茫,不过我希望自己可以越来越清晰
那一天我带着满怀恶意的问题去问大模型
该文章所有的思考都是个人理解,不一定准确,也不一定适合所有的零售行业,主要以“业务”,“建模”和“调优”三个大方向来讲述。
当涉及到并行编程时,Python标准库提供了两种不同的方式:基于线程的并行(threading)和基于进程的并行(multiprocessing)。下面我将从概念、性能、使用场景和底层实现等方面对它们进行解释和比较。
在数据预处理的过程中,手机号作为联系方式的一种重要形式,经常需要进行格式验证和去重等操作。然而,在实际应用中,我们常常遇到手机号格式不统一、线上业务还好点,但是有部分线下的业务手机号是手工录入的数据等问题。这些问题导致正则清洗的工作量很大,而且容易出现错误,影响数据的质量。为了解决这些问题,本文提出了一些可能的优化方案,希望能够为数据预处理工作提供一些参考。
广度优先搜索算法是一种图搜索算法,用于在图或树等数据结构中寻找从起点开始到达目标节点的最短路径。该算法从起点开始搜索,逐层地向外遍历其相邻节点,直到找到目标节点或遍历完整张图。
探查度量值是数据分析中至关重要的一步,它可以帮助我们了解数据类型、发现异常值、理解数据分布、提供数据参考等。这些信息对于我们进一步的数据处理和分析都至关重要。使用Python中的Pandas和PyTorch等工具,我们可以快速实现数据类型确定、描述性分析和探索性数据分析。
这十个代码错误处,是我在日常工作中总结的一些问题,同时也包括了我解决这些问题时采用的一些方法。这些方法仅供参考,具体还需要根据数据和业务需求进行调整,才能编写出正确的 SQL 代码。
度是指在事实表中所记录的数据的最小粒度,也可以理解为事实表中每个记录所代表的含义。在维度建模中,粒度对维度表和事实表都具有重要性。
本次脚本设计是针对大批量表,并且没有明确业务支持下的数据探查,会根据不同的类型进行判定,根据结果值进行分析得出结论,并给出一定的建议,同时该脚本仅仅支持普通表,一级分区表和二级分区表;一级分区表的分区字段必须是ds或者pt。
下面是市面上一些存储方式概念的简单介绍,包含关系型数据库,非关系型数据库,内存数据库,数据仓库,对象存储,图数据库,时序数据库和多维数据库
紧接上文,本次对于上次的优化是增加了kafka的插件,用简单消费者和生产者在本地window系统完成模拟,每五分钟爬取一次百度热搜,条数基本为145条,然后消费者来消费数据,写入到spark,下次的优化应该就是从sparksql转化为sparkstreaming,并直接整合kafka,而不是中间转row再写入。
本次算是爬取的第一个demo,百度热搜只是用来测试,写入的mysql也肯定不是最优解,到后期应该会写入到hbase中,spark也大概会换成flink,不过目前还是spark+mysql
简单spark+scala的demo,具体为map,flatmap,reducebykey等算子的运用
主要实现的是mac安装spark,spark基本的wordcount代码,spark on yarn
基本学习使用hive可以,但有条件,还是建议买个ecs,在linux环境中学习
这是根据学习图谱中hbase的教程,写的最后的微博案例demo,使用的是mac系统,本地安装的mysql,单机版的hbase,本地环境配置的jdk版本是openjdk11.0.16.1,具体逻辑是用户微博内容写入到内容表,关注该用户的用户根据用户关系表,将数据推送到信箱表中。
最近在做数仓建设,发现很多弊病都来自ods的数据没有探测好,之前都是人手工探查,看具体的字段注释是否是枚举或者最大值最小值等判定,再加上后续数据采集方式的调整,再次探查的成本会增大,我就寻思能够利用pandas来分析odps的数据。
虽然公司配了mac,不过家里的电脑还是上学时候的拯救者,学习大数据框架的时候也基本是直接上虚拟机,每次打开电脑,打开虚拟机,再打开xshell,真的是烦,正好最近重装了一下电脑,于是就想着结合scoop+docker优化一下之前的虚拟机+xshell的路线。
本次试验是因为女友的工作带着些客服性质,经常需要回复些重复性质的信息,他们的私域数据集中在企业微信,但是我没有办法去打通这个渠道,所以我就琢磨着能不能捕捉整个桌面的信息,然后解析出需要的数据。
本文大部分理论和问题都从maxcomputer中得出,不同的计算引擎底层结构不同最后结果可能稍微不同,这一点需要注意,本文应该可以让你不再苦恼各种join,或者更加苦恼join。