从酒店服务员到世界500强大数据工程师,月薪4K到年薪40W,我经历了什么?

简介: 从酒店服务员到世界500强大数据工程师,月薪4K到年薪40W,我经历了什么?

今天分享学习经历的是一位学习群的小伙伴,他毕业之后做过微商服务员、销售、外卖小哥等,后面去培训机构培训运维,最后转的大数据开发。薪资也从最开始的4K,到现在的年薪40W。


image.png



一、不堪回首的奋斗往事

2016年6月从湖南某二本文科专业毕业之后在老家做了半年的微商

2017年2月南下深圳,先是做过维也纳酒店的前台服务员,贷款中介公司的电话销售,自如友家的服务管家,后来还去跑过美团外卖,以及在乐凯撒餐厅做过披萨,在这一年多的时间里,平均月收入只有4K。


image.png


2018年9月参加某机构线下Python培训半年。


2019年3月入职深圳某A公司从事Python运维工作,月薪9.7K。


2020年1月离职在家自学大数据,在此非常感谢@无精疯 峰哥当时的耐心指导和帮忙规划学习路线,三个月后成功转型大数据,入职深圳某B公司从事数据仓库开发工作,月薪17K。



2020年10月离职后入职深圳某C公司从事大数据开发工作,月薪21K

2021年4月经峰哥再次指导,成功入职深圳某世界500强企业,担任高级大数据工程师职位,月薪27K,总包40W。


二、大数据转型时期的学习路线


第一阶段:学完第一阶段就可以开始找数据仓库开发相关的岗位了(市场上40%的岗位可以投了)1、Java基础:JavaSE2、SQL课程:MySQL【重点】3、Linux基础4、Hadoop框架:HDFS、MapReduce、Yarn【重点】5、Hive【重点】6、HBase7、辅助框架:Flume、Sqoop、Azkaban8、大数据项目实战(一):基于Hive的离线数仓项目【重点中的重点】


第二阶段:学完第二阶段就可以找大数据开发相关的岗位了(市场上75%的岗位都可以投了)1、Scala基础2、Spark框架:SparkSQL、SparkStreaming【重点】3、Kafka消息队列4、大数据项目实战(二):基于Spark的实时+数仓项目【重点中的重点】

第三阶段:学完第三阶段就可以找所有和数据开发相关的岗位了(市场上90%的岗位都可以投了)1、Flink【重点】2、Redis3、大数据一些其它的辅助框架(Kylin、Druid、Presto、Impala、ClickHouse等)4、大数据项目实战(三):基于Flink的实时ETL和数仓项目【重点中的重点】


第四阶段:(进一线互联网大厂必备的技能)1、计算机基础和数据结构算法2、Java底层和部分框架源码


三、企业面试真题


1、请详细描述下hive中shuffle的优化?


2、hive在集群过程中怎么解决数据倾斜?3、hive导致数据倾斜的可能性(哪些操作会导致)-->分桶 join key 分布不均匀的大量空值导致如何解决?4、悲观锁和乐观锁的区别以及CAS乐观锁怎么实现,或者有哪些其他方式?5、编程的设计模式举例一下,用过哪些,什么场景下使用的?6、你对实时计算这块的理解是怎么样的?7、Sparkstreaming突然断掉了怎么办?怎么保证数据消费至少一次和精确一次?8、Sparkstreaming消费kafka数据怎么手动维护offset ?Offset保存到什么数据库?处理的顺序是什么?以及程序刚上线第一次从kafka消费这是怎样的流程?9、Spark解决了哪些问题让你很有成就感?10、Spark发生了数据倾斜你会怎么做?11、Sparkstreaming的背压机制,除了设置背压参数为true之外还需要做什么?12、Spark性能调优?13、跑spark作业的时候,给到executor的个数是10个,每个executor的核数是2个,请问跑这个作业时并行度设置为多大比较合适?14、这么做是为了避免shuffle操作,shuffle为什么会存在数据倾斜?15、为什么会有shuffle的存在?shuffle操作的意义又是什么?16、Java中的ArrayList的底层数据结构?LinkedList?17、创建一个ArrayList里面的空间有多大?18、让你设计一个容器类,比如ArrayList,你怎么去实现?


19、HashMap的数据结构是什么?为什么要这么设计?20、数组和链表的区别是什么?21、你们每天需要同步的数据量有多大?22、Druid的工作原理?23、每天集群的数据增量有多大?24、业务数据量有多大?每日订单量有多少?25、各大数据组件在各机器上是怎么分配的?26、离线和实时分别是怎么分层设计的?27、维表数据的加载和更新?28、生产环境中Kafka要增加topic分区的时候怎么操作?29、数仓中每层用的数据存储格式分别是什么?30、Hive中两个大表进行join的时候有什么优化方法?31、JVM的垃圾回收器有哪些?你们用的哪种?32、项目架构流程图:手画+讲解33、Druid和Kylin做一个技术选型你会考虑哪些因素?34、现有一个n*m的方格,每个格子里有一个100以内的随机数字,现在需要从方格的最左上角走到最右下角,只能往下和往右走,如何计算出数字之和最大的一条路线?35、流处理:用户如果在10s内,同时连续输入同样一句话超过5次,就认为是恶意刷屏,请您写出检测刷屏用户的代码?


四、总结


在大学毕业之后,我花了足足3年的时间仅仅才实现月薪从4K到9.7K,而后面仅仅花了3个月的时间就实现了月薪从9.7K到17K,以及最近1年的时间已经实现从17K到27K,对此,我最想说的四句话就是:

1、选择大于努力,知识改变命运;

2、找准自己的赛道,然后努力奔跑,做到足够自律,在这个过程中你可能会很痛苦,但是不要轻言放弃;

3、想获得更快速的成功,还得需要高人的指点和贵人的相助;

4、越努力,越幸运!

--end--


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
XML JSON Java
SpringBoot必须掌握的常用注解!
SpringBoot必须掌握的常用注解!
1156 4
SpringBoot必须掌握的常用注解!
Java 线程同步的四种方式,最全详解,建议收藏!
本文详细解析了Java线程同步的四种方式:synchronized关键字、ReentrantLock、原子变量和ThreadLocal,通过实例代码和对比分析,帮助你深入理解线程同步机制。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
Java 线程同步的四种方式,最全详解,建议收藏!
|
存储 文件存储 虚拟化
ESXi8下安装iStoreOS软路由兼轻NAS系统
ESXi8下安装iStoreOS软路由兼轻NAS系统
1680 0
|
设计模式 Java 机器人
学习笔记之二《SpringBoot3-核心特性》
学习笔记之二《SpringBoot3-核心特性》
449 0
|
机器学习/深度学习 人工智能 前端开发
阿里巴巴D2 前端论坛最全视频来了!(附PPT下载) | 6大专题持续更新
D2 前端技术论坛 (Designer & Developer Frontend Technology Forum, 简称 D2),是由阿里经济体前端委员会主办的面向全球前端领域的技术论坛,立志于建设一个促进业内交流、引领前端领域发展的平台。目前 D2 已经成功地举办了13届,为国内外前端领域的开发者和设计者提供了共同探讨行业发展的机会,以技术会友、一起分享技术的乐趣。
26907 0
阿里巴巴D2 前端论坛最全视频来了!(附PPT下载) | 6大专题持续更新
|
网络协议 Linux 网络安全
系列解读SMC-R:透明无感提升云上 TCP 应用网络性能(一)| 龙蜥技术
已有的应用若想使用RDMA技术改造成本高,那么有没有一种技术是不做任何改造就可以享受RDMA带来的性能优势?
系列解读SMC-R:透明无感提升云上 TCP 应用网络性能(一)| 龙蜥技术
|
SQL 存储 分布式计算
Hive----执行引擎
执行引擎
620 0
Hive----执行引擎
|
存储
Google earth engine——矢量数据的上传(新手必备)!
Google earth engine——矢量数据的上传(新手必备)!
1242 0
Google earth engine——矢量数据的上传(新手必备)!
|
存储 XML JSON
二进制序列化器、XML序列化器、Json序列化器
序列化是将对象的状态信息转换未可以存储或传输的形式的过程。在序列化期间,对象将其当前状态写入到临时或持久性存储区。以后,可以通过从存储区读取或反序列化对象的状态,重新创建对象。
|
Web App开发 前端开发 JavaScript
网页自适应跟随系统深色模式
近几年,各个主流操作系统都逐渐开端注重深色方式,从而改善用户在环境光亮低时的阅读体验。随着水果在 iOS 13 与 macOS Mojave 中添加了深色方式,除了 Linux 以外一切的主流操作系统都曾经完成了系统层级的深色方式。Linux 由于 DE、WM 的种类繁杂暂时没有统一的标准,但目前可以经过深色 GTK+ 主题、阅读器插件等方式完成“伪全局”深色方式。既然有了系统层级的适配,阅读器就可以读取深色方式开关,从而完成网页的自顺应。这就是新标准 prefers-color-scheme。
1430 0
网页自适应跟随系统深色模式