不用已知解决未知,踏足数据科学家培养的“无人之境”

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 随着中国信息技术飞速的发展,云计算、AI、5G等创新技术被更多地运用到教育手段变革、教育资源共享之中。阿里云提出的“飞天加速计划”也在后疫情时代,通过云力量帮助中国高校培养新一批创新人才。

自21世纪初以来,人们发现大数据在量级、类型、价值密度以及处理速度要求等方面已经远远超出了传统知识解决问题的能力,但现阶段人们掌握的知识却并未随之升级。这一矛盾便催生了一门新的学科——数据科学。

与此同时,整个2000年代,国外大量顶尖的学术期刊开始承认数据科学是门新兴的学科。2009年,Natahn Yau首次提出了“数据科学家”的概念,并将其定义为采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程师;2012年,数据科学家Thomas H. Davenport和 D.J. Patil 在《哈佛商业评论》发表了一篇文章《数据科学家:21世纪最性感的职业》,这一新兴的职业群体开始被更多人好奇并在国外迅速走红。

同年,中国人民大学信息资源管理学院的朝乐门正在研究基于语义web的知识处理。但平时常常浏览数据科学领域顶尖人物发言和论文的他惊奇地发现,不仅自己崇拜的技术大牛在讨论数据科学,就连全球著名的统计学家、计算机科学家,包括一些知名实验室都开始进行数据科学的研究。

凭借对学术的敏感,朝乐门认定,数据科学绝对是未来产业,迅速怀着一腔热血进入了在国内尚属无人之境的数据科学领域。迄今,朝乐门已经在数据科学道路上走过了十年。

打破质疑,做专业的拓荒者

其实,在朝乐门正式转到数据科学专业之后,身边的同事和朋友都不是很看好,甚至有的人认为数据科学是不值得研究的伪科学。在朝乐门看来,别人对数据科学的误解,是因为不够了解,那就更需要有人在这个专业做一个拓荒者。

朝乐门提起一件趣事,有一次他在一场学术报告上讲到要培养数据科学家,有位老教授委婉地对他说,教书育人是教师的天职,但通过一门课程和几个学期培养一个科学家不太现实。朝乐门这时才知道,听众理解的数据科学家和作为一个岗位存在的数据科学家根本不是一回事儿,那周围人不看好这个专业再正常不过了!这也给了朝乐门启发,一定要花时间把核心的概念界定明确,如果不能真正的理解,就不会对这门学科产生真正的兴趣。

怀揣这份热忱,辛苦耕耘三年多,朝乐门终于在2016年出版了我国第一部系统阐述数据科学理论与实践的重要专著《数据科学》。朝乐门介绍,一开始不少老师是不买账的,质疑的声音此起彼伏,他就给这些老师每人都送了本书。果不其然,老师们看完就对朝乐门的态度发生180度大转变,因为这本书深入浅出地讲解了大数据及其背后的新理论、新方法与新技术,既涵盖了数据科学的基本内容,又避免了课程低级重复。同时,很多老师也看到了朝乐门是在认真做研究,被他脚踏实地、严谨治学的研究态度和做事态度感动了,不仅称赞连连,还对数据科学产生了新认知。

《数据科学》这本书填补了国内数据科学的空白,也让求学者的Email和电话像雪片一样飞向朝乐门。他们希望朝乐门能够提供教学资源、PPT代码等,朝乐门便把这些资源全分享在GitHub上,建立了数据科学导论开源课程社区,让大家可以在自己课程的基础上不断更新优化,最终开发出一个可以通用的版本。据了解,目前已有超过200所学校的教师申请加入了《数据科学导论》课程的开源行动。

不知不觉间,朝乐门也发现了身边的变化。那些曾经在他转变方向时提醒他或质疑他的人,现如今也投身数据科学及相关领域,甚至相继从事相关课题研究、编写专业书籍或开设相关课程。在数据科学的漫漫求索路上,朝乐门终于有了伙伴。

面对新鲜的概念,不能用已知解决未知

考虑到这门学科的难度,朝乐门在教学中形成了一个固定的习惯。凡是自己组里有新来的硕士生和博士生,都必须先读完几本最权威、专业的文献或入门书籍。

有一次,朝乐门在周五给一个学生下了为期三个星期的读书任务,结果周一这个学生就读完了,因为看不懂的地方全都跳过了。朝乐门当场批评了这种读书方式,他告诉学生,只在自己了解的领域里读书是不能改变自己认知和知识结构的。尤其是做数据科学,越难以理解的部分越要读,把薄的书读厚,把厚的书读薄,才能真正把数据科学的知识和自己的知识体系链接起来。

在未知的问题上花无限的心思钻研,不仅是朝乐门对学生读书的要求,在带领学生实践调研中,他也是这么做的。因为数据科学专业的特殊性,朝乐门每年都会带领学生进行课程调研工作,学生在调研工作中主要负责采集数据,朝乐门则负责分析数据。有时候学生会把自己知道的东西直接放在内容里,在朝乐门的多次提醒下,学生们逐渐在心里刻下了老师的教导——“数据科学是没有数据就没有发言权的一门学科,不能把已知的东西来解决未知的问题,也不能擅长什么就讲什么,我们要跟数据科学对齐,而不是让数据科学跟我们对齐!”

在朝乐门看来,这也是他与其他数据科学老师最大的不同。探索数据科学本身的内核及其自然的属性是他关注的重点,“不用已知解决未知”是他始终坚持的教学观点,也是他对数据科学最基本的尊重。

朝乐门对这门学科的尊重也收获着回报。有正在筹备数据科学项目的单位对朝乐门抛出合作的橄榄枝。他们说,这几年亲身感受到数据科学越来越热,但研究外围问题的人比真正研究数据科学的人多太多,所以希望有一个朝乐门这样的真正的数据科学家加入。

平衡社会需求与学生兴趣,加速人才培养

大数据时代,数据科学短短几年发展迅速,很多企业都提供了有竞争力的岗位。朝乐门对此喜闻乐见,但同时也在教学中遇到了与社会需求脱节的问题,这让朝乐门开始把适应社会需求放在最重要的位置。

朝乐门记得,第一次重视这个问题是因为看到学生在为了参加企业面试刷数据科学的题目,感到很疑惑,因为他觉得听自己的课就够了。结果学生毫不留情地跟他说,“你讲的东西人家不一定考的。”这件事让朝乐门陷入了沉思,随后便立刻成立了小组,搜集数据科学和大数据领域的各种面试题,按照出现频次排序,形成了一个近2000道题的题库。

经历这次学生面试带来的“刺激”,朝乐门在后来的教学课程建设和内容优化中一直以适应社会需求为原则,并大刀阔斧地展开了一系列新动作:坚持每年进行三大调研——更新岗位面试题、课程建设、专业建设。

更新面试题库,让每一届学生在面试时都得到最新的知识补给。通过调研全球范围内一流大学的数据科学课程建设,优化自己的教材内容和大纲。补充调研相关的课程,及时关注数据科学专业是否有新增课程或特殊课程。

每年秋季,朝乐门会带领学生开展调研工作,完成后深度消化,就可以应用在来年的春季学期了,这种更新速度一定程度上也保持了学生学习的兴趣。

与此同时,朝乐门也越来越注重学生应用实践能力的培养,希望让学生走入社会后能够真的学有所用。

要适应社会需求,光更新理论是不行的,还要找一个工业级的平台让学生模拟实验。朝乐门在收到学校发的教育部产学合作协同育人项目通知后了解到,阿里云可以为教学提供工业级的实训平台,与市场上最新的应用案例和前沿技术接轨,便迅速展开了与阿里云的合作。朝乐门在阿里云天池实验室中增加了数据分析与数据科学案例,将全部课程实验和作业都搬到了阿里云上。

为了让学生更愿意钻研实践,朝乐门还依托天池开发了一个实训项目——《数据科学实训课程研发:上市公司营收大数据分析》,分为5分钟、15分钟、45分钟、135分钟等多种版本的教学案例,使其更适合教师在课堂教学中引用。

朝乐门介绍,在自己主讲的《数据科学理论与实践》课程中引入实训项目,学生们都很喜欢。他们的认可反映在课程评分中,为这门课打出了99.89的高分,还在评价系统里骄傲地留言,“这是我们做的一个大项目”。朝乐门对项目取得的效果很满意,“对于一门有难度的课程而言,能够让学生获得满满的成就感并不容易,而培养学生的兴趣更是比讲授多少知识点都重要。”

据介绍,通过与阿里云的此次合作,朝乐门的课程项目成果之《数据科学的产教融合课程建设》获得了教育部产学合作协同育人项目专家组认定的优秀案例项目称号,这是产学合作领域的最高荣誉。朝乐门希望,通过产教融合,能够让学生既能培养学习兴趣和热情,也帮助学生快速成长为满足社会需求的专业人才。

**精进笃行,做数据科学领域最努力的人
**
坚持、努力、不断的精进,让朝乐门在数据科学领域取得了璀璨的成绩。他开发的《数据科学导论》课程凭借线上线下互补的教学模式和科学全面的教学内容建设先后荣获“国家精品在线开放课程、国家级一流本科课程”称号;负责主编的教材《数据科学理论与实践(第二版)》荣获“北京市高等学校优质教材”称号;围绕与阿里云合作的课程建设,成功申请并获得1项国家级项目和2项省部级项目。

无论是发表在核心期刊上的论文数量,还是编写的数据科学教材、开发的优质课程、合作的产学项目,朝乐门都是数据科学领域国内产出最多甚至最早的老师之一。

2021年秋季学期,热衷创新的朝乐门又马不停蹄地开了一门新课《数据故事化技术前沿》。他在这门课里添加了很多前沿核心技术和新颖好玩的故事,希望能在教学中带给学生更好的学习体验效果。在开这门新课的同时,他也提到了自己关于产学合作更具体的规划,因为任教的中国人民大学是一所人文学科氛围浓厚的学校,他想要把数据科学与人大的社会科学管理结合起来。他也希望数据故事化能成为数据分析软件的主要功能模块之一。

跟着朝乐门做调研、做项目的学生曾经问过他,“老师这么拼,是不是想做领域里最牛的人?”朝乐门回答,自己只想做数据科学里最努力的人。他想趁着年轻多学一些东西,多干一些实事,如此,方能在无法再在这条路上奔跑的年纪拥有谈论收获的资格。

关于“飞天加速计划”:
“飞天加速计划”是阿里云2020年推出的项目,通过为全国高校师生、开发者提供免费ECS算力资源,以加速云计算的校园普及,助力培养数字新基建人才。“飞天加速计划”自发布以来,已累计输出6.4亿小时免费ECS算力,2200所高校七万余名师生因此认识了云计算,并且借助云的力量便捷地使用计算资源开发自己的应用,搭建“小而美”的云上世界,同时成就自我。

2021年,阿里云持续加码,推出“飞天加速计划2.0”,致力于在3年内提供价值15亿元的资源扶持,助力开发者应用创新,助力开发者全生命周期成长,培育数字时代的创新人才。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2天前
|
存储 数据可视化 数据挖掘
提高团队生产力的科学办法:基于心理学视角
本文从心理学原理、管理方法和团队协作工具三个角度,聊一聊如何打造一支高绩效的销售团队。
13 5
提高团队生产力的科学办法:基于心理学视角
|
5月前
|
机器学习/深度学习 人工智能 算法
人工智能的伦理困境:机器决策与人类价值观的碰撞
【8月更文挑战第23天】在人工智能(AI)技术飞速发展的时代,机器学习算法已渗透进我们生活的方方面面,从日常消费推荐到医疗诊断,再到司法判决。然而,随着AI决策能力的增强,一系列伦理问题也随之浮现。本文将探讨AI决策背后的伦理挑战,包括数据偏见、隐私保护、责任归属以及自主性与控制的问题,并思考如何在技术进步的同时维护人类的价值观和伦理标准。
|
6月前
|
机器学习/深度学习 自动驾驶 算法
探索机器学习的伦理困境与解决之道
在人工智能技术飞速发展的今天,机器学习作为其核心驱动力,正不断塑造着我们的工作和生活方式。然而,随着机器学习应用的广泛渗透,一系列伦理问题也随之浮现。本文将深入探讨机器学习领域中的伦理挑战,包括数据偏见、隐私保护、自动化失业等问题,并提出相应的解决方案和未来展望,旨在为机器学习的健康发展提供指导性建议。
91 1
|
7月前
|
机器学习/深度学习 算法 搜索推荐
机器学习的伦理问题与社会影响
【6月更文挑战第3天】机器学习如同淘气小精灵,既带来便利也可能引发问题。人脸识别误识可能导致误会,智能推荐系统或限制信息多样性。简单算法示例显示数据偏见可能造成不公平。数据隐私保护和工作变革也是伦理挑战。需关注机器学习的社会影响,制定规则确保其良性发展,与科技和谐共进,共创美好未来。
114 0
|
机器学习/深度学习 人工智能 自然语言处理
【认知计算】认知风险管理
【认知计算】认知风险管理
|
人工智能 测试技术
研究表明,AI 工具未能减少招聘偏见
研究人员在一项调查中发现,人工智能招聘工具未能起到减少偏见或提升多样性的作用。
129 0
研究表明,AI 工具未能减少招聘偏见
|
机器学习/深度学习 人工智能 安全
陆奇对话Gary Marcus:面对技术缺陷、伦理争议和实践缺失的当下,如何构建可信AI?
新冠疫情是一个警钟,提醒我们要去构建信任度 90% 以上的 AI。
337 0
陆奇对话Gary Marcus:面对技术缺陷、伦理争议和实践缺失的当下,如何构建可信AI?

热门文章

最新文章