学界 | 斯坦福数据科学Phd新课放出阅读清单,你读过哪些?

简介:

不同于以往的授课式课堂风格,这次斯坦福大学的教授Hadley Wickham开设了一门论文讨论课。课程名为:Readings in Applied Data Science。要求学生每周阅读3~4篇论文,并给出反馈。

231cc75c86bf2de93cec702e6bce0437f39e6d93

考虑到内向和不善表达的学生,课程采用Stephen D. Brookfield和Stephen Preskill的讨论手册中的技巧来确保每个人都有机会参与课堂讨论。课程成绩的评判也没有采用传统的结课考试,而是由课堂参与、讨论准备、课外阅读笔记三部分得分构成。

Hadley Wickham教授已在网上贴出了这门课程的阅读清单推荐,下面这些论文,你读过哪些?

什么是数据科学

  • 数据科学家大多只做算术,这是件好事—— Noah Lorang(2016)

    https://m.signalvnoise.com/data-scientists-mostly-just-do-arithmetic-and-that-s-a-good-thing-c6371885f7f6

  • 企业数据分析和可视化:面试研究——Sean Kandel,Andreas Paepcke,Joseph Hellerstein,Jeffrey Heer(2012)

    https://idl.cs.washington.edu/papers/enterprise-analysis-interviews

  • 50年的数据科学(OA预印本)——David Donoho(2017)(注:这是一份讨论文件,许多着名的统计人员对评论做出了贡献。)

    https://www.tandfonline.com/doi/abs/10.1080/10618600.2017.1384734

数据收集和协作

  • 整洁的数据——Hadley Wickham(2013)

    https://www.jstatsoft.org/article/view/v059i10/

  • 电子表格中的数据结构——Karl W Broman,Kara Woo(2017)

    https://peerj.com/preprints/3183/

  • 在数据项目中使用Google表格的最佳做法——Matthew Lincoln (2018)

    https://matthewlincoln.net/2018/03/26/best-practices-for-using-google-sheets-in-your-data-project.html

软件工程

  • 数据科学家的软件开发技能——Trey Causey(2015)

    http://treycausey.com/software_dev_skills.html

  • 打扰一下,你有没有时间谈论版本控制?——Jennifer Bryan (2017)

    https://peerj.com/preprints/3159/

  • 足够好的科学计算实践——Greg Wilson,Jennifer Bryan,Karen Cranston,Justin Kitzes,Lex Nederbragt,Tracy K. Teal(2017)

http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1005510

DevOps

  • 介绍Docker进行可重复研究,并以R环境为例——Carl Boettiger(2014)

    https://arxiv.org/abs/1410.0846

  • 机器学习:技术债务的高利息信用卡——D.Sculley,Gary Holt,Daniel Golovin,Eugene Davydov,Todd Phillips,Dietmar Ebner,Vinay Chaudhary,Michael Young(2015)

    https://research.google.com/pubs/pub43146.html

教学

  • 统计学入门课程:托勒密体系?——George W Cobb (2013)

    https://escholarship.org/uc/item/6hb3k0nz

  • 数据科学教育的民主化——Sean Kross,Roger D Peng,Brian S Caffo,Ira Gooding,Jeffrey T Leek(2017)

    https://peerj.com/preprints/3195/

  • 教授数据科学统计——Danny Kaplan (2017)

    https://peerj.com/preprints/3205/

数据道德

  • 伦理数据科学家——Cathy O'Neil (2016)

    http://www.slate.com/articles/technology/future_tense/2016/02/how_to_bring_better_ethics_to_data_science.html

  • 大数据,机器学习和社会科学——Hannah Wallach(2014)

    https://medium.com/@hannawallach/big-data-machine-learning-and-the-social-sciences-927a8e20460d

  • 数据科学道德准则——DJ Patil(2018)

    https://medium.com/@hannawallach/big-data-machine-learning-and-the-social-sciences-927a8e20460d

  • 统计实践的道德准则——美国统计协会职业道德委员会(2016年)

    http://www.amstat.org/ASA/Your-Career/Ethical-Guidelines-for-Statistical-Practice.aspx

可复用性

  • 计算科学最佳实践——Victoria Stodden, Sheila Miguez (2014)

    https://openresearchsoftware.metajnl.com/articles/10.5334/jors.ay/

  • rOpenSci如何使用代码评审来促进可复用的科学——Noam Ross,Scott Chamberlain,Karthik Ram,MaëlleSalmon(2017)

    https://ropensci.org/blog/2017/09/01/nf-softwarereview/

工作流程

  • 平易近人的社会科学导论——Kieran Healy (2016)

    http://plain-text.co/

  • 打开笔记本历史——Caleb Daniels(2013)

    http://wcm1.web.rice.edu/open-notebook-history.html

  • 如何成为现代科学家——Jeff Leek(2016)

    https://leanpub.com/modernscientist

业界

  • 在Twitter上做数据科学——Robert Chang(2015)

    https://medium.com/@rchang/my-two-year-journey-as-a-data-scientist-at-twitter-f0c13298aee6

  • 程师不应该写ETL构建一个高功能数据科学体系的指南——Jeff Magnusson(2016)

    https://multithreaded.stitchfix.com/blog/2016/03/16/engineers-shouldnt-write-etl/

  • 在Airbnb上使用R包和教育来发展数据科学——里卡多比昂(2016)

    https://medium.com/airbnb-engineering/using-r-packages-and-education-to-scale-data-science-at-airbnb-906faa58e12d

  • Instacart的数据科学——Jeremy Stanley(2017)

    https://tech.instacart.com/data-science-at-instacart-dabbd2d3f279

  • .rprofile:Jenny Bryan——Kelly O'Briant(2017)

    https://tech.instacart.com/data-science-at-instacart-dabbd2d3f279

  • 营销数据科学——Erik Oberg(2018)

    https://medium.com/indeed-data-science/marketing-for-data-science-a-7-step-go-to-market-plan-for-your-next-data-product-60c034c34d55

职业发展

  • 在数据科学就业市场上的感觉如何——Trey Causey(2016)

    http://treycausey.com/data_science_interviews.html

  • 学术求职建议——Matt Might

    http://treycausey.com/data_science_interviews.html

  • 数据科学中的冒充者综合征——Caitlin Hudon(2018年)

    https://caitlinhudon.com/2018/01/19/imposter-syndrome-in-data-science/


原文发布时间为:2018-03-29
本文作者:文摘菌
本文来自云栖社区合作伙伴“ 大数据文摘”,了解相关信息可以关注“ 大数据文摘”微信公众号
相关文章
|
网络协议 Python
在Python中进行UDP(User Datagram Protocol)网络编程
在Python中进行UDP(User Datagram Protocol)网络编程
580 3
|
3月前
|
SQL 供应链 监控
Quick BI使用案例12:如何实现分组内“最新”与“次新”订单时间计算
本文详解订单时效性分析:通过LOD_FIXED与BI_MAX函数,快速计算各区域“最新/次新订单时间”,助力识别交易活跃度、预警客户流失、优化供应链。
|
2月前
|
数据处理 开发者
基于T型NPC三电平并网逆变器SVPWM控制仿真
基于T型NPC三电平并网逆变器SVPWM控制仿真
|
机器学习/深度学习 人工智能 自然语言处理
PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型
DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目,多次评测中表现优异,性能接近甚至超越国际顶尖闭源模型(如OpenAI的GPT-4、Claude-3.5-Sonnet等)。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型,实现 DeepSeek 系列模型与现有业务的高效融合。
|
11月前
|
人工智能 算法
2025 生成式人工智能认证,如何构建知识能力价值闭环
生成式人工智能(AI)认证助力职场人士在2025年AI浪潮中脱颖而出。通过系统化学习,涵盖AI方法论、提示工程及伦理法律等领域,构建知识桥梁;强化实践能力,熟悉工具操作与问题解决;最终释放价值潜力,实现职业跃迁。GAI认证由培生Certiport推出,结合理论与实操,全面评估专业能力,赋能各类从业者,在技术发展中稳步前行。
|
11月前
|
数据安全/隐私保护
智联万物的电气基石:RS485 总线阻抗匹配技术深度解码
RS485总线在工业自动化与能源管理中扮演关键角色,其差分传输技术具备抗干扰强、扩展性高和长距离通信优势。终端电阻配置是确保信号完整性和系统稳定的核心,120Ω阻抗匹配可显著降低误码率。实际应用中需遵循安装规范,避免常见误区,如错误阻值选择或全域安装。通过案例分析与前瞻性建议,规范化设计可提升系统可靠性90%以上,为工业智能化提供坚实保障。
501 0
|
弹性计算 调度 云计算
课时27:案例分享——追光动画
案例分享——追光动画 本文分享了追光动画如何计算8000万核小时的渲染时间,以及通过任务调度和云计算应对制作过程中的波峰波谷。在动画制作中,灯光、合成等部门需反复渲染,总渲染量达8000万核小时的4-5倍。为解决波峰压力,追光动画与阿里云合作,利用其弹性资源,确保高效渲染和快速迭代,满足高画质需求并降低成本。
354 1
|
机器学习/深度学习 自然语言处理 监控
智能客服系统集成技术解析和价值点梳理
在 2024 年的智能客服系统领域,合力亿捷等服务商凭借其卓越的技术实力引领潮流,它们均积极应用最新的大模型技术,推动智能客服的进步。
704 7
|
SQL 分布式计算 HIVE
Hive教程(05)- Hive命令汇总(下)
Hive教程(05)- Hive命令汇总(下)
484 0
Hive教程(05)- Hive命令汇总(下)
|
机器学习/深度学习 并行计算 PyTorch
在Python中搭建深度学习处理环境创建虚拟环境
在Python中搭建深度学习处理环境创建虚拟环境
579 3

热门文章

最新文章