业界 | 数据科学家要先学逻辑回归?图样图森破!

简介:

近期,数据科学圈出现了不少“数据科学家应最先学习逻辑回归”的声音。作为一名与市场营销人员、销售人员、工程师一起工作的“孤立的”统计学家,我深深反对这一说法!

有许多工作尤其是生物统计领域都要求从业人员能够掌握并运用逻辑回归的知识。如果你在大学曾学过一些逻辑回归,这会对你很有帮助,但对于初学者来说,它并不是入门课程。

在我的职业生涯中,我可以灵活地选择使用哪些方法和工具,如今许多从业者都处于类似的环境中。

因此有一定的几率,初学者在对逻辑回归的原理了解很少的情况下,使用像黑盒工具一样的逻辑回归,然后把自己拉入深坑。

2c2494ffe960aec87bef37543bdd7c626b4f005d

下面列出了5条逻辑回归应放在最后学习的理由:

  • 存在着上百种不同类型的逻辑回归,一些适用于分类变量,一些适用于特定的分布(例如泊松分布)。专家在使用时也常常感到困惑,初学者和你的老板更会如此。

  • 转换因变量后(通常是比例或二值型因变量,例如本文观点正确/错误),问题就变成了线性回归。虽然纯粹主义者声称实际的逻辑回归模型更精确,然而相较于模型的精确度,数据的质量才是至关重要的。如果数据有20%的噪声,或者理论模型是对实际情况的粗略估计,那么模型精确度高出1%并没有实际用处。

  • 除非能够妥善处理(例如使用ridge或Lasso回归),否则在噪声、缺失值和脏数据的影响下会导致模型过度拟合及缺乏稳健性(使用例如梯度优化等技术的迭代算法)。

  • 逻辑回归的系数不容易解释。当你对决策者或者其他部门解释模型时,很少有人能够理解。

  • 最好的模型通常会将多种方法混合到一起,以便能尽可能多的获得/解释差异。在我作为数据科学家长达30年的职业生涯中,从未使用过纯逻辑回归,但我开发出了一项更加稳健且便于使用及编程的混合技术,结果也容易解读。它将“不纯的”逻辑回归和“不纯的”决策树混合在一起,效果十分显著,尤其是对于你的“不纯”数据评分时。详情请戳。


原文发布时间为:2018-05-29
本文作者:王梦泽、笪洁琼 、夏雅薇
本文来自云栖社区合作伙伴“ 大数据文摘”,了解相关信息可以关注“ 大数据文摘”。
相关文章
|
9月前
|
机器人 数据安全/隐私保护
基于模糊PID控制器的puma560机器人控制系统的simulink建模与仿真
本课题研究基于模糊PID控制器的PUMA 560机器人控制系统建模与仿真,对比传统PID控制器性能。通过Simulink实现系统建模,分析两种控制器的误差表现。模糊PID结合了PID的线性控制优势与模糊逻辑的灵活性,提升动态性能和抗干扰能力。以PUMA 560机器人为例,其运动学和动力学模型为基础,设计针对各关节的模糊PID控制器,包括模糊化、规则制定、推理及去模糊化等步骤,最终实现更优的控制效果。
|
9月前
|
缓存 NoSQL Redis
Redis如何优化频繁命令往返造成的性能瓶颈?
频繁的命令往返是Redis性能优化中需要重点关注的问题。通过使用Pipeline、Lua脚本、事务、合并命令、连接池以及合理设置网络超时,可以有效减少网络往返次数,优化Redis的性能。这些优化措施不仅提升了Redis的处理能力,还能确保系统在高并发情况下的稳定性和可靠性。
243 14
|
9月前
|
机器学习/深度学习 编解码 人工智能
魔搭社区模型速递(3.2-3.8)
🙋魔搭ModelScope本期社区进展:1340个模型,220个数据集,🎨91个创新应用,📄 8篇内容
544 9
|
10月前
|
机器学习/深度学习 资源调度 算法
半监督学习
半监督学习(SSL)结合少量标注数据和大量未标注数据,提升模型性能。经典方法包括自训练、协同训练和生成式方法;深度学习时代则涌现了一致性正则化、对比学习增强和基于图的SSL等技术。前沿突破涵盖扩散模型和大语言模型驱动的SSL。当前面临理论与工程挑战,未来探索方向包括量子SSL和神经符号融合。最新性能评估显示,在多个数据集上SSL方法显著优于传统全监督学习。
|
传感器 机器学习/深度学习 人工智能
AI在自动驾驶汽车中的应用与未来展望
AI在自动驾驶汽车中的应用与未来展望
793 9
|
人工智能 计算机视觉 开发者
【AI系统】ShuffleNet 系列
本文介绍了ShuffleNet系列模型,特别是其轻量化设计。ShuffleNet V1通过引入Pointwise Group Convolution和Channel Shuffle技术,在减少计算量的同时保持模型准确性。V2版本则进一步优化,考虑了设备运算速度,提出了四个轻量级网络设计原则,并通过Channel Split技术减少了内存访问成本,提升了模型效率。
431 12
|
监控 数据可视化 安全
Zabbix 主要功能特点
Zabbix 主要功能特点
529 8
|
Kubernetes Java 微服务
要想Pod好--健康检查少不了
本文主要从以下6个方面介绍Pod的健康检查:刚接触K8S的糗事、Pod生命周期、重启策略、健康检查、如何选择探针、实战,最后还会有知识点的总结和排查Pod问题的总结。
|
存储 弹性计算 负载均衡
【ESSD技术解读-04】ESSD Auto PL规格,引领IO性能弹性新方向
阿里云 ESSD 为云服务器 ECS 提供低时延、持久性和高可靠的块存储服务,成为云厂商全闪块存储的业界标杆。存储团队推出了 ESSD Auto PL 新的云盘规格,把性能与容量解耦,提供 IO 性能按需供给两大关键特性。AutoPL 具备的灵活性和弹性能力降低了 IT 规模规划难度和因规划不当带来的风险,本文详细介绍了Auto PL 新产品特性、揭秘背后的技术原理。
1573 1
|
移动开发 物联网 芯片
RVB2601 基于 W800 接入生活物联网平台(飞燕平台)
本文介绍如何基于已有的 RVB2601 工程实现飞燕平台的接入。
1135 3
RVB2601 基于 W800 接入生活物联网平台(飞燕平台)