Finale

简介: Feature Exploitation Techniques这几篇博客介绍的第一个feature transform方法就是kernel。kernel先出现是在SVM里面,原因就是为了减少 內积计算的复杂度,把特征转换和內积计算结合到一起。

Feature Exploitation Techniques

这几篇博客介绍的第一个feature transform方法就是kernel。kernel先出现是在SVM里面,原因就是为了减少 內积计算的复杂度,把特征转换和內积计算结合到一起。特征转换其实也是一种特征的提取。介绍过的kernel:polynomial kernel,Gaussion kernel,stump kernel。另外,不同的kernel相加或者是相乘做uniform或者是combination可以提取更加复杂的特征,比如Network。但是使用kernel是需要满足Mercer条件的,对称半正定。不同的kernel可以搭配不同的模型,SVM,SVR,probability SVM,或者是kernel ridge regression等等。之前学过的PCA,kmean这些算法都包括了內积的计算,所以它们各自也有对应的kernel函数,比如之前使用的Kmean是用的高斯距离,那么kernel就是Gaussion kernel了。

img_cd8a08d182820ce2476b532a7305b0ab.png

kernel是使用的第一种特征转换的方法,第二种方法就是aggregation了,之前介绍的所有的hypothesis都可以看做是一种特征转换,比如之前学过的decision tree,RBF Network。如果g是已知的,那我们可以把它们进行uniform的组合,non-uniform和conditional组合。如果g是未知的,那么我们就可以使用bagging或者Adaboost来建立模型。
img_5704af4c373a116a584fd7f26be58d5f.png

其实就是总结了一下aggregation model。特征转换是一种寻找特征的方法,特征提取是另外学习到的,提取出隐藏的特征,hidden feature。一般通过unsupervised learning,从原始数据中提取特征,有点像生成模型,先摸清楚数据的情况分布特点,再进行模型的建立。比如:聚类算法,kmeans,mean shfit等等,PCA都是。
img_9751dfe2869890c6ad8d887b02459190.png

另外还有一种就是 维度的压缩了,其实有点像特征提取,因为维度压缩其实就是先看看哪一个特征重要,然后把重要的特征留下了,不重要的去掉,比较有代表性的就是PCA,autoencode,matrix factorization,这种方法可以把数据从高纬度降到低纬度是很有用的。
img_4902ac5719c7e19492d3a41b20ffa72c.png

顺带提一下,decision stump是遍历所有的维度看看哪一个维度分开的purity是最小的,random forest可以进行特征的重要性选择,通常也是随机选择一两个或者是做OOB特征重要性选择得到重要的特征。
总结一下特征处理的方法:
特征转换:可以使用kernel,aggregation
特征提取:matrix factorization,autoencode
降维:PCA,autoencode

Error Optimization Techniques

对于Ein的优化,首先第一个就是梯度下降或者是梯度上升,这两个方法都是比较常用的一次逼近方法,SGD、Steepest Descent和Functional GD都是利用了梯度下降的技巧。

img_63d3e336b7e1627e87e9f49ede1af34c.png

除了梯度下降,还有一些是做不了的,比如SVM的dual problem和α的求解,都是需要数学上的一些推导和技巧来转换成其他形式之后再处理。
img_24e6d58fc3c746894dd36e49001e6df8.png

如果原始问题比较复杂,可以拆分求解,拆分成多个子问题进行求解,比如multi-stage。另外也可以使用交叉迭代,matrix factorization的优化方法就是一种。刚刚拆分子问题的也就是分而治之的方法就是decision tree了。
img_f015b0412109e5980147ae38e618887f.png

最后再来探讨一下梯度下降方法,梯度下降是一次逼近的方法,意味着他只是求了一次导数,也就是Taylor展开一次,它的视野就只能看到一阶的地方,所以他选取的方向就是一阶的方向而已。对于另外一种optimization 方法牛顿法就不太一样。牛顿法的是二次逼近,意味着牛顿法它看的更加远,看的是再二次导数的地方哪个是最远的,当然牛顿法也可以Taylor三次展开,但是一般都是二次了,所以牛顿法比梯度下降迭代的更加快,因为它看的更加远,走的就更加稳。

Overfitting Elimination Techniques

Feature Exploitation Techniques和Error Optimization Techniques都是为了优化复杂模型减小Ein,但是Ein过小就会造成overfitting的问题。因此机器学习中过拟合的处理是非常重要的。
处理过拟合的方法之前介绍过:large margin,regularization,voting。


img_92a47f01f84ec00a1e0e5ffd3cf47cd9.png

除了上面提到的方法,还可以使用validation来处理


img_0768d211998df18a74671fcf25a19b38.png

这个章节的东西比较少,也没有什么代码,是看机器学习技法课程最后一张总结的了,最后贴一下十大data mining算法:
img_66111ae280eb908b2b708a6cf4d105d9.png
相关文章
|
3天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
29天前
|
运维 Cloud Native Devops
一线实战:运维人少,我们从 0 到 1 实践 DevOps 和云原生
上海经证科技有限公司为有效推进软件项目管理和开发工作,选择了阿里云云效作为 DevOps 解决方案。通过云效,实现了从 0 开始,到现在近百个微服务、数百条流水线与应用交付的全面覆盖,有效支撑了敏捷开发流程。
19263 29
|
30天前
|
人工智能 自然语言处理 搜索推荐
阿里云Elasticsearch AI搜索实践
本文介绍了阿里云 Elasticsearch 在AI 搜索方面的技术实践与探索。
18803 20
|
29天前
|
Rust Apache 对象存储
Apache Paimon V0.9最新进展
Apache Paimon V0.9 版本即将发布,此版本带来了多项新特性并解决了关键挑战。Paimon自2022年从Flink社区诞生以来迅速成长,已成为Apache顶级项目,并广泛应用于阿里集团内外的多家企业。
17508 13
Apache Paimon V0.9最新进展
|
1月前
|
存储 人工智能 前端开发
AI 网关零代码解决 AI 幻觉问题
本文主要介绍了 AI Agent 的背景,概念,探讨了 AI Agent 网关插件的使用方法,效果以及实现原理。
18694 15
|
29天前
|
人工智能 自然语言处理 搜索推荐
评测:AI客服接入钉钉与微信的对比分析
【8月更文第22天】随着人工智能技术的发展,越来越多的企业开始尝试将AI客服集成到自己的业务流程中。本文将基于《10分钟构建AI客服并应用到网站、钉钉或微信中》的解决方案,详细评测AI客服在钉钉和微信中的接入流程及实际应用效果,并结合个人体验分享一些心得。
9910 9
|
1月前
|
消息中间件 弹性计算 关系型数据库
函数计算驱动多媒体文件处理解决方案体验评测
从整体解读到部署体验,多方位带你了解如何利用函数计算驱动多媒体文件处理,告别资源瓶颈。
10441 13
|
23天前
|
存储 JSON Serverless
西游再现,函数计算一键部署 Flux 超写实文生图模型部署
参与体验活动生成西游人物图像,既有机会赢取好礼!本次实验在函数计算中内置了flux.1-dev-fp8大模型,通过函数计算+Serverless应用中心一键部署Flux模型,快速生成超写实图像。首次开通用户可领取免费试用额度,部署过程简单高效。完成部署后,您可以通过修改提示词生成各种风格的图像,体验Flux模型的强大绘图能力。
西游再现,函数计算一键部署 Flux 超写实文生图模型部署
|
1天前
|
Java 应用服务中间件 测试技术
Maven学习笔记(一):Maven基础(基于命令行的学习和应用)
Maven 是一款 Java 项目构建工具,主要用于管理 jar 包及其依赖关系。 本文主要了解Maven基础知识及基础应用,旨在为之后的进一步学习奠定基础。 内容上几近全为学习《尚硅谷2022版Maven教程》整理所得。 仅供参考。
126 80
Maven学习笔记(一):Maven基础(基于命令行的学习和应用)
|
1天前
|
缓存 前端开发 JavaScript
终极 Nginx 配置指南(全网最详细)
本文详细介绍了Nginx配置文件`nginx.conf`的基本结构及其优化方法。首先通过删除注释简化了原始配置,使其更易理解。接着,文章将`nginx.conf`分为全局块、events块和http块三部分进行详细解析,帮助读者更好地掌握其功能与配置。此外,还介绍了如何通过简单修改实现网站上线,并提供了Nginx的优化技巧,包括解决前端History模式下的404问题、配置反向代理、开启gzip压缩、设置维护页面、在同一IP上部署多个网站以及实现动静分离等。最后,附上了Nginx的基础命令,如安装、启动、重启和关闭等操作,方便读者实践应用。
122 77
终极 Nginx 配置指南(全网最详细)