《构建实时机器学习系统》一2.3 实时线性分类器介绍

简介: 本节书摘来自华章出版社《构建实时机器学习系统》一 书中的第2章,第2.3节,作者:彭河森 汪涵,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3 实时线性分类器介绍

2.3.1 广义线性模型的定义

(广义)线性模型是机器学习发展几十年来理论和工具上最为完备的模型:不管是分类还是预测,线性模型都可以进行实时更新和预测;线性模型的解释性非常优秀,每个变量的回归系数都可以用于解释模型;最后,我们可以通过增减变量,修改特定的回归系数对模型进行人为加工。
继续前文的符号定义,假设回归因变量为 Y ,自变量为 p 维向量 X。在线性模型中,我们企图获得 p 维参数向量,让我们可以通过 X 个个元素的现行组合得到Y 。它们的关系可以通过下面的函数来表示:
screenshot

其中,F ()为因变量 Y 的累计概率分布,E()为数学期望的计算。我们可以从以下两个部分来解读这个模型。
(1)线性输入
η=XTb,每个自变量 Xi对模型输出的贡献都是线性的,其贡献大小都由对应的 i 来决定。当bi= 0 时,自变量 Xi 不会影响最后的预测。这些线性输入的总和会直接影响最后因变量的取值。
(2)可预计的输出
给定η时,因变量的取值由连接函数 f 和 Y 的分布 F 来决定。我们常用的 f 和 e 有以下三种情况。
当 f(η) =η,且 F () 为正态分布的累计概率分布时,模型等于对正态分布的连续变量进行线性预测。
当 f(η) = 1/(1 + exp(η)),且 F() 为二项分布累计概率分布的时候,模型等于逻辑回归模型,可用于对男女、好恶等类别进行分类预测。
当 f(η) = exp(η),且 F ()为泊松分布累计概率分布的时候,模型等于泊松模型,可用于对订票人数、车辆通过数量等数据进行预测。
综上所述,众多数据模型都是可以通过线性模型的特殊情况进行建模预测的。

2.3.2 训练线性模型

给定已知的样本 {(Xi, Yi)}ni=1,假设现在需要通过模型训练得到线性模型参数b,那么我们往往会定义目标函数 L,通过随机梯度下降的方法求得b,使得 L 尽量小:
screenshot

其中,λ1和λ2是预先设置好的非负参数,| · |1 为计算 L1 的范数,| · |2 为计算 L2 的范数。
上面的目标函数可以分为如下两部分来理解。
预测误差:目标函数L第一项预测误差,我们训练一个模型当然是希望其得到的误差应尽量小。
惩罚函数 (penalty function):目标函数L中第二、三项的存在是为了防止所得模型的过度拟合,加入L1惩罚函数还可以进行变量优先选择。
这里的参数λ1 和 λ2都是实现选择的参数,可以通过多次比较不同的模型来获取最有效的组合。
现在对线性模型的拟合工作已经在主流机器学习软件工具中完全自动化,在Scikit-learn中,对线性回归模型的拟合主要采用 sklearn.linear_model.SGDRegressor,对于分类问题,主要采用 sklearn.linear_model.SGDClaffier。

2.3.3 冷启动问题

机器学习应用中,其实收集数据才是最昂贵的一部分。若没有数据,那么一切模型都将是空中楼阁。对于新企业或新项目,没有数据进行模型训练,那么怎么样才能有最初始的模型呢?没有数据就有没模型,但是如果没有模型,往往也会难以收集到数据。怎么样才能解决这个鸡生蛋、蛋生鸡的问题呢?这个问题可能会因为不同的组织而有不同的答案,这里主要总结如下两个方案。

  1. 借用其他相关数据

如果无法获得当前组织的机器学习数据进行建模,那么其中一个办法是从其他来源获取类似的数据,建立暂时能用的模型。等到产品成熟了,收集到足够多的数据以后再开发自身专有的模型。
例如,某初创业公司需要对小说影评的正负评价进行分类。但苦于暂时没有现成的数据,因此借用了相关网站,如豆瓣、知乎等帖子的内容,作为训练数据;又因为没有评价正负标签,该公司将豆瓣评分、知乎投票数量进行转化,获得了模型的正负标签。
2.人工参与
在遇到建模冷启动问题的时候,该模型的使用人数往往并不高,如果对延迟的要求不高,完全可以通过人工标记的方法来解决。
例如,国内某家已经上市的门户视频网站,成立多年以来,分类、标记、推荐等业务都是通过人工完成的,且取得了尚佳的结果。如今该网站上市之后拥有了雄厚的资金实力,聘请了顶尖的机器学习专家进行视频的标签标记和推荐。此时通过多年的努力该网站已经积累了大量的标签数据,建模的效果也相当好。
另外一方面,处理冷启动问题的时候,我们也可以将人工意见写入模型之中,使其自动化运行。例如对于股价走势预测模型,我们可以通过人工经验,对历史走势、成交量等因子进行人工打分,将人工打分的结果放入现行模型中,进行前期应用。
当然,所有人工参与的方式都离不开严格的监督流程。本书的第9章会介绍通过 Elasticsearch 对数据进行可视化分析和质量监控的方法。

相关文章
|
5月前
|
机器学习/深度学习 人工智能 Kubernetes
Argo Workflows 加速在 Kubernetes 上构建机器学习 Pipelines
Argo Workflows 是 Kubernetes 上的工作流引擎,支持机器学习、数据处理、基础设施自动化及 CI/CD 等场景。作为 CNCF 毕业项目,其扩展性强、云原生轻量化,受到广泛采用。近期更新包括性能优化、调度策略增强、Python SDK 支持及 AI/大数据任务集成,助力企业高效构建 AI、ML、Data Pipelines。
592 1
|
7月前
|
人工智能 自然语言处理 数据挖掘
云上玩转Qwen3系列之三:PAI-LangStudio x Hologres构建ChatBI数据分析Agent应用
PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
|
8月前
|
人工智能 算法 网络安全
基于PAI+专属网关+私网连接:构建全链路Deepseek云上私有化部署与模型调用架构
本文介绍了阿里云通过PAI+专属网关+私网连接方案,帮助企业实现DeepSeek-R1模型的私有化部署。方案解决了算力成本高、资源紧张、部署复杂和数据安全等问题,支持全链路零公网暴露及全球低延迟算力网络,最终实现技术可控、成本优化与安全可靠的AI部署路径,满足企业全球化业务需求。
|
6月前
|
机器学习/深度学习 存储 运维
机器学习异常检测实战:用Isolation Forest快速构建无标签异常检测系统
本研究通过实验演示了异常标记如何逐步完善异常检测方案和主要分类模型在欺诈检测中的应用。实验结果表明,Isolation Forest作为一个强大的异常检测模型,无需显式建模正常模式即可有效工作,在处理未见风险事件方面具有显著优势。
488 46
|
11月前
|
人工智能 自然语言处理 安全
通过阿里云Milvus与PAI搭建高效的检索增强对话系统
阿里云向量检索Milvus版是一款全托管的云服务,兼容开源Milvus并支持无缝迁移。它提供大规模AI向量数据的相似性检索服务,具备易用性、可用性、安全性和低成本等优势,适用于多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等场景。用户可通过PAI平台部署RAG系统,创建和配置Milvus实例,并利用Attu工具进行可视化操作,快速开发和部署应用。使用前需确保Milvus实例和PAI在相同地域,并完成相关配置与开通服务。
|
6月前
|
存储 人工智能 运维
企业级MLOps落地:基于PAI-Studio构建自动化模型迭代流水线
本文深入解析MLOps落地的核心挑战与解决方案,涵盖技术断层分析、PAI-Studio平台选型、自动化流水线设计及实战构建,全面提升模型迭代效率与稳定性。
263 6
|
6月前
|
机器学习/深度学习 PyTorch API
昇腾AI4S图机器学习:DGL图构建接口的PyG替换
本文探讨了在图神经网络中将DGL接口替换为PyG实现的方法,重点以RFdiffusion蛋白质设计模型中的SE3Transformer为例。SE3Transformer通过SE(3)等变性提取三维几何特征,其图构建部分依赖DGL接口。文章详细介绍了两个关键函数的替换:`make_full_graph` 和 `make_topk_graph`。前者构建完全连接图,后者生成k近邻图。通过PyG的高效实现(如`knn_graph`),我们简化了图结构创建过程,并调整边特征处理逻辑以兼容不同框架,从而更好地支持昇腾NPU等硬件环境。此方法为跨库迁移提供了实用参考。
|
6月前
|
机器学习/深度学习 数据采集 分布式计算
阿里云PAI AutoML实战:20分钟构建高精度电商销量预测模型
本文介绍了如何利用阿里云 PAI AutoML 平台,在20分钟内构建高精度的电商销量预测模型。内容涵盖项目背景、数据准备与预处理、模型训练与优化、部署应用及常见问题解决方案,助力企业实现数据驱动的精细化运营,提升市场竞争力。
1077 0
|
9月前
|
存储 人工智能 自然语言处理
基于QwQ-32B+Hologres+PAI搭建 RAG 检索增强对话系统
本文介绍如何使用PAI-EAS部署基于QwQ大模型的RAG服务,并关联Hologres引擎实例。Hologres与达摩院自研高性能向量计算软件库Proxima深度整合,支持高性能、低延时、简单易用的向量计算能力。通过PAI-EAS,用户可以一键部署集成大语言模型(LLM)和检索增强生成(RAG)技术的对话系统服务,显著缩短部署时间并提升问答质量。具体步骤包括准备Hologres向量检索库、部署RAG服务、通过WebUI页面进行模型推理验证及API调用验证。Hologres支持高性能向量计算,适用于复杂任务的动态决策,帮助克服大模型在领域知识局限、信息更新滞后和误导性输出等方面的挑战。

热门文章

最新文章