《构建实时机器学习系统》一第1章 实时机器学习综述 1.1 什么是机器学习

简介: 本节书摘来自华章出版社《构建实时机器学习系统》一 书中的第1章,第1.1节,作者:彭河森 汪涵,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第1章

实时机器学习综述

1.1 什么是机器学习

相信本书的读者都已经接触过一点机器学习了,或者听说过各种新奇的机器学习方法,或者通过相关新闻了解过机器学习的应用场景。那么,大家是否了解机器学习的定义呢?事实上,对它的定义层出不穷,不同领域的大咖往往都会有一个从自己角度出发的特别“机灵”的定义。比如,吴恩达(Andrew Ng)是深度学习的先驱者之一,他对机器学习的定义是从计算机从业者的角度出发的,他的定义是:
机器学习是一门科学,它旨在让计算机自主化工作,而不需要刻意编程。
而从统计和数据分析的角度出发,世界领先的统计软件公司 SAS 对机器学习的定义是:
机器学习是一种方法,它旨在用数据分析自动化模型的建立。
笔者个人从学术和工业界应用的角度出发,认为机器学习的定义应该包括以下三个方面。
用数据说话:在常规计算机编程中,所有的逻辑都是人为设定的。而机器学习方法是试图让观测到的数据和现象成为编撰逻辑的依据,不同模型之间的衡量标准也试图尽量达到标准化,以使得人为干预最小化。
高度自动化:机器学习模型往往会在工业应用中不断重复更新,所以机器学习建模生存期中的每个步骤往往都是可以高度自动化的。
鲁棒性:虽然教科书中很少提及,但鲁棒性(又称稳定性,Robustness)确实是机器学习方法论中隐含的一个巨大要求。由于模型建立高度自动化,因此我们需要运用的机器学习模型在面对极端数据的时候只会受到较少影响,不需要人为排错。
根据笔者的经验,以上三点是一个组织成功运用机器学习的必要条件,但是一定要以用户体验为出发点来进行均衡。
在工业应用中,上面这三点的重要性总是在不断得到印证。下面就通过两个应用中的有名案例来体会一下。

  1. 谷歌通过机器学习和人工干预进行网页筛查
    谷歌等搜索引擎公司每天需要处理上百万个新网页信息。为了向用户快速提供这些信息,谷歌多年来通过不懈的努力开发出了 Caffeine 平台,将提供实时新闻搜索结果的延迟从一天缩短到了若干分钟。机器学习数据驱动、高度自动化的特点让谷歌用户受益不少。就连微软在通过记者发布会宣布发行Windows10 的时候,谷歌搜索引擎也比微软自有的必应搜索引擎更快地呈现了与Windows10 相关的信息。同时为了满足鲁棒性的要求,谷歌通过第三方人工服务,不断进行人工抽样审查了大量的网页内容。
  2. Yelp 机器学习模型的失败
    Yelp 类似于国内的大众点评网,其内容多为用户生成,对餐馆、娱乐、家装等行业都有很全面的覆盖。由于大量商家的成败都取决于 Yelp,因此市场上出现了冒充消费者进行刷点的评论师。评论师会按照商家的要求对商户进行不公正的点评,从而对消费者产生误导。Yelp 意识到了这样的问题,并且建立了机器学习模型进行自动化侦测。但可能是建模数据出现了问题(比如,建模的时候使用了评论师的数据),因此生成的模型并没有阻挡评论师的进攻,真正的用户所产生的评论反而会被屏蔽掉,用户体验大打折扣。

通过这样的案例,我们可以意识到基本数据采集对机器学习模型的重要性。如果数据出现了问题,那么后面的模型、架构再强大也没有办法产生效益。

相关文章
|
5月前
|
机器学习/深度学习 人工智能 Kubernetes
Argo Workflows 加速在 Kubernetes 上构建机器学习 Pipelines
Argo Workflows 是 Kubernetes 上的工作流引擎,支持机器学习、数据处理、基础设施自动化及 CI/CD 等场景。作为 CNCF 毕业项目,其扩展性强、云原生轻量化,受到广泛采用。近期更新包括性能优化、调度策略增强、Python SDK 支持及 AI/大数据任务集成,助力企业高效构建 AI、ML、Data Pipelines。
592 1
|
7月前
|
人工智能 自然语言处理 数据挖掘
云上玩转Qwen3系列之三:PAI-LangStudio x Hologres构建ChatBI数据分析Agent应用
PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
|
8月前
|
人工智能 算法 网络安全
基于PAI+专属网关+私网连接:构建全链路Deepseek云上私有化部署与模型调用架构
本文介绍了阿里云通过PAI+专属网关+私网连接方案,帮助企业实现DeepSeek-R1模型的私有化部署。方案解决了算力成本高、资源紧张、部署复杂和数据安全等问题,支持全链路零公网暴露及全球低延迟算力网络,最终实现技术可控、成本优化与安全可靠的AI部署路径,满足企业全球化业务需求。
|
6月前
|
机器学习/深度学习 存储 运维
机器学习异常检测实战:用Isolation Forest快速构建无标签异常检测系统
本研究通过实验演示了异常标记如何逐步完善异常检测方案和主要分类模型在欺诈检测中的应用。实验结果表明,Isolation Forest作为一个强大的异常检测模型,无需显式建模正常模式即可有效工作,在处理未见风险事件方面具有显著优势。
488 46
|
11月前
|
人工智能 自然语言处理 安全
通过阿里云Milvus与PAI搭建高效的检索增强对话系统
阿里云向量检索Milvus版是一款全托管的云服务,兼容开源Milvus并支持无缝迁移。它提供大规模AI向量数据的相似性检索服务,具备易用性、可用性、安全性和低成本等优势,适用于多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等场景。用户可通过PAI平台部署RAG系统,创建和配置Milvus实例,并利用Attu工具进行可视化操作,快速开发和部署应用。使用前需确保Milvus实例和PAI在相同地域,并完成相关配置与开通服务。
|
6月前
|
存储 人工智能 运维
企业级MLOps落地:基于PAI-Studio构建自动化模型迭代流水线
本文深入解析MLOps落地的核心挑战与解决方案,涵盖技术断层分析、PAI-Studio平台选型、自动化流水线设计及实战构建,全面提升模型迭代效率与稳定性。
263 6
|
6月前
|
机器学习/深度学习 PyTorch API
昇腾AI4S图机器学习:DGL图构建接口的PyG替换
本文探讨了在图神经网络中将DGL接口替换为PyG实现的方法,重点以RFdiffusion蛋白质设计模型中的SE3Transformer为例。SE3Transformer通过SE(3)等变性提取三维几何特征,其图构建部分依赖DGL接口。文章详细介绍了两个关键函数的替换:`make_full_graph` 和 `make_topk_graph`。前者构建完全连接图,后者生成k近邻图。通过PyG的高效实现(如`knn_graph`),我们简化了图结构创建过程,并调整边特征处理逻辑以兼容不同框架,从而更好地支持昇腾NPU等硬件环境。此方法为跨库迁移提供了实用参考。
|
6月前
|
机器学习/深度学习 数据采集 分布式计算
阿里云PAI AutoML实战:20分钟构建高精度电商销量预测模型
本文介绍了如何利用阿里云 PAI AutoML 平台,在20分钟内构建高精度的电商销量预测模型。内容涵盖项目背景、数据准备与预处理、模型训练与优化、部署应用及常见问题解决方案,助力企业实现数据驱动的精细化运营,提升市场竞争力。
1077 0
|
9月前
|
存储 人工智能 自然语言处理
基于QwQ-32B+Hologres+PAI搭建 RAG 检索增强对话系统
本文介绍如何使用PAI-EAS部署基于QwQ大模型的RAG服务,并关联Hologres引擎实例。Hologres与达摩院自研高性能向量计算软件库Proxima深度整合,支持高性能、低延时、简单易用的向量计算能力。通过PAI-EAS,用户可以一键部署集成大语言模型(LLM)和检索增强生成(RAG)技术的对话系统服务,显著缩短部署时间并提升问答质量。具体步骤包括准备Hologres向量检索库、部署RAG服务、通过WebUI页面进行模型推理验证及API调用验证。Hologres支持高性能向量计算,适用于复杂任务的动态决策,帮助克服大模型在领域知识局限、信息更新滞后和误导性输出等方面的挑战。

热门文章

最新文章