涂威威:第四范式经验与思考分享

简介: 所谓科学发现的前三个范式第一是实验第二是理论第三是模拟第四范式就是数据挖掘。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性属于Association rule learning的信息的过程。

从图灵测试说起

  • 目标判断机器是否表现出与人等价或 无法区分的智能 
  • 两个基本问题 

   充分性通过图灵测试就是智能 

   必要性通过图灵测试才是智能 

  • • 两个著名变种 

    Feigenbaum test 

    Nicholas Negroponte Test

4b2f519cafd06e14c1d283481e85e80a23e6934c

“人工” 智能发展历史

人工智能的发展经历了三个阶段

4daef5635ca2d65a657183e693e262fac8f312ac

机器学习的经典定义

  • 利用经验改善系统性能 
  • 经验 数据 
  • 机器学习被广泛应用 
  • 搜索与推荐 
  • 生物特征识别 
  • 自动驾驶 
  • 军事决策助手DARPA 

机器学习的成功应用和成本

014d3f1e52b14525674e3f8798426bd3b618326b

除AlphaGo之外还有大家所熟悉的广告系统整个智能广告上线后对收入有很大的提升但在获得提升的同时会付出高昂的成本。

889a788d362037f6fa4732582b5b344c674d0822

典型的机器学习过程

机器学习专家去定义一个问题通过定义这个问题从实际的应用中收集像样的数据做一些特征工程然后做一些模型训练最后做模型评估。中间的过程会是反反复复的。

96cf14c5b64515ee1cdf37a7def3d2048f32206b

机器学习的效果门槛

  •  建模门槛 

   数据门槛 

   特征门槛 

   算法门槛 

  • 模型应用门槛 

  适应性门槛 

  信任门槛 

  数据安全和隐私门槛

建模门槛实际应用中数据和维度的趋势

  • 有效数据的增长 

  数据量𝟏𝟎𝟒𝟏𝟎𝟏𝟎~𝟏𝟎𝟏𝟐

  • 数据维度的增长 

  宏观维度𝟏𝟎𝟑→微观维度𝟏𝟎𝟏𝟎~𝟏𝟎𝟏𝟐

30389c4185c7a85fc3e22d0a0a362b5e9c8a784c

建模门槛机器学习模型的趋势

机器学习模型在工业应用中的四个象限

025f8ab8cfe214b634d2bb38a82cc5a375fb4fdd

建模门槛没有免费的午餐 

  • No Free Lunch定理[Wolpert and Macready 1997]
  • 任意两个算法𝑎1和𝑎2 ෍ 𝑓𝑃(𝑑𝑚 𝑦|𝑓,𝑚,𝑎1)=෍ 𝑓𝑃(𝑑𝑚 𝑦|𝑓,𝑚,𝑎2)  
  • 任意算法包括随机算法在所有问题上的期望性能一样  
  • 不存在通用算法  
  • 但在具体的实际问题上有可能存在比其他算法好的算法  
  • 需要针对不同的实际问题研究开发不同的机器学习算法

适应性门槛面对开放世界

  • 数据分布变化  

  迁移学习  

  Importance Sampling  

  • 与环境交互、新训练样本  

  强化学习  

  • 新训练目标  

  迁移学习  

  • 样本属性含义变化

e2a5d7f932279816d58acc1c6066e21e7def40f8

降低适应性门槛鲁棒机器学习

  • 训练阶段  

  对噪声数据的鲁棒性  

  • 应用阶段  

  模型对未知样本的鲁棒性  

   置信度估计  

  对关键性高风险应用的鲁棒性  

   增加数据、Safe Machine Learning算法

信任门槛黑箱模型

  • 比如医疗应用只给出诊断不给出原因无法给出治疗方案  
  • 可解释机器学习  

  Twice Learning [Zhou,2004]  

   LIME [Ribeiro, 2016] 

   Influence Functions Interpretation[Pang Wei Koh, 2017]

5310a09188c4d03d30d7272a5654b6c6ab91e0ec

数据安全和隐私门槛

  • 保护用户隐私同时保持数据的有效性  
  • 解决方案  

    保留数据隐私的机器学习方法  

    Differential Privacy  

  • 模型交易取代数据交易

171d0788acbf3ad9a96a44c153e1fa4720210cfc

机器学习应用的成本----计算成本

降低计算成本计算效率优化

怎么对计算效率进行优化分为四个点

  • 计算  
  • 存储  
  • 通讯  
  • 容错

分布式并行计算

  • 摩尔定律失效 
  • 能耗墙Power Wall 
  • 延迟墙Latency Wall 
  • 单机能力有限 
  • IO、存储、计算有限 
  • 目前提升计算能力的主流方式 
  • 并行化降低执行延迟提升吞吐 
  • 但是Amdahl定律

36610e7f43ab65076e6fd8025e9abb52618e96fe

分布式并行模型训练

  • 数据分布式和模型分布式

c3b66bb9da8f01bfea0b5c5847115829f43d45fc

典型计算模型数据流

48d836e2ef9c32d5d48348cd3f79e5e0b7ead8c8

典型计算模型参数服务器

39294d9ab69cbb15e43b2ee2396c0726ee8049fd

趋势数据流 + 参数服务器

7c9cf0168bf5a96c3c67c102c2e042c5d0975691

其他计算效率优化

  • 计算  

   • 异构计算优化  

   • 异步合理地计算调度  

  • 存储  

   • 不同存储设备共存Hard Disk / SSD / NVMe /    • RAM / L2 Cache…  

    • 多级缓存  

  • 通讯  

   • 提升网络吞吐、降低网络延迟  

    • 软件请求合并、缓存  

    • 硬件多网卡、InfiniBand…  

  • 灾备  
   • Data Lineage VS. Checkpointing

e68a9c2c4d775bda30108b95ca7544ed53e9d580

机器学习应用的成本-----专家成本

降低编程门槛机器学习平台

20ea7bf3d5341988f3f71981a28af5a256fa9fbd

降低专业门槛从“人工”智能到机器智能

2a126efdc63fe1ac21740a74b8ecf06a210fefdc

自动机器学习AUTOML

  • 自动数据清洗  
  • 自动数据类型推断  
  • 自动特征工程  
  • 自动模型和参数选择  

自动组合特征

  • 自动化特征组合FeatureGo  
  • 问题空间22𝑑  

    •𝑑=20,10315652  

     •AlphaGo空间10171

895cec30d7fb9a22be843c8ced884263c9243ac8

自动时序特征

3b4df8d1c617b538de5da801599909a16fc93fcf

自动模型和超参数选择

  • Bayes方法  
  • 演化计算方法  
  • 迁移学习方法

029cb22500effa8bb5422b83ad8df509c0d0f1a4

自动模型和参数选择工程优化

43440d1b9cd89e5a00ca36cf63d65c91eb9ce1da

机器学习应用的成本-----数据成本

降低数据成本学件、迁移学习

  • 学件 = 模型 Model + 规约 Specification  

   •可重用  

   •可演进  

   •可了解  

  • 迁移学习[Pan & Yang, TKDE 2010]  

   •特征迁移  

   •样本迁移  

   •强化迁移学习  

   •终生学习

a16797b47f671d4513ea363fdb6e4c0ce0549fc6

  • AI在工业界有了很多成功的应用  
  • AI for Everyone  
  • 效果  
  • 维复杂模型  
  • 强化学习  
  • 鲁棒机器学习  
  • 可解释机器学习  
  • 成本  
  • 降低专家成本AutoML  
  • 降低计算成本计算效率优化  
  • 降低数据成本学件、迁移学习


原文发布时间为2017-11-29
本文作者涂威威
本文来自云栖社区合作伙伴“中生代技术”了解相关信息可以关注“ 中生代技术 ”微信公众号


相关文章
|
小程序 安全 API
支付宝消息订阅
订阅界面是根据当前小程序在商家平台配置的消息模板 id 来展示对应消息的订阅选项(参考接入流程第 4 步)。一次性:使用一次性消息模板订阅,每次向用户发送消息都需要用户在订阅界面点击同意后才可以发送。长期性:使用长期性消息模板订阅,用户同意订阅后,可以多次向订阅用户发送消息。
1074 0
 支付宝消息订阅
|
3月前
|
监控 测试技术 API
避免人为漏测:Dify工作流成为你的“测试策略大脑”,全天候在线排查
本文介绍如何利用Dify工作流构建自动化测试分析系统,通过解析代码变更智能生成测试策略。该系统可集成至CI/CD流程,实现7x24小时风险识别与测试重点推荐,有效提升测试覆盖率和问题预防能力。
|
数据挖掘 物联网 数据处理
深入探讨Apache Flink:实时数据流处理的强大框架
在数据驱动时代,企业需高效处理实时数据流。Apache Flink作为开源流处理框架,以其高性能和灵活性成为首选平台。本文详细介绍Flink的核心特性和应用场景,包括实时流处理、强大的状态管理、灵活的窗口机制及批处理兼容性。无论在实时数据分析、金融服务、物联网还是广告技术领域,Flink均展现出巨大潜力,是企业实时数据处理的理想选择。随着大数据需求增长,Flink将继续在数据处理领域发挥重要作用。
1325 0
|
7月前
|
人工智能 编解码 搜索推荐
16个AI Logo 设计工具大盘点:技术解析、Logo格式对比与实用推荐
本文介绍了品牌标志(Logo)的重要性,并盘点了多款免费且好用的 Logo 生成工具,分析其输出尺寸、格式及适用场景,帮助无设计基础的用户选择合适工具,高效制作满足不同用途的 Logo。
816 0
|
机器学习/深度学习 算法 数据挖掘
最优化--梯度下降法--牛顿法(详解)
最优化--梯度下降法--牛顿法(详解)
2264 1
|
11月前
|
人工智能 小程序 算法
【01】AI制作音乐之三款AI音乐软件推荐,包含AI编曲-AI伴奏-AI混音合成remix等-其次关于音乐版权的阐述-跟随卓伊凡学习如何AI制作音乐-优雅草卓伊凡
【01】AI制作音乐之三款AI音乐软件推荐,包含AI编曲-AI伴奏-AI混音合成remix等-其次关于音乐版权的阐述-跟随卓伊凡学习如何AI制作音乐-优雅草卓伊凡
1986 14
|
存储 JSON Java
1688订单接口获取指南
在电子商务中,订单数据的获取和管理至关重要。1688作为中国领先的B2B平台,提供了订单详情接口,允许开发者通过订单号获取详细信息,包括订单状态、收货地址、商品列表等。本文介绍如何使用该接口,涵盖注册账号、获取API密钥、安装必要库、构造请求URL、发送HTTP请求、解析响应数据及异常处理等内容,并提供Java示例代码。注意事项包括合规使用、数据安全和高效利用。
|
自然语言处理 数据可视化 Java
用Python手把手教你WordCloud可视化
用Python手把手教你WordCloud可视化
|
机器学习/深度学习 人工智能 算法
人工智能的三大主义--——行为主义(actionism),连接主义 (connectionism)
这段内容涵盖了人工智能领域的重要概念和历史节点。首先介绍了布鲁克斯的六足行走机器人及Spot机器狗,被视为新一代“控制论动物”。接着解释了感知机作为最简单的人工神经网络,通过特征向量进行二分类。1974年,沃伯斯提出误差反向传播(BP)算法,利用梯度调整权重以优化模型。最后,阐述了符号主义、连接主义和行为主义三大学派的发展与融合,强调它们在持续学习中共同推动人工智能的进步。
人工智能的三大主义--——行为主义(actionism),连接主义 (connectionism)
|
SQL Java 关系型数据库
Hive常见的报错信息
文章列举了Hive常见的几种报错信息,并提供了错误复现、原因分析以及相应的解决方案。
1933 1