漆远:小数据学习和模型压缩存挑战,场景成为 AI 技术发展关键

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
NLP自然语言处理_基础版,每接口每天50万次
简介:

 “蚂蚁金服是一家技术驱动的公司,我们做的事情,是使 AI 技术成为普惠金融的支点。”蚂蚁金服副总裁、首席科学家漆远博士,在有中国“ AI 春节”之称的新智元2017开源·生态AI技术峰会上表示。


大约一个月前,在北大“人工智能前沿”系列课程的讲堂上,作为特邀演讲人的漆远已经将 AI 技术和普惠金融的概念结合到了一起。在新智元 AI 技术峰会上,漆远再次强调:“蚂蚁金服核心的关键点在于普惠的金融服务,而实现普惠金融服务依靠的技术就是人工智能和大数据。”


场景!场景!场景!


从技术到落地,AI 的场景化应用成为本次新智元技术峰会上的一个关键词。漆远指出,在杭州,蚂蚁金服和城市政府直接对接了超过100项市政服务,比如司机闯红灯,可以通过支付宝进行直接赔付。“再举几个例子,支付宝可以在杭州城区购买地铁票;当芝麻信用超过一定分数时,人们可以免押金入住酒店,免押金租房;人们可以使用支付宝在中医院挂号,可以乘坐公共汽车。其实所有这一切,都是依托场景。”




而杭州的变化只是中国万千城市的一个缩影,“在浙江,一年有6亿人次享受城市服务,全部通过手机实现。例如,95%的超市、便利店可以用支付宝进行付款。这些数据背后,可以看到一个人的吃穿住行等方方面面。如此触达的条件实际上为我们奠定了非常坚实的基础,能够让我们把技术和场景结合起来,提供真正有价值的服务。”



“大家会问,讲 AI 为什么要讲这些?最近有人写了一篇文章,讲 AI 的娱乐化趋向。这其实是讲了一个 common sense,就是做 AI 离不开场景……我相信技术是第一生产力,关键是怎么落地,在商业场景里发挥出价值。”


 

漆远认为,一个非常重要的经验是,“不要为了做技术而做技术,一定要想到有商业价值的、有数据的场景,场景非常关键。否则,只是在公司里面闭门造车,做了也没有用。如果是初创公司,这公司已经注定要完蛋。这其实是非常关键的一个point。比如说我在阿里做第一个项目,是做参数服务器,就是分布式机器学习平台。但是我们找的第一个应用点特别简单,大家猜猜什么场景会有商业价值?对,就是广告。”

 

“于是我们就在CTR预估上采用了这个系统。因为这个系统只要能提升1‰,就有很多收益;提升1% 的收益就更多。我们当时做这个项目,应用在双11实时预测的用户产品推荐上,后来变成了阿里巴巴第一个大规模机器学习平台。所以一开始你要找到一个商业价值的落地点,如果我们做参数服务器,同样的技术,就是死路一条。在公司,在商业环境中,这肯定是没有前途的。”



“又比如深度学习技术的应用。它带来了图像识别、语音识别、NLP 等领域的长足进步,但是它的落地点在哪里?这就要问你的核心价值在哪里。一开始我们就很具体,就做客服。大家可能觉得这不是一个sexy的行业,但是真正能做好就有巨大的商业价值。这同样是要在场景中体现能力。”

 

而对于场景和数据、云计算以及算法的关系,漆远论述到,“其实很多公司今天都正在、或者已经完成国内互联网领域的上半场角逐。之后,大家开始真正竞争的是云计算的能力,比如阿里,比如蚂蚁金服的云,比如微软和Amazon的云,而这背后其实就是数据。比拼的是谁的场景数据本身有价值。其实阿里内部有一个比喻:数据是土壤,土壤上要盖高楼,才能产生价值,这要靠算法,靠人工智能。要真正能把价值体现出来,而不是坐在金山上吃馒头。我们需要通过人工智能,让用户产生的社会数据发挥价值,并将有价值的服务带给用户。场景的 vertical domain 非常重要。场景一边为我们带来数据,一边为用户带来真正有价值的服务。”

 

从智能客服到保险业


在金融服务这一大场景下,漆远特别以其中的智能客服、个性化产品和资讯推荐、保险及自动核赔等多个小场景为例,展现了AI 技术的应用及产生的价值。



“蚂蚁金服正在构建人工智能方方面面的能力和应用,我们在能力上的配备还是比较标准的——机器学习、自然语言处理(NLP)、图像识别、语音识别,尤其是语音识别,完全使用的是阿里集团自己的语音识别能力。蚂蚁金服也在开发许许多多的商业应用。”



“在今天有件事情已经变成共识——如果做平台,没有业务都是会死掉的,这是我们当时战略官的名言。在蚂蚁金服,我们有非常丰富的场景,从信用芝麻分、租车到贷款消费贷、风险控制、营销、智能助理等等,技术本身、数据和商业场景有非常好的结合。”



  • 智能客服

“智能助理在蚂蚁金服有很多的例子,聊天机器人不是我们的重点,我们的重点在产品知识问答,比如金融产品,完成订电影票或者旅行甚至订餐,还有金融服务,比如选择哪个保险比较适合。

   

“在蚂蚁金服,一个标准化的机器人应用就是客服。客服项目在蚂蚁金服可以说是第一个标杆性的人工智能落地项目,它一开始是典型的人力服务工作,在成都客服中心有几千人,每年双11接电话非常繁忙。我们在2015年要做智能客服,使用人工智能算法提升整体客服效率。我们做了大约半年,自助率从60%一下子升到94%,2016年自助率高达97%,去年双11最忙的时候,客服小二实际上非常轻松。今年我们有了一个新的标杆性的指标,两三个星期前刚刚做到。这个新的指标就是不光要自助率高,还要把服务的质量提高,我们要更好地解决问题。两周前,我们已经做到机器人的问题解决率达到了73%,超过了人的在线解决率71%。这是一个标杆的提升。


   

PPT上显示的是三个简单的真实APP展示,展示了机器人本身是怎么来回答问题的;第二,在你没有问问题之前,不靠语音信号或者NLP输入信息,而是通过用户的行为轨迹自动判断当前可能的问题在哪里,系统会根据用户的行为轨迹做出时间训练模型进行分析;第三,人工+智能。我并不是说用机器全部代替人,而是什么时候用人,怎么用机器把人的效率提升。这里我以我们的客服小二和工作台为例,怎么把好的小二的经验变成工作台自身的一部分,利用他们帮助其他的小二工作。这就叫智慧工作台,大规模提升了人类“小二”的服务质量。不光减少了人力,这个项目做了不到半年时间,我们公司统计减去人的成本,减去GPU的成本,公司省下来一个亿多的资金。在蚂蚁金服整体业务迅速扩张的情况下,我们的客服部门人员一直在减少,而所有其它业务人员都在增加——只有客服人员一直在减少,可以看到这个技术的效用。”

 


  • 个性化产品和资讯推荐

“个性化产品和资讯推荐,这里面有很多数据的融合问题,比如电商行为购买数据如何能够帮助财富升值、资讯阅读能不能帮助我们支付消费等等。




这里面有一个比较简单的思想,就是借助我们大量的数据源,建立比较大规模的深度学习网络,把所有数据做一个隐含的表达,在一个空间里面把很多数据源融合到一起。基于此,可以保护数据的隐私,也可以做出很多有意思的应用。



通过用户属性可以分析他的阅读偏好,聚宝头条咨询和社区观点推荐,比原来的算法直接提升了六倍的点击率。大家看PPT,这里显示的是用户对紧身裤、连衣裙选择偏好,漂亮女孩有什么共性?其中一个是她们经常穿比较紧身的牛仔裤,她们中的很多人会购买手机屏幕服务,所以我们为这一人群开发了碎屏险的保险产品。这是个性化产品非常碎片化、但又非常长尾的应用的例子。”



  • 保险及自动核赔

“保险业非常注重大数据应用,从人群定位到识别、从反欺诈到风险定价等等,从头到尾贯穿着数据。运费险是一个现在比较经典的例子,我买东西要退,保险费只要一块多钱,但是每个人不一样,我们做到了完全个性化。一开始这并不是差异化的,而是一口价,所以最初这个生意一直赔钱,后来我们把一个广告的算法用到保险里面,建立了一个人退货概率和产品之间的关系——这其实和很多广告非常类似,一个人点击广告也有概率——计算之后产生新的保险产品,这个保险产品一天盈利就达到几千万。这是典型的碎片化但是极为广泛的应用的例子。”



“自动核赔,用户在手机上报被盗32块钱。人脸识别之外下面还有很多算法和模型自动判断是不是您,其实并不是只做一个人脸识别。整体能够大幅度提升效率。”


一些挑战


对于 AI 技术应用中一些特别需要注意的问题和挑战,漆远此前有过精彩论述。


  • 基于加强学习的对话系统

“其实在对话系统没有很多数据的情况下,一开始你很难做加强学习,有可能你就只能做一个规则技术。但再往后面,可能当你需要完成任务,以任务为目标的时候,你在做 task completion 的时候,就像下围棋,你要完成任务,赢别人。这时候你和用户其实是 interation。这个时候你可以考虑,怎么来介入。大家也知道翻译模型,对话系统很多用翻译模型,我们叫做 seq2seq,也就是sequence to sequence。假如有一堆 sequence,假如是多轮对话,你能不能应付,就是一个 sequence 到另一个 sequence,再到另一个 sequence。这其实都是对技术的挑战,对数据收集的挑战,对数据标注的挑战。”


  • 小数据学习

“这个问题现在也越来越明显了。其实今天讲大数据,有点令人误会。就很多场景下问题的复杂度而言,其实数据并不大。我们要分析风云变幻的市场。就如刚才雷老师说,你看一个公司过去两年的交易数据,其实一点不多,把季报全都加进来。其实一年就4份财报。在数据并不多的情况下,怎么能够把这个小数据学习的问题解决?”


  • 推理和知识图谱

很多问题需要你做推理,如果A发生了,到B,B发生,回到C,你怎样把推理过程做好?今天,大家做了很多深度学习,比如说一个文本里面,A会导致B的发生,你把这个相关的答案找到。但是并不能推理出B到C和C到D。如果做知识图谱,其实跟深度学习没什么关系,今天的深度学习图谱其实是建了一个图模型,然后把这个点一个一个往下推,而这两个框架是完全分离的框架,这其实也是分裂的。大家能不能真正有一套机制,能有推理的功能?这其实既有理论上的价值,更有商业上的价值,巨大的价值。刚才已经提到知识图谱了,大家其实现在有一系列算法讲知识图谱,knowledge graph,但是学术上发表的很多文章,工业上暂时是没法用的。有一些算法——我就不说哪个算法了,有的还是我好朋友写的——很难应用在工业上,为什么呢?因为它基本上不能达到需要的准确性。


  • 无监督学习

“另外,无监督学习也喊得比较响。这是跟小数据学习相关的。很多数据是有标注的,还有很多数据没有标注,那怎么能够把没有标注的数据都用起来,真正做到把数据的所有价值都真正体现出来?当然,在无监督学习和有监督学习中间,还有一个半监督学习(有一部分有标注)。我们怎么把它们结合起来一起进行学习?这也是一个在今天的背景下非常有意义的方向。”


  • 数据和模型的压缩

“从工业界来讲,更实用的是数据和模型的压缩。刚才有人问我说深度学习能不能用于量化交易,尤其是高频。我说高频的话,如果深度学习有好几层的模型,比如做图像有 100 多层。而高频交易希望在千分之一秒或者万分之一秒之内把交易完成,这两个互相矛盾。工业很多应用非常在乎实时性,不能有大量 delay。怎么能做得快呢?这就需要模型的压缩,要用 hashing 等技术,这也是非常好的方向。”


漆远在演讲的最后总结道:我们在做从移动互联网到云计算到端的扩展。蚂蚁金服核心的关键点在于普惠的金融服务,而实现普惠金融服务依靠的技术就是人工智能和大数据。


文章转自新智元公众号,原文链接

相关文章
|
9天前
|
数据采集 人工智能 运维
从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践
本文介绍了阿里云 Elasticsearch 推出的创新型 AI 搜索方案
106 3
从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
AI写作新时代:自然语言生成技术与写作助手的结合
AI写作新时代:自然语言生成技术与写作助手的结合
43 16
|
2天前
|
存储 人工智能 监控
AI视频监控技术在公租房管理中的应用:提升监管精准度与效率
该AI视频监控系统具备1080P高清与夜视能力,采用深度学习技术实现高精度人脸识别(误识率1%),并支持实时预警功能,响应时间小于5秒。系统支持私有化部署,保障数据隐私安全,适用于大规模公租房社区管理,可容纳10万以上人脸库。基于开源架构和Docker镜像,一键部署简单快捷,确保24小时稳定运行,并提供详细的后台数据分析报表,助力政府决策。
|
6天前
|
人工智能 运维 监控
云卓越架构:企业稳定性架构体系和AI业务场景探秘
本次分享由阿里云智能集团公共云技术服务部上海零售技术服务高级经理路志华主讲,主题为“云卓越架构:企业稳定性架构体系和AI业务场景探秘”。内容涵盖四个部分:1) 稳定性架构设计,强调高可用、可扩展性、安全性和可维护性;2) 稳定性保障体系和应急体系的建立,确保快速响应和恢复;3) 重大活动时的稳定重宝策略,如大促或新业务上线;4) AI在企业中的应用场景,包括智能编码、知识库问答、创意广告生成等。通过这些内容,帮助企业在云计算环境中构建更加稳定和高效的架构,并探索AI技术带来的创新机会。
|
6天前
|
数据采集 人工智能 运维
从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践
本文介绍了阿里云 Elasticsearch 推出的创新型 AI 搜索方案。
|
7天前
|
存储 数据采集 算法
构建AI数据管道:从数据到洞察的高效之旅最佳实践
本文探讨了大模型从数据处理、模型训练到推理的全流程解决方案,特别强调数据、算法和算力三大要素。在数据处理方面,介绍了多模态数据的高效清洗与存储优化;模型训练中,重点解决了大规模数据集和CheckPoint的高效管理;推理部分则通过P2P分布式加载等技术提升效率。案例展示了如何在云平台上实现高性能、低成本的数据处理与模型训练,确保业务场景下的最优表现。
|
7天前
|
人工智能 供应链 安全
面向高效大模型推理的软硬协同加速技术 多元化 AI 硬件引入评测体系
本文介绍了AI硬件评测体系的三大核心方面:统一评测标准、平台化与工具化、多维度数据消费链路。通过标准化评测流程,涵盖硬件性能、模型推理和训练性能,确保评测结果客观透明。平台化实现资源管理与任务调度,支持大规模周期性评测;工具化则应对紧急场景,快速适配并生成报告。最后,多维度数据消费链路将评测数据结构化保存,服务于综合通用、特定业务及专业性能分析等场景,帮助用户更好地理解和使用AI硬件。
|
13天前
|
人工智能 分布式计算 供应链
高效提取图片信息:AI技术赋能企业数字化转型
本文介绍了如何通过AI技术高效提取图片中的结构化信息,提升企业运营效率。具体应用场景包括票据与合同管理、电商商品信息管理、保险理赔和物流单据处理等。AI技术能将传统人工录入流程缩短至秒级,准确率高达99%,减少人为错误,提升客户满意度。方案优势在于易于扩展、灵活高性价比的调用模式及便捷安全的云产品接入。文中还详细描述了部署应用、访问示例应用及使用官方示例进行信息提取的操作步骤,并提供了参考链接和源码下载途径。
|
13天前
|
机器学习/深度学习 传感器 人工智能
开源AI视频监控系统在监狱安全中的应用——实时情绪与行为分析、暴力预警技术详解
针对监狱环境中囚犯情绪波动和复杂人际互动带来的监控挑战,传统CCTV系统难以有效预警暴力事件。AI视频监控系统基于深度学习与计算机视觉技术,实现对行为、情绪的实时分析,尤其在低光环境下表现优异。该系统通过多设备协同、数据同步及自适应训练,确保高精度识别(95%以上)、快速响应(<5秒),并具备24小时不间断运行能力,极大提升了监狱安全管理的效率与准确性。
|
9天前
|
人工智能 Cloud Native 数据管理
数据+AI融合趋势洞察暨阿里云OpenLake解决方案发布
Forrester是全球领先的市场研究与咨询机构,专注于新兴技术在各领域的应用。本文探讨如何加速现代数据管理,推动人工智能与客户业务的融合创新。面对数据标准缺乏、多云环境复杂性、新兴业务场景及过多数据平台等挑战,Forrester提出构建AI就绪的数据管理基石,通过互联智能框架、全局数据管理和DataOps、端到端数据管理能力、AI赋能的数据管理以及用例驱动的策略,帮助企业实现数据和AI的深度融合,提升业务价值并降低管理成本。
下一篇
开通oss服务