京东金融与KDD2018:如何针对性解决城市计算痛点

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 7 月 21 日、22 日,由 KDD China 主办,西南交通大学和京东金融承办的 KDD Summer School 暨 KDD Pre-Conference,「交通大数据智能」论坛在成都举行,多位知名数据挖掘领域专家以及 KDD 2018 国际会议录用论文的作者介绍了自己的工作以及各自领域的进展。

作为会议的承办方,京东金融的城市计算事业部在会议上给出了一个主题演讲和两篇论文介绍,分享了京东进行城市计算的方法论,辅以众多实际案例。


点、线、面的结合与规划、运维、预测的闭环


京东金融集团副总裁、首席数据科学家、城市计算事业部总经理郑宇给出了以《城市计算:用人工智能和大数据打造未来城市》的演讲,概括性地介绍了京东城市计算事业部的工作。


微信图片_20211129233554.jpg

「城市计算是大数据、人工智能、云计算在城市场景里的有机融合。京东的城市计算的特点,一是点、线、面结合的总体设计和跨领域的垂直应用,二是建立规划、运维和预测的闭环,来给城市计算方案以演进和变化的能力,以适应城市不断的演进和变化。」郑宇这样总结道。


他以雄安的智能城市顶层设计中的自行车道设计为例:自行车道首先要经过「规划」;然后研究自行车的调动、运力最大化,也就是「运维」;还要对短至未来一两个小时、长至一两年内,自行车需求量进行估计,也就是「预测」,预测会反过来指导规划。自行车道的设计、运费和预测三个「点」组成一条「线」,而将自行车、公交、地铁、出租车全盘考虑的规划就是一个「面」,只有整体考虑,才能实现更为合理的整体交通规划。


在设计过程中,城市大数据平台和城市计算平台贯穿始终。


微信图片_20211129233558.jpg

大数据平台定义了六种标准数据,并对所有城市数据进行分类。按照数据结构进行划分,数据可分为点数据和网数据。按照数据关联的时空属性,数据可以分为时空静态、空间静态时间动态以及时空动态数据。这两个分类标准交叉形成了六种数据类别,城市里存在的所有数据都可以被归类其中。数据的标准化意味着数据通用性的增强,也让系统变得可扩展。


城市计算平台则将时空数据特殊的索引算法和分布式结合,获得性能百倍乃至千倍的提升。京东每天新增数据超过 800 TB,如果没有底层支撑,就没有办法实时运行很多算法。


智能交通


在平台之上是各个应用板块,包括智能交通、智能环保、智能商业等,在为每一个城市制定项目时,都是从板块里提取过去的经验进行扩展与复用。


在论坛中反响非常好的一个例子是京东金融与摩拜合作的智能交通项目,KDD 2018 入选论文「用共享单车轨迹检测违章停车」。项目的逻辑很简单:违章停车会影响自行车的骑行线路,如果在某一路段获得了大量符合一定模式的骑行数据,就可以对当前路段是否有违章停车进行预测。在不增加交警人力物力的情况下,进一步降低实际管理成本。


在第二天的论坛上,来自哈尔滨工业大学的何天赋介绍了这份工作。工作包括一个预处理模块,进行有针对性的相应轨迹清洗、路网匹配、轨迹索引;以及一个检测模块,基于假设检验与轨迹融合进行检测。


在预处理部分,通过路网匹配去掉了匹配到高速路等自行车罕至地域的轨迹、与道路几乎垂直的、偏离道路过远的轨迹,同时因为违章停车对正向和反向骑行的自行车影响程度不同,因此将轨迹按其行进方向分开,用不同的模型分别刻画。


在检测部分,作者主要强调三点考量:


1. 不区分不同模式的违章停车,将其全部视为一类。将其多样性内化。

2. 不检测单条轨迹,而是把不同轨迹合在一起进行一次判断,排除可能影响单条轨迹的诸多误差。

3. 对每条路单独建模,排除不同地区障碍物不同带来的 GPS 误差分布差异。


检测模型将深夜的自行车轨迹视为基线数据,然后用 KS 检验判断白天与深夜的样本是否处于同一个分布,输出一个属于同一分布的置信度,然后用真实违停检验数据集确定分类的阈值。


微信图片_20211129233601.jpg

智能空气质量预测


虽然深度学习算法近年在处理图像、语音、自然语言等领域展现了强大的能力,但并不是所有的问题都适合用深度学习来解决。在城市计算中,什么样的问题适合引入深度学习?同样是 KDD 2018 的入选论文,「基于深度分布式融合网络的空气质量预测」,就是一个数据量的质变为深度学习的进入提供空间的例子。


我国于 2012 年开始对 PM2.5 进行监控,在 5 年前,可用数据点只有几千个,小样本问题是进行预测的一大障碍。如今,全国有超过 200 个城市、数千个站点在以小时为单位记录空气质量数据,数据量的极大丰富让研究者思考深度学习能否更好地解决问题。研究者发现深度学习在拐点预测方面有较大提升。


空气质量预测既需要考虑到大颗粒悬浮物,也要考虑污染物,是一项「既要看天,也要看人」的时空细粒度预测,它影响因素众多,且不可直接观测,需要应用机器学习模拟诸多影响因素的变化。在空气质量预测中,拐点预测尤为重要:它与工厂停工、学生停课等城市管理决策执行息息相关。


在深度学习处理时空数据时,数据转化和属性捕捉是两大重点。深度分布式融合网络设计了针对空气质量指数的特定的数据归集合并的方法,进行数据维度对齐和滤噪,然后把气象、 天气、其他污染物等因素引入,进行嵌入(embedding)后,利用不同的融合网络分别学习 AQI 受整体和各因素分别的影响权重,最后得出预测结果。这种方法很好地捕捉了空气质量骤变。准确率提高到接近 50%。


微信图片_20211129233604.jpg

智能商业


在进行智能城市的设计时,经验和数据的可扩展性是郑宇着重介绍的一点。


智能商业的一个典型案例是上海市联通的营业厅改造选址。营业厅改造的目的是把受到线上业务办理影响的空置营业厅资源重新利用起来,而方法是选择部分营业厅进行改造,进行 3C 产品的出售和体验,在这里需要城市计算解决的问题是,在哪里改造和如何配置产品。


京东通过购买 3C 产品的地理位置数据,融合联通的数据,把最大化最后的预期收入作为目标,利用 EM 算法和机器学习排序(learning to rank)算法进行选址和产品配置的学习。


先用联通的数据选出尽可能覆盖更多用户的营业厅,然后再利用京东的售卖数据预测哪些营业厅在改造后会带来更多新增用户。二者在迭代中不断去优化。


针对性打击城市计算痛点


如 KDD China 主席杨强所言,机器学习在工业界的发展将很多学界的研究者引入了业界,但业界的关注重点仍然与学界有差别:例如业界更关注机器学习鲜少涉足的网状数据(社交网络、空间网络),以及相比于机器学习对于端到端与自动化的强调,业界更关注模型可解释性,关注人如何能理解、应用、并对模型结论进行可视化。


将机器学习乃至深度学习应用于城市计算的道理也是这样,郑宇总结道,想要做好城市计算,就要对其痛点进行有针对性的打击,主要注重四个方面:


一是在技术上要有针对时空数据的管理、挖掘算法,包括如何将难以融合甚至法律法规规定不能互通的各部门数据在保护隐私的前提下通过建模间接打通。


二是在交通、环境、能耗、公安等城市治理领域有深入的行业知识积累,有经验和理解,要求研究人员一开始就从实战角度出发去做学术研究。


三是数据,京东拥有海量的自身积累的合法数据, 以及联通、摩拜等诸多合作伙伴的多种时空数据。


最后是要不依靠补贴,找到能够产生经济效益的、可以长久持续的商业模式,才能树立品牌效应。


在未来,除了京东商城、京东物流、京东金融之外,还会有独立的京东城市板块,规模甚至可以达到几千人。



本文为机器之心原创,转载请联系本公众号获得授权

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
数据采集 存储 弹性计算
阿里云刘伟光:4万字解读金融行业全域数据“观”(2)
阿里云刘伟光:4万字解读金融行业全域数据“观”(1)
120 0
阿里云刘伟光:4万字解读金融行业全域数据“观”(2)
|
算法 安全 搜索推荐
阿里云刘伟光:4万字解读金融行业全域数据“观”(3)
阿里云刘伟光:4万字解读金融行业全域数据“观”
132 0
阿里云刘伟光:4万字解读金融行业全域数据“观”(3)
|
数据采集 人工智能 Cloud Native
阿里云刘伟光:4万字解读金融行业全域数据“观”(1)
阿里云刘伟光:4万字解读金融行业全域数据“观”
203 0
阿里云刘伟光:4万字解读金融行业全域数据“观”(1)
|
数据采集 数据可视化 数据挖掘
带你读《中国零售行业数智化成熟度白皮书》2.2深析指标,解惑零售数智差异点(2)
带你读《中国零售行业数智化成熟度白皮书》2.2深析指标,解惑零售数智差异点(2)
带你读《中国零售行业数智化成熟度白皮书》2.2深析指标,解惑零售数智差异点(2)
|
供应链 监控 决策智能
带你读《中国零售行业数智化成熟度白皮书》2.2深析指标,解惑零售数智差异点(4)
带你读《中国零售行业数智化成熟度白皮书》2.2深析指标,解惑零售数智差异点(4)
带你读《中国零售行业数智化成熟度白皮书》2.2深析指标,解惑零售数智差异点(4)
|
供应链
带你读《中国零售行业数智化成熟度白皮书》2.2深析指标,解惑零售数智差异点(1)
带你读《中国零售行业数智化成熟度白皮书》2.2深析指标,解惑零售数智差异点(1)
带你读《中国零售行业数智化成熟度白皮书》2.2深析指标,解惑零售数智差异点(1)
|
数据采集 搜索推荐 数据挖掘
带你读《中国零售行业数智化成熟度白皮书》2.2深析指标,解惑零售数智差异点(3)
带你读《中国零售行业数智化成熟度白皮书》2.2深析指标,解惑零售数智差异点(3)
带你读《中国零售行业数智化成熟度白皮书》2.2深析指标,解惑零售数智差异点(3)
|
存储 机器学习/深度学习 分布式计算
当金融风控遇上人工智能,众安金融的实时特征平台实践
随着企业数字化转型升级,线上业务呈现多场景、多渠道、多元化的特征。数据要素价值的挖掘可谓分秒必争,业务也对数据的时效性和灵活性提出了更高的要求。在庞大分散、高并发的数据来源背景下,数据的实时处理能力成为企业提升竞争力的一大因素。今天分享的是众安金融实时特征平台实践。
445 0
当金融风控遇上人工智能,众安金融的实时特征平台实践
|
数据采集 存储 运维
阿里云刘伟光:4万字解读金融行业全域数据“观”
阿里云刘伟光:4万字解读金融行业全域数据“观”
245 0
|
新金融
《未来保险 新金融时代》——二、保险科技的第一性原理——特征2:“多位一体”的渠道
《未来保险 新金融时代》——二、保险科技的第一性原理——特征2:“多位一体”的渠道
85 0