基于空间大数据的社会感知

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

大数据时代产生了大量具有时空标记、能够描述个体行为的空间大数据,如手机数据、出租车数据、社交媒体数据等。这些数据为人们进一步定量理解社会经济环境提供了一种新的手段。近年来,计算机科学、地理学和复杂性科学领域的学者基于不同类型数据开展了大量研究,试图发现海量群体的时空行为模式,并建立合适的解释性模型。笔者采用“社会感知(social sensing)”概念构建了空间大数据研究框架,指出社会感知就是借助于各类空间大数据研究人类时空间行为特征,进而揭示社会经济现象的时空分布、联系及过程的理论和方法。值得一提的是,与强调基于多种传感设备采集微观个体行为数据的社会感知计算(socially aware computing)相比,社会感知更加强调群体行为模式以及背后地理空间规律挖掘。

社会感知数据可从三个方面获取人的时空间行为特征:(1)对地理环境的情感和认知,如基于社交媒体数据获取人们对于一个场所的感受;(2)在地理空间中的活动和移动,如基于出租车、签到等数据获取海量移动轨迹;(3)个体之间的社交关系,如基于手机数据获取用户之间的通话联系信息。由于空间大数据包含了海量人群的时空间行为信息,使得我们可以基于群体的行为特征揭示空间要素的分布格局、空间单元之间的交互以及场所情感与语义(如图1所示)。空间大数据提供的社会感知手段,第一次为地理学乃至相关人文社会科学研究开启了一种“由人及地”的研究范式。而“社会感知”这一概念,正是概括描述了空间大数据在相关研究与应用中所提供的数据以及方法上的支撑能力。

本文梳理了近年来针对空间大数据开展的研究,尤其是其中用到的数据分析与模式发现方法。这些方法一方面借鉴了计算机领域的最新进展,另一方面也充分考虑了地理空间的规律和特征。

社会感知分析方法

根据社会感知的概念,对于空间大数据的研究可以分为“人”和“地”两个层面。前者关注人的空间行为模式,以及模式所受到的地理影响;后者则侧重于在群体行为模式的基础上,探讨地理环境的相关特征。

个体行为模式分析法

空间大数据
空间大数据

空间大数据可以感知人的三个方面的空间行为模式,如图1所示。其中,移动是个体层次空间行为最直接的外在表现。由于大数据对于移动轨迹的获取能力较强,因此目前的研究多集中在移动模式和模型的建立。

动物以及人在空间中移动所展示的规律性是复杂系统领域研究的一个重要议题。每个个体的移动模式可以表示为随机游走(random walk)模型。通过对动物的移动进行观察,发现其移动步长和角度的统计分布特征呈现一定的模式,提高了觅食的效率。当移动方向均匀分布,而步长为幂律分布,且指数在1~3之间时,移动为列维飞行模型(Levy flight),如图2所示。与动物相比,人的出行目的更加多样化,并且存在一个或者多个频繁重访地点,这使得人的移动模式与动物的移动模式存在机理上的差异。在海量个体移动轨迹数据的支持下,我们可以观察人的移动模式并构建相应的解释模型。从布罗克曼(Brockmann)等人发表在《自然》上的基于钱币追踪数据开展的研究开始,许多学者利用手机、出租车、社交媒体签到等数据探讨了人的移动模式,并且试图建立解释性模型。

步长的统计分布是移动性模式表达中的重要元素。对于移动轨迹而言,由于距离衰减,使得长距离出行的概率较低,而短距离出行的概率较高。表征这种分布特征的函数有幂律分布、指数分布、指数截断的幂律分布等[5~9]。许多学者试图建立模型以解释观察到的人类移动模式。除了距离衰减影响外,解释移动模式需要考虑的因素还包括地理环境和个体的空间行为特征。其中地理环境因素决定了潜在的个体移动到访点的空间分布,该分布通常与人口密度分布正相关;而个体的空间行为特征则反映了人们移动中的一些个性化的规律。目前得到较多关注的是个体轨迹中的重访点,这是人类移动和动物移动存在较大差异的方面。人类移动存在家和工作地等频繁重访的地点,具有较高的可预测性[10]。在地理环境分布特征方面,我们通常从城市范围内及城市间两个尺度分别探讨移动性模式。城市范围内的移动受到城市用地结构的影响。对于一个城市而言,通常市中心区土地开发强度较大,居民出行的密度相对较高,而在城市边缘地区,土地利用强度和出行密度都相对较低。这种地理环境分布模式使得城市尺度的移动步长分布尾部不那么“重”[11]。而对于城市间的移动,城市体系中不同规模的城市空间分布同样影响了观测到的移动模式。韩(Han,音译)等人探讨了层次城市体系对于人类移动模式的影响,指出人们在低层次城市之间的移动通常要经由高层次城市,从而产生了步长的幂率分布特征[12]。

目前研究所采用的空间大数据多数都是“移动轨迹丰富,活动信息不足”,这使得轨迹背后丰富的语义信息(尤其是出行目的信息)缺失。在交通地理学研究中,出行目的是理解出行移动模式的基础,不同的出行目的受到空间的约束也不同。一些学者试图结合轨迹数据、时间约束以及地理环境特征,推断出行目的,从而达到充实轨迹语义的目的[13,14]。

个体层次的时空间行为除了移动和活动外,社交关系(social ties)也是很重要的要素。利用空间大数据可以揭示社交关系背后的地理影响。这方面的研究主要包括个体地理位置对于个体间社交关系的影响[15,16]以及个体空间移动与社交关系的相互作用[17,18]两个方向,目的是探求空间距离和时空共现(spatio-temporal co-occurrence)与社交关系之间的量化联系。

活动时间变化特征分类法

空间大数据

不同类型的大数据可以揭示一个区域或城市的活动以及人口分布状态。大数据的时间标记可以用于解释人口分布的动态变化特征。这种变化特征往往具有较强的周期性。对于城市研究而言,尤其以日周期变化最为明显。城市居民在居住地点和工作地点之间的通勤行为产生了相关地理单元人口密度的时变特征(如图3a)。因此,我们可以基于城市不同区域对应的活动日变化曲线来研究其用地特征和在城市运行中所承载的功能。

利用空间大数据所提取的活动分布特征感知土地利用类别的基本依据是活动量日变化特征对地块的指示能力。提取特征时通常采用非监督分类方法,最常用的算法有k-平均算法(k-means)聚类、k-中心点算法(k-medoids)聚类等[19~21]。我们经常可以看到相同的土地覆被对应不同的居民活动特征,而外形相近的建筑可能承担了不同的社会功能,与之相较,利用大数据提取活动分布特征的方法从活动角度更为全面地解读了城市土地利用情况。在分类过程中,因为功能相同的地块存在活动强度的差异,如高密度居民区和低密度居民区,尽管人口总量不同,但是其人口密度日变化特征相似,故而在非监督分类过程中,通常需要对活动时变曲线进行归一化处理。此外,考虑城市居民工作日和周末的不同活动特征,在一些研究中,会将工作日数据和非工作日数据分开处理。由于空间大数据所提取的活动时空分布信息可以处理成与传统遥感数据相似的形式,因此除了非监督分类外,一些图像处理方法也可以应用于社会感知数据。图3b展示了如何从人对于城市空间利用的视角去解读城市的结构特征。近年来,也有一些研究采用主成分分析以及非负矩阵分解方法,识别一个城市不同区域活动变化的全局和局部变化特征[22~25]。此外,张量(tensor)也是分析时空大数据的有效工具,张量模型的高阶(high order)表达能力能够描述时空数据在时间、空间、个体状态等多方面的特征。王静远等使用张量分析了城市交通节律、社区组团、用地性质等要素之间的联系[26],范(Fan,音译)等人对城市时空数据进行了谱分析,研究了不同个体在不同时间、不同地点对于突发灾害事件的响应模式[27](如图4所示)。

空间大数据

场所情感及语义分析法

社交媒体(推特、微博等)中包含了大量文本数据,成为语义信息获取的重要来源。带有位置的社交媒体数据通常占3%,研究者可以利用这部分数据揭示与地理位置有关的语义信息。目前的研究主要包括三个方向:(1)获取一个场所的主题词(图5a);(2)获取与场所有关的情感信息(图5b),如高兴还是抑郁[28~30];(3)获取对于特定事件(如灾害[31]、事故[32]、
疾病[33])的响应。由于社交媒体数据是大量用户自发创建的,分析语义信息及其时空模式有助于政策制定者了解社情民意并制定相关公共政策。在社交媒体文本语义处理中,潜在狄利克雷分配 (Latent Dirichlet Allocation, LDA)模型被广泛应用,以确定每条信息所表示的主题以及相关的情绪信息。然而,由于社交媒体数据中每条文本存在字数的限制,并且内容随意性较强,因此如何从中挖掘更加精确的、有意义的信息,尚需进一步研究。

近年来,深度学习技术的发展使得自动提取识别照片语义信息成为可能。一些研究基于对照片共享网站带有时空标记的图像进行内容分析,揭示地理环境的特征(图5c)。
与基于文本的语义信息提取相比,照片语义信息更为客观且丰富。每张照片反映了拍照者对于场所的感知。周(Zhou,音译)等人利用在全球不同城市拍摄的照片,研究比较了城市的空间特征,其发现的模式有助于评估城市规划的效果[34]。考虑到文本和照片不同的表达能力,我们认为结合文本和照片语义信息,能够全面捕获一个地理场所给人们带来的体验。

空间大数据

空间交互分析

在地理学研究中,空间交互(spatial interaction)指的是两个场所之间的联系,通常可以基于人流、货流、资金流等进行量化。研究空间交互有助于理解一个区域内部的结构以及动态演化特征。在空间大数据中,个体的移动轨迹以及个体之间的社交关系都可以在聚集层面量化两个场所之间的交互强度,前者如两个城市间的人流总量,后者如两个城市之间互相关注的好友对数。空间交互强度受到距离衰减效应的影响,距离远的两个地理单元间的联系相对较弱。因此,在地理学研究中,大多基于重力模型来拟合场所之间的交互强度,采用距离的负幂函数(d-β)表示空间阻隔的影响。目前可用的拟合方法有线性规划法、代数求解法、模拟法等[35~37]。根据重力模型拟合结果,可以通过距离衰减系数β来表征特定空间交互行为中距离衰减效应的大小,即β值越低,距离的影响越小。实证研究表明,对于居民在城市尺度的移动行为,距离衰减系数在1~2之间,而对利用手机、社交媒体等途径建立的空间交互,距离衰减效应尽管较弱(β<1),但依然存在影响[38]。

空间大数据

利用地理单元之间的空间交互,可以构建嵌入空间的网络(spatially-embedded network),并引入网络分析方法研究其结构特征。在该网络中,通常每个节点为一个地理单元,而边的权重为地理单元间交互的强度,如图6a所示,基于空间交互,构建嵌入空间的网络,从而引入网络科学分析方法,分析研究区的空间结构特征[47]。在复杂网络研究中,常见的分析方法是对网络进行社区发现(community detection)分析,而网络中的社区由相对联系更为紧密的节点构成。目前,用于社区发现的算法有Girvan-Newman[39]、Multilevel[40]、Fastgreedy[41]、Infomap[42]和Walktrap[43]等。对于嵌入空间的网络而言,一个社区往往对应地理空间中联系相对紧密的区域[44~47]。由于距离衰减效应以及行政区划的影响,如果仅仅考虑交互强度而不考虑相邻约束,社区发现的结果通常为空间上连续的区块,并且往往与行政区划边界相一致(图6b)[48]。

结合传统空间数据的分析和应用

城市是空间大数据产生最频繁的区域。因此,空间大数据的应用研究目前主要集中在城市区域。相关的研究领域有交通管理、城市规划、环境、公共卫生等。在此基础上,郑宇等提出了城市计算(urban computing)的概念,利用包括空间大数据在内的城市多源数据进行计算分析,发现并解决城市运行中的问题[49]。

在上述应用中,除了空间大数据外,还要结合传统空间数据(如城市用地和建筑数据、道路网数据、检测站点数据等)进行分析。例如,王(Wang,音译)等人利用旧金山和波士顿地区的手机数据和路网数据,发现了交通拥堵路段的车流来源,并且给出了缓解拥堵的建议[50];郑(Zheng,音译)等人利用监测站数据、天气数据以及交通和人的移动数据,推断城市的实时精细分辨率空气质量数据,该结果有助于城市居民规划户外活动[51]。由于空间大数据的获取建立在海量群体的空间行为的基础上,因此使我们能够更好地感知人的行为模式及其与地理环境之间的耦合模型。我们认为建立在社会感知基础上的公共政策制定,更能够体现“以人为本”的理念,有着广阔的应用前景。

空间大数据为我们提供了一条透过海量人群的空间行为模式去观察、理解地理环境特征及影响的研究路径。社会感知概念的提出正是概括了空间大数据的这种能力。空间大数据的处理,一方面需要有高效的分析方法,一方面需要对人的行为动力学模型和地理环境特征有充分的理解。因此,需要信息科学、复杂性科学、地理学等不同学科以及不同应用领域的学者进行通力合作,才能有效提取空间大数据中所蕴含的信息,并充分体现其应用价值。


本文作者:佚名

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
5月前
|
弹性计算 分布式计算 大数据
MaxCompute产品使用合集之如何将用户A从项目空间A申请的表权限需要改为用户B
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6月前
|
分布式计算 DataWorks API
DataWorks操作报错合集之在将ODPS空间设置成保护模式后,导出到OSS的任务出现了权限问题,该怎么解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
178 1
|
6月前
|
存储 SQL 分布式计算
MaxCompute产品使用问题之如何查看项目空间耗用的存储大小
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
110 3
|
5月前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用合集之如何查看空间资源、CPU和内存以及存储空间容量
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
100 0
|
6月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI操作报错合集之在ODPS的xxx_dev项目空间调用easyrec训练,需要访问yyy项目空间的OSS,出现报错,是什么导致的
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
6月前
|
分布式计算 大数据 关系型数据库
MaxCompute产品使用问题之如何查看表占用的空间大小
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
7月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之在DataWorks中,怎么创建空间并绑定MaxCompute引擎,然后创建项目
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
7月前
|
分布式计算 关系型数据库 大数据
MaxCompute产品使用合集之怎么才可以将 PostgreSQL 中的 geometry 空间类型字段同步到 MaxCompute 或另一个 PostgreSQL 数据库
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
7月前
|
关系型数据库 大数据 分布式数据库
PolarDB 开源版 使用PostGIS 数据寻龙点穴(空间聚集分析)- 大数据与GIS分析解决线下店铺选址问题
背景PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力.本文将介绍PolarDB 开源版 使用PostGIS 数据寻龙点穴(空间聚集分析)-...
206 0