边缘计算和大数据平台如何相结合?

简介: 边缘计算和大数据平台如何相结合?

边缘计算和大数据平台相结合,能否引领企业颠覆式的数据智慧变革呢?宏伟的方案我就不说了,内功不达标,就说说个人理解的边缘计算+大数据平台的软件架构应该是什么样子。


第一,很多专家的观点都认为边缘计算就是先在边缘侧进行大量的数据预处理后,再将二次处理过的数据传给大数据平台端,做机器学习之类,这样既能解决带宽问题,又能减少后端的压力。我觉得这个观点不切实际!

为什么呢?这违背大数据计算的一个本质思想——数据应该是原始的。我们怎么去理解这个思想呢?

举个例子,街道摄像头监控,假设一个智能卡点作为一个边缘计算点了吧,那么如果觉得传递高清图片占用带宽和后台存储空间,如果我们的起初的需求只是探测超速,我们就根据预处理方法,通过AI模式识别,只将高速运动的异常图像传递给后台,这看起来很智能,架构很高效!但是这种处理方法会抛弃大量原生图像,后果是什么呢?以后刑侦需要人脸识别数据,防疫需要人员轨迹数据,AI识别系统升级了,需要识别更更多数据的时候,这些未来的需求和计算方法就没有了历史上原始数据做支撑了。因此大数据应该存储一份原生的数据,而不是根据想象中的需求做数据的大规模预先清洗。

那么怎么解决原生数据占用带宽和存储的问题呢?通过合理的数据结构,优化压缩,实现高度的数据压缩,物联网更容易产生大量相同数据,非常适合用压缩解决,这才是边缘计算需要着重考虑的技术问题。这点上在我最近研究的InfluxDB上,可以得到充分的说明,以往的数据库对于时间问题只是作为业务集的一个附属,但InfluxDB作为工业物联网的专业数据库,对数序数据进行了按时间戳的聚合,那么这种时间戳就称为了时序数据结构的主角,通过delta-delta算法就实现了海量数据时间戳的高度压缩,列值也是按列式结构对相同字段和类型的值进行聚合,同样可以实现高度压缩。


第二,那么边缘侧和大数据平台后端到底是一种什么样的合作关系呢?其实道理很朴素:边缘侧尽量以数据源就近优势,减少实时数据的操作延时,大数据平台的后端就发挥强大的数据管理和计算协调能力。这句话怎么理解呢:这就有点类似边缘侧的数据中心只是大数据平台的一个前置高速缓冲区,如果是缓冲区,那么边缘侧就应该和云中心拥有统一的数据映像关系,这种数据映像无论是结构化数据文件也好,非结构化数据文件也好,数据映像哪怕传递给世界各地,对于边缘侧始终认为所有数据就在它们的跟前,实际上看到的只是一个数据平台对真实数据在边缘侧的一个映像池,当真正需要操作数据时再从大数据中心湖仓中传输并在边缘侧加以缓冲。

而且每次边缘侧都应该缓冲足够的数据进行操作,那么在边缘侧还应该有操作这些数据的元数据和计算方法,这两者一定是大数据平台后端统一管理,面向全世界的边缘点分布式分发和升级一致性。这样才能做到边缘侧和大数据平台后端在运行过程中的状态一致性,而不是变成了各自为政。


第三,边缘侧把实时数据写入缓冲区到一定时间和容量后,用数据压缩的形式同步给云中心,数据中心还要为边缘侧的数据访问请求,提供数据回流的缓冲,这叫双向缓冲机制,使得边缘侧在执行实时数据的查询计算,分析比对过程中可以充分利用大数据平台数据湖仓的历史数据,边缘侧从数据湖仓回流必要的数据,针对现场环境做分析计算,这要比什么都放到大数据平台后端自己分析计算省事得多,节省资源得多,通过并行性也快得多,甚至还精准得多。


第四,基于一致性的数据模型、方法和技术,那么就能在边缘侧形成快速的镜像能力,扩展一个新的边缘点,那么大数据后端很快为新的边缘点生成元数据镜像点,新的边缘点在现场连接好物理资源,并建立好系统运行结构之后,就快速加入到大数据后端的一个边缘计算节点,这种威力如果能显现,类似于在云计算中心快速建立一个虚拟节点一样容易。这就有点意思了。


第五,大数据平台的计算与数据湖仓变成了跨机房,跨机架的分布式平台大环境,依然按照就近原则建立与边缘侧的计算节点的网络通讯,减少网络通讯距离,只不过这种分布式架构更灵活,可以从一个机房任意快照其他机房的数据,形成机房资源快照的通讯关系。


第六,边缘侧这种架构真没必要把当下的无线通讯技术扯进来,在物联网的生产端,要想无线区域全覆盖,这种建设成本就太昂贵了,就算给土豪沙特的油田上5G,土豪也得算流量费够不够卖一桶油钱,总之低成本的网络铺设和流量费用降下来再谈边缘计算是比较靠谱的。另外还有一种手段:其实我现在特别关注马斯克的星链计划,通过降低卫星的发射成本,实现全球全覆盖的通讯技术手段,这是不是要比铺设基站搞地区全覆盖的建设成本低得多?总之边缘计算的前提是要靠国家的基础建设铺路才行!


相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
12月前
|
开发者 API 存储
自学HarmonyOS API 13记录:实现推送服务
老板突然要求我为新上线的App开发实时推送通知功能,使用HarmonyOS最新的API 13。尽管这是我首次接触HarmonyOS 13,我还是决定迎难而上。通过研究华为开发者官网的文档,我了解了PushCommon和PushService模块,并逐步实现了环境准备、推送注册、消息接收、自定义推送行为和资源清理等功能。最终,我成功开发了一个简单的推送通知Demo,不仅满足了需求,还深入掌握了HarmonyOS推送服务的架构。这次经历让我深刻体会到HarmonyOS API 13在推送服务上的改进,也感受到了现代服务架构的灵活性和高效性。希望这篇文章能帮助到更多学习HarmonyOS的开发者。
392 1
自学HarmonyOS API 13记录:实现推送服务
|
负载均衡 Java API
小红书商品详情API接口获取步骤
小红书商品详情API接口使用指南:先注册并实名认证获取权限,阅读API文档了解使用方法;通过编程调用API,构建请求参数,处理返回数据;注意高并发下的性能优化,确保安全合规;申请API权限,查阅文档,完成开发与调试。
|
12月前
|
JSON Unix 开发工具
【HarmonyOS】时间处理Dayjs
在项目中经常会使用要时间的格式转换,比如数据库返回一个Date数据,你需要转成2024-10-2的格式,鸿蒙的原生SDK中是没有办法实现的,因此,在这里介绍第三方封装好并且成熟使用的库Dayjs。
276 5
【HarmonyOS】时间处理Dayjs
包管理工具——npm实用教程 (修改下载源,安装依赖 -D -S -g ,卸载依赖等)
包管理工具——npm实用教程 (修改下载源,安装依赖 -D -S -g ,卸载依赖等)
374 0
|
存储 监控 Java
RegionServer 核心指标
RegionServer 是 HBase 集群中负责存储和处理数据请求的关键组件。监控其核心指标对确保集群性能和稳定性至关重要。主要指标包括进程存在性、内存使用、请求队列长度、读写性能、存储性能、Region 相关指标、磁盘使用、网络性能、GC 性能、Compaction 和 Flush 性能、WAL 使用情况、阻塞操作及慢查询日志。通过监控这些指标,可以及时发现并解决性能问题,确保 HBase 集群的高效运行。
|
数据可视化
8个常见的数据可视化错误以及如何避免它们
本文揭示了8个数据可视化常见错误:误导色彩对比、过多的数据图表、省略基线、误导性标签、错误的可视化方法、不实的因果关系、放大有利数据和滥用3D图形。强调清晰、准确和洞察力的重要性,提醒制作者避免使用过多颜色、一次性展示大量数据、错误图表类型以及展示无关相关性等。正确可视化能有力支持决策,不应牺牲真实性以追求视觉效果。
1384 6
|
微服务
微服务实践之使用 Visual Studio 2022 调试Dapr 应用程序
微服务实践之使用 Visual Studio 2022 调试Dapr 应用程序
179 2
|
JavaScript Java 关系型数据库
springboot+vue论坛管理系统(源码+文档)
这是一篇关于基于SpringBoot的论坛管理系统介绍,系统采用Java SpringBoot框架,搭配JDK1.8、MySQL 5.7+和前端技术如Node.js、Vue。系统架构包括管理员和用户两个主要角色,功能涵盖首页展示、用户和管理员登录注册、公告与帖子管理、分类管理、留言板、收藏管理、新闻资讯等。管理员可进行详细的操作如修改、删除和详情查看,用户则有基本的个人中心和信息修改功能。项目源码可通过联系风歌获取。
|
NoSQL 应用服务中间件 API
【重要】Nginx模块Lua-Nginx-Module学习笔记(三)Nginx + Lua + Redis 已安装成功(非openresty 方式安装)
源码地址:https://github.com/Tinywan/Lua-Nginx-Redis 一、 目标   使用Redis做分布式缓存;使用lua API来访问redis缓存;使用nginx向客户端提供服务,ngx_lua将lua嵌入到nginx,让nginx执行lua脚本,高并发,非阻塞的处理各种请求。
3947 0
|
存储 运维 Kubernetes
JIRA on K8s helm部署实战
JIRA on K8s helm部署实战
623 0