Vineyard 论文被 SIGMOD'2023 接收,助力计算引擎之间高效数据交换

本文涉及的产品
性能测试 PTS,5000VUM额度
云原生网关 MSE Higress,422元/月
任务调度 XXL-JOB 版免费试用,400 元额度,开发版规格
简介: Vineyard 论文被 SIGMOD'2023 接收,助力计算引擎之间高效数据交换

Vineyard (CNCF sandbox 项目)是脱胎于 GraphScope 底层存储、用于在复杂工作流中不同计算引擎之间进行高效数据交换的中间件,该工作的论文被数据库领域顶级学术会议 SIGMOD 2023 接收录用。


近日,CCF-A 类学术会议、数据库领域最为优秀的学术会议之一的 SIGMOD 2023(The 42nd ACM SIGMOD International Conference on Management of Data)Industrial Track 结果揭晓,致力于不同计算引擎之间进行高效数据交互的项目 Vineyard (v6d) 被成功接收!


Vineyard: Optimizing Data Sharing in Data-Intensive Analytics. Wenyuan Yu, Tao He, Lei Wang, Ke Meng, Ye Cao, Diwen Zhu, Sanhong Li, Jingren Zhou. The 42nd ACM International Conference on Management of Data (SIGMOD), Seattle, Washington, USA, June 2023.


真实的生产环境存在着大量的复杂的分析型作业:单个作业中包含若干子任务,而各个子任务可能属于不同的计算类型(例如 SQL、深度学习、图计算)。为了处理这些复杂的作业,往往将每个子任务分配到某个特定的计算引擎(例如将图计算任务分配到 GraphScope,将深度学习任务分配到 PyTorch)。为了在不同计算引擎之间进行中间结果的交换,目前通用的做法是将中间结果以文件的形式存储到外部存储中(例如本地磁盘、S3 和 OSS),但是这个过程会导致巨大的数据序列化/反序列化、I/O等开销,从而拖慢整个作业的执行时间。我们发现尽管不同的计算引擎往往对同一数据结构(例如 DataFrame、HashMap)有不同的实现,但是同一数据结构的接口则基本保持一致,而计算引擎的计算逻辑往往只关注数据结构提供的接口而非接口的具体实现。


基于这个观察,我们设计了 Vineyard (v6d),它允许用户向 v6d 注册自己的数据结构,在计算引擎与 v6d 中的数据结构进行对接后,计算引擎产生的中间结果以高层的 object 分享,使得计算引擎可以通过内存映射(memory mapping)和方法共享(method sharing)高效地进行数据分享。同时,为了降低计算引擎与 v6d 的集成难度,v6d 针对跨编程语言的计算引擎进行了针对性的优化。在真实数据集和作业中,v6d 与传统的通过文件和外部存储进行数据交换的方案相比,能够取得最高 68.4 倍的加速。


Vineyard 目前已经开源,并成为 CNCF sandbox 项目,点击此处即可获得 Vineyard 的进一步介绍和详细的文档以及源码。

相关文章
|
网络架构 网络协议 网络安全
带你读《计算机网络问题与解决方案:一种构建弹性现代网络的创新方法》之三:网络传输建模
本书分为三个主要部分,涵盖了数据传输、控制平面,以及具体设计(或者更确切地说是技术)场景。
|
9月前
|
机器学习/深度学习 人工智能 分布式计算
跨越时代的数据力量:大规模数据处理的技术突破
在信息爆炸的时代,大规模数据处理成为了推动科技进步的重要驱动力。本文将探讨大规模数据处理所涉及的技术突破,包括分布式计算、机器学习和人工智能等,以及其在各个领域的应用,展现数据的无限潜力。
|
9月前
|
机器学习/深度学习 人工智能 算法
机器学习第1天:概念与体系漫游
机器学习第1天:概念与体系漫游
|
网络协议 大数据 网络性能优化
大数据开发基础的计算机网络的体系结构和分层模型
在大数据开发中,计算机网络是一个非常重要的概念。了解计算机网络的体系结构和分层模型对于实现高效的大数据处理和传输十分关键。
161 0
|
存储 供应链 安全
OushuDB 小课堂丨零拷贝集成:小数据实践将如何取代大数据
OushuDB 小课堂丨零拷贝集成:小数据实践将如何取代大数据
86 0
|
存储 缓存 算法
《信息物理融合系统(CPS)设计、建模与仿真——基于 Ptolemy II 平台》——第3章 数据流 3.1同步数据流
Ptolemy II 能够使异构系统的开发和仿真一同进行,将开发和仿真作为整个系统建模的一部分。正如前两章讨论的那样,不同于其他设计和建模环境,Ptolemy II的一个关键创新在于支持多种计算模型,这些计算模型可被剪裁以适应具体的建模问题。
1648 0
|
机器学习/深度学习 Web App开发 测试技术
伯克利与微软联合发布:任意网络结构下的最优GPU通信库Blink
在分布式机器学习中,随着 GPU 的算力不断提升,GPU 之间的通信逐渐成为模型训练的瓶颈。为解决该问题,由微软研究院 (Microsoft Research),加州大学伯克利分校 (UC Berkeley),以及威斯康星大学麦迪逊分校 (University of Wisconsin-Madison) 的研究团队共同推出,在任意网络结构下,实现最优解的 GPU 间通信库 Blink。
392 0
伯克利与微软联合发布:任意网络结构下的最优GPU通信库Blink
|
SQL 机器学习/深度学习 存储
异构集群,统一计算 在微博机器学习平台的应用
内容简要: 一、微博机器学习平台简介 二、异构集群,多计算引擎–Before 三、异构集群,统一计算–Now 四、解决方案 五、机器学习流程自动化
异构集群,统一计算 在微博机器学习平台的应用
|
数据挖掘
带你读《SAS数据分析开发之道 软件质量的维度》第三章通信交流3.5并行处理通信交流(二)
带你读《SAS数据分析开发之道 软件质量的维度》第三章通信交流3.5并行处理通信交流
|
存储 数据挖掘 数据库
带你读《SAS数据分析开发之道 软件质量的维度》第三章通信交流3.5并行处理通信交流(一)
《SAS数据分析开发之道 软件质量的维度》第三章通信交流3.5并行处理通信交流