深势科技基于 Serverless 容器为科研人员打造高效的开发平台

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
简介: 深势科技基于 Serverless 容器为科研人员打造高效的开发平台

作者:李样兵、刘杉、木环、玖宇、鼎岳

云端的科学研究,AI for Science 新范式


以往科学家们的科研工作需要经过大量实验的重复验证、复杂数学计算,以及长年累月的不断试错和苦苦探索。云计算基础服务的发展和人工智能技术 AI 的兴起,也给科研领域带来了新转变。


2019 年,事件视界望远镜(EHT)团队公布了首张黑洞照片,这是全球 30 多个科研机构在云端协作的结果;团队成员可在全球调用各类云资源,数据处理周期从原本的数周压缩到数天。


哥伦比亚大学在云上进行气候科学研究,构建复杂的地球系统模型(ESM)模拟来理解模式并进行预测。利用卫星、无人机和传感器监测大陆、海洋和大气的不断增长的环境数据,来预测自然灾害和评估地球的状态。


北卡罗来纳大学教堂山分校和芬兰 Techila 合作将图形重建的时长从一个月缩短到 18 小时,原来本地个人电脑上需要进行一到两周的 MATLAB 40GB 的数学实验,转移到云上 100 个节点进行后只需要两三个小时。


深势科技很早就认准了 AI for Science 赛道,开创性地提出了「多尺度建模+机器学习+高性能计算」的革命性科学研究新范式,自研的计算平台服务为药物、材料领域带来极具突破性的计算模拟及设计工具。


深势科技科学计算平台——Bohrium® 科研云平台,致力于为科研人员提供开箱即用的计算环境,同时支持基于命令行和图形界面的任务提交方式。通过提供兼具速度与效率的微观模拟工具,Bohrium® 帮助研发人员进行光学、电学、磁学、力学的物理性质计算,并细致研究材料微观结构组分与作用机理。合金、电池、半导体、催化等材料的高通量理性设计正在 Bohrium® 平台中成为现实。



Bohrium® 提供开箱即用的计算环境,同时支持基于命令行和图形界面的任务提交方式。Bohrium® 实现了对多云、多超算计算资源的高效池化,兼具云上的高弹性与超算的高性能等特点。通过对任务的智能调度,平台为用户提供“多、快、省”的计算体验。


深势科技开发平台之难点与技术概览


Borhrium® 科学计算平台自 2018 年在阿里云构建,任务训练部分的技术架构方案基于 ACK Serverless 容器升级改造并平稳运行。随着业界对 AI for Science的认知与使用不断发展,深势科技希望能够对开发调试部分升级迭代,并实现一体化开发-训练流程。



在技术指标上,深势科技希望开发平台可以支持成百上千科研人员同时开启在线实验研究,至少具备以下四方面重要能力:


  • 支持 2000+ 人同时启用,且秒级快速开机关机能力;
  • 如遇到实验机异常,可以继续实验而不需要重新开始;
  • 平台无需大量支持人力投入、实现零技术支持与零运维成本;
  • 同时兼顾业务安全和主机安全。


最初,开发平台容器 AI 技术架构采用的是经典的容器服务 ACK 集群纳管云服务器 ECS 方式,而非 Serverless 容器模式。旧版方案存在两大问题:一方面,因为科研人员的开发周期较长,在过程中会数次开机关机,为了便于下次打开继续实验,需要通过容器镜像打包的方式保存环境,但是这样的关机时间过长且镜像会不断膨胀变得过大;另一方面,存在低概率的意外宕机情况,除非客户恰好在宕机前手动保存,否则信息、数据全部丢失,亟需能够帮助广大用户做到随时的自动保存。


总结而言,深势科技需求如下:



对应而言,其技术难点挑战是:


  • 大规模资源高并发请求

开发机支持快速启停和关机(秒级),最高希望支持 2000+ 位科研人员同时在线使用。开发机申请云端 CPU、GPU 资源,需要支持跨可用区、垮地域调度/重启,并且做到用户无感知。


  • 中途退出的环境保存

用户关机时能够释放实例资源,但需要保留用户容器数据和临时数据,以便于回溯。同时,由于用户误操作导致的容器重启甚至开发机实例被释放,也要保留重启/释放前容器环境和临时数据。支持重新启动开发机,并能继续进行之前中止的实验。


  • 镜像数据膨胀

解决传统开发机方案的数据增加问题,传统方案关机保存镜像,开机使用关机镜像恢复环境,多次开关机之后,镜像层数大小不断增加,带来额外成本。


  • 业务数据联动与自动管理

基于 ECI 的开发机不但需要访问阿里云的 NAS 还需要支持第三方的 JuiceFS 存储,并且需要支持两个存储之间自动的数据拷贝。


  • 多租环境的强隔离与稳定性

开发机和开发机之间要做到强数据、资源隔离;某一台开发机故障,或底层节点宕机,不影响其他开发机。


  • 运维便捷性

开发机支持不断迭代升级,并支持自动镜像缓存制作。


基于 Serverless 容器打造高效的科研开发平台


经过多次深入沟通,阿里云与深势科技共同敲定了如下的 Serverless容器解决方案:


整体架构设计上,开发机采用了跨地域多 K8s 集群方案,在确保整体的可靠性与容灾性的同时,能更大范围调度不同地域的算力资源;在 K8s 管控侧,选用阿里云容器服务 Serverless版( ACK Serverless ),可以免除很多运维负担,如无需维护节点池、无需预先缓存镜像、无需维护 K8s 组建托管等,底层 ECI 弹性容器实例相比传统云服务 ECS 可以快速启动与关闭,并且遵循 Serverless 按需使用、按需付费的理念;在应用镜像、AI 模型文件等制品管理上,选择阿里云容器镜像仓库企业版(ACR EE)一站式解决方案,可实现全球同步加速、大规模/大镜像分发加速,且与容器服务 ACK 无缝集成。


更值得一提的是,阿里云独家提供的 ACK Fluid 方案可以无缝接入第三方存储挂载,并提供多用户数据安全共享隔离功能。同时,ACK Fluid 还实现了数据管理的自动化,进一步提升了系统的效率和易用性。


科研开发平台的 Serverless 容器方案架构图


对于重启/释放后异常点可恢复的诉求,即仍保留容器环境和临时数据以便于查看或者再继续实验,可以参考如下的 CRD 生命周期设计。在开发机的生命周期中,开机、关机和重启均可以做到 20s 内,同时,通过 ACK Fluid 支持数据挂载到 ECI 的时长缩短到 5s 以内(包括阿里云 NAS 和第三方存储)。



经过两方的配合和沟通,最终基于 Serverless 容器的 AI 开发平台方案实现了如下效果:


  • 大规模 POD 弹性能力,同时开启 2000+ 台开发机
  • 资源利用率提升 30%,按需付费,提供丰富可用的资源
  • 异常后,恢复宕机时间点数据
  • 基于 ECI 实现秒级随用随开,支持环境保存
  • 相较传统的 K8s 形态,ACK Serverless 无需维护服务器与镜像缓存
  • 通过 ACK Fluid 无缝数据接入第三方存储方案,同时支持多用户数据安全共享隔离,以及定时不同存储系统间的数据同步


未来,怀梦前行


目前开发机的 Serverless 容器方案已经基本满足预期,后续运营期还需要持续关注和提高整体项目的健壮性:优化整体项目的上下游瓶颈依赖(比如 API 调用频率和流控),构建完善的异常情况兜底方案。


深势科技技术架构师李样兵说道:“感谢阿里云团队的专业的技术实力和敬业精神:针对业务痛点,共克技术难关,探索前沿技术方案,结合 Serverless 容器架构, 打造了行业领先的科研开发平台。”


此外,进一步探讨尝试云原生架构下的多地/多类型资源统一管理与效率优化,实现基于 K8s 的统一管理、调度多种集群资源,并给予 Fluid Dataset 实现统一接入云原生存储、加速和管理异构/异地的数据方案。


如今,Bohrium® 科研云平台运行平稳,已经为很多科研人员提供了良好支撑:


武汉大学与南方科技大学的研究团队,在液态金属领域取得重要进展,为新型材料高熵合金的原子级可规模化、可定制化的精准制造打下基础。


中国科学院地球化学研究所理论团队与合作者基于 Bohrium® 探索地球内核各向异性新机理,为内核复杂的各向异性和不均一结构成因提供了全新解释。


北京大学数学科学学院和材料科学与工程学院、北京科学智能研究院、深势科技联合宁德时代 21C 创新实验室采用深度势能方法研究硅基负极在脱嵌锂过程的相变和结构演化,并取得重要进展。


深势科技继续为 “AI for Science” 革命性科学研究新范式而不懈努力,运用人工智能和多尺度的模拟仿真算法,结合先进计算手段求解重要科学问题,为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。

相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
相关文章
|
5月前
|
监控 Serverless 文件存储
函数计算产品使用问题之如何确保新建的实例拉取的是最新的自定义容器镜像
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
2月前
|
云安全 安全 Serverless
Serverless 安全新杀器:云安全中心护航容器安全
Serverless 安全防护能力除了支持目前既定的等保合规(漏洞扫描、入侵检测、基线检测等)、安全隔离的能力外还支持 WAF 防火墙、支持通信加密、操作审计、权限管控等能力,也正是有了这些能力的加持,SAE 才能很好的服务了金融、政企、医疗等行业的客户;Serverless(SAE)未来还计划规划更多安全能力为企业保驾护航,包括:代码安全扫描、加密、堡垒机、最小权限、身份与访问管理、以及更多的攻击防护等能力的建设。
|
3月前
|
弹性计算 运维 Serverless
函数计算产品使用问题之容器镜像该如何使用
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
3月前
|
关系型数据库 Serverless 分布式数据库
揭秘PolarDB Serverless:大促洪峰秒级应对,无感伸缩见证科技魔法!一探云数据库管理的颠覆性革新,强一致性的守护神来了!
【8月更文挑战第13天】在云计算背景下,阿里巴巴的云原生数据库PolarDB Serverless针对弹性伸缩与高性能一致性提供了出色解决方案。本文通过一个电商平台大促活动的真实案例全面测评PolarDB Serverless的表现。面对激增流量,PolarDB Serverless能秒级自动扩展资源,如通过调用`pd_add_reader`快速增加读节点分摊压力;其无感伸缩确保服务平滑运行,不因扩展中断;强一致性模型则保障了数据准确性,即便在高并发写操作下也确保库存等数据的同步一致性。PolarDB Serverless简化了数据库管理,提升了系统效能,是追求高效云数据库管理企业的理想选择。
99 7
|
4月前
|
安全 容灾 Serverless
云上应用管理问题之为什么很多业务会采用包年包月 + 按量付费的混合付费方式
云上应用管理问题之为什么很多业务会采用包年包月 + 按量付费的混合付费方式
|
4月前
|
缓存 Serverless 容器
函数计算操作报错合集之在创建容器时遇到报错,如何处理
在使用函数计算服务(如阿里云函数计算)时,用户可能会遇到多种错误场景。以下是一些常见的操作报错及其可能的原因和解决方法,包括但不限于:1. 函数部署失败、2. 函数执行超时、3. 资源不足错误、4. 权限与访问错误、5. 依赖问题、6. 网络配置错误、7. 触发器配置错误、8. 日志与监控问题。
|
4月前
|
缓存 Serverless Docker
函数计算操作报错合集之如何解决读取容器镜像时,报错:"Unable to read image blob"
在使用函数计算服务(如阿里云函数计算)时,用户可能会遇到多种错误场景。以下是一些常见的操作报错及其可能的原因和解决方法,包括但不限于:1. 函数部署失败、2. 函数执行超时、3. 资源不足错误、4. 权限与访问错误、5. 依赖问题、6. 网络配置错误、7. 触发器配置错误、8. 日志与监控问题。
|
4月前
|
人工智能 Kubernetes Serverless
容器计算服务问题之阿里云在Serverless和AI大模型方面有哪些进展
容器计算服务问题之阿里云在Serverless和AI大模型方面有哪些进展
|
4月前
|
人工智能 Serverless API
函数计算产品使用问题之如何在一个Docker容器内运行一个持续监听特定端口的应用程序
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
3月前
|
Cloud Native Serverless 异构计算
Serverless 架构问题之AWS Lambda在容器镜像层面的进展如何解决
Serverless 架构问题之AWS Lambda在容器镜像层面的进展如何解决
42 0
下一篇
无影云桌面