带你读《生命科学行业云上解决方案及最佳实践》——中山大学医学院,云上 HPC 加快新冠致 病症因素研究进程

简介: 带你读《生命科学行业云上解决方案及最佳实践》——中山大学医学院,云上 HPC 加快新冠致 病症因素研究进程

1 客户介绍

在国内疫情肆虐之际,中山大学医学院通过与多家医院、疾控中心等合作,计划获取超过千名武汉市新冠患者的核酸样本,以及部分病人的全病程数据,希望通过基因组测序及测序数据分析,阐述冠状病毒的起源、进化和致重症机制。


中山大学医学院使用宏转录组的方法,期望从原始样本中挖掘得到所有关键的遗传信息。科学家们通过分析这些遗传信息重现病原体感染、宿主免疫和机体内环境相互作用的动态过程,寻找导致机体重症的关键因素。此外,科学家会将分析后的临床信息、病毒信息、基因组信息和实验结果数据汇总,构建新冠感染相关大数据,帮助研究病毒起源,也方便后续研究。


2 业务痛点

在研究过程中,科学家首先需要通过高通量基因测序平台,对原始样本进行测序,获得样本中包括病毒、细菌和宿主的完整遗传信息。遗传信息的拼装和比对需要高性能计算进行处理,海量的数据更是需要大规模算力。


本次实验处理的病例超过 1000 人,一般病例至少采集两份数据,单份数据就有 2~3G,部分病例为了采集全病程数据还采样数十次,还要再加上对照组信息。同时,中山大学的科学家还需要下载美国国家生物信息中心 NCBI(National Center for Biotechnology Information)中的约 8000 个样品进行比对,其产生的数据之海量可想而知。


3 解决方案和价值

通过阿里云弹性高性能计算(E-HPC)一键部署 HPC 集群环境,根据需求动态增减集群节点,免去了研究人员们针对服务器的管理和维护,不需要在运维上耗费过多精力,只需专注在研究上。

image.png

同时,阿里云弹性高性能计算(E-HPC)团队协助中山大学使用阿里云计算服务进行生信科学计算,提供 104 核处理器,相比线下服务器,数据组装、比对性能提升 25% 以上。


在性能与资源的双重支持下,原本每个病例的测序结果需要 12 个小时左右的分析时间,在阿里云上缩减到了 2 个小时。原本需要 1 年的运算量缩减到了约 2 个月时间,大大提高了工作效率,加快了研究进程,也为抗疫赢得了时间。


结束语

生命科学行业目前迎来巨大的发展机遇,云上 HPC 为生命科学行业带来新途径。同时 AI 在分子动力学等领域也极大地提升模拟速度,如AlphaFold2。AI for Science 正在迎来巨大的发展机遇,促进行业发展。云计算可以为生命科学行业提供安全、可靠、高效的平台,将企业从计算资源管理和运维中释放出来,进一步推动行业的技术发展和效率提升。生命科学行业上云是未来必然的发展趋势,相信未来在生命科学行业上云的浪潮中,可以更加清楚云上 HPC 带给行业的价值。


image.png

相关文章
|
分布式计算 安全 Hadoop
HBase启动时有进程webUI不显示HRegionServer各种情况解决方案
HBase启动时有进程webUI不显示HRegionServer各种情况解决方案
384 0
|
3月前
|
监控 开发者 Perl
探索研究Perl 进程管理
【9月更文挑战第21天】
29 6
|
4月前
|
消息中间件 算法 安全
操作系统处理多进程的问题及解决方案
【8月更文挑战第23天】
278 1
|
6月前
|
Python Windows
在 Windows 平台下打包 Python 多进程代码为 exe 文件的问题及解决方案
在使用 Python 进行多进程编程时,在 Windows 平台下可能会出现将代码打包为 exe 文件后无法正常运行的问题。这个问题主要是由于在 Windows 下创建新的进程需要复制父进程的内存空间,而 Python 多进程机制需要先完成父进程的初始化阶段后才能启动子进程,所以在这个过程中可能会出现错误。此外,由于没有显式导入 Python 解释器,也会导致 Python 解释器无法正常工作。为了解决这个问题,我们可以使用函数。
140 5
|
5月前
|
监控 NoSQL 安全
【亲测有效】connection refused报错 为什么redis 进程突然挂掉,频繁出现redis 进程突然挂掉情况解决方案
【亲测有效】connection refused报错 为什么redis 进程突然挂掉,频繁出现redis 进程突然挂掉情况解决方案
304 0
|
机器学习/深度学习 算法
【2023年更新计划】matlab相关机器学习应用研究计划及进程
【2023年更新计划】matlab相关机器学习应用研究计划及进程
|
SQL 运维 Oracle
【大数据开发运维解决方案】ogg(GoldenGate)三大进程常用参数
PORT 7809 管理进程的监听端口,默认使7809,当7809不可用时会从DYNAMICPORTLIST定义的列表中选择一个可用的端口,主要用于本地goldengate进程之间的通信 DYNAMICPORTLIST 7810-7860 动态端口,可以指定最大256个可用端口列表,用于主端和备端的进程通信,当目标端有防火墙设置时或者主端的投递进程传送数据要经过防火墙(就是主端有防火墙设置时)才能到达备端时,需要在网络上开通指定的端口。源端和目标段的Collector、Replicat、GGSCI进程通信也会使用这些端口,指定足够的端口去容纳进程数的扩张,这样就不需要停止和重启管理器进程
【大数据开发运维解决方案】ogg(GoldenGate)三大进程常用参数
|
SQL 运维 大数据
【大数据开发运维解决方案】GoldenGate replicat进程延迟分析步骤
GoldenGate几乎支持市面上流行的所有主流的操作系统平台和数据库。 博主所在单位目前使用Oracle GoldenGate将各个业务生产库汇聚到一起做数仓***实时ODS平台***, 我们采用异构同步,即源端同步过来的表在ODS新增了一个etltime字段,用来记录当前数据变更时间。 为了记录数据的事务变更历史记录,我们将数据的变更记录映射同步到一张tab_name_audit表中。为了防止源端业务库误删数据,我们将被删除的数据映射同步到一张tab_name_his表中。原表映射到ods后还是正常的映射同步dml操作。
【大数据开发运维解决方案】GoldenGate replicat进程延迟分析步骤
|
运维 Oracle 关系型数据库
【大数据开发运维解决方案】kill占用指定端口进程(定时自动重启weblogic脚本)
上面是总结的定时自动重启weblogic脚本以及如果不慎用root启动weblogic后如何恢复oracle用户的运维。 1、通过ps-ef |grep命令找到想要杀死的进程信息,然后配合awk和sed组织好要杀死的进程清单对应的shell语句,并通过sh命令自动执行kill: ps -ef |grep /home/apache-tomcat-7.0.76/|awk 'NR>1 {print $2}' | sed -e "s/^/kill -9 /g" | sh -
【大数据开发运维解决方案】kill占用指定端口进程(定时自动重启weblogic脚本)
|
JSON Dart 安全
【Flutter框架】项目的手动序列化小项目以及对于进程异步性和格式化代码的研究
【Flutter框架】项目的手动序列化小项目以及对于进程异步性和格式化代码的研究