节省60%费用!巧用阿里云归档存储降低基因测序成本

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: “如果有款存储产品能在保证业务正常运行的时候节省60%的成本,我会毫不犹豫选择它”。 我的工作是做生物基因测序的,我们公司很早就在云上搭建了数据分析平台(云的优势不多说了,省心省钱),数据通过采集设备生成后,会立即上传到云端进行预订的测序分析。

“如果有款存储产品能在保证业务正常运行的时候节省60%的成本,我会毫不犹豫选择它”。
我的工作是做生物基因测序的,我们公司很早就在云上搭建了数据分析平台(云的优势不多说了,省心省钱),数据通过采集设备生成后,会立即上传到云端进行预订的测序分析。当然了,考虑到算法更新,这些数据都是保存在云端的,有了新的分析方法就可以进行更多维度的分析,无需重新采集。
存储周期长是基因数据的特点,在采集后的最初几个月内会被频繁访问,对于数据实时的响应性要求极高。但经过开始的几个月后,原始数据访问频率就开始大幅下降,所以我们尽量会寻找不同访问特性的存储,去降低总存储成本。
之前我们用的一直是阿里云的OSS标准存储,虽然速度快、延迟低、吞吐能力强,但对我们业务的不同时期来说有些“性能过剩”。所以当我们看到阿里云新上线的归档存储OSSArchive的价格的时候,说句实话,挺惊讶的:毕竟这款产品比OSS便宜得多。然后又想到阿里云看的挺远,不免有些服气。
归档存储有多便宜呢?相比标准存储低了近60%,适用于长期(几年甚至更长时间)存储的归档数据取回。按照存储容量300TB来计算,如果使用归档类型存储一年是221184元,即使与300TB年存储包相比,也可节省11万元以上。

111

对基因行业,这是个非常大的惊喜,因为每个基因文件的大小在几GB到几十GB不等,随着基因测序的需求增加,存储规模增长非常快,其在总成本中占有的比例也在不断增大。
另一个吸引我的地方是归档存储采用的是OSS标准API,跟我们现有的数据管理与分析平台完全配套,无需进行平台改造。
归档存储的上手非常简单,我们经过了几天的方案验证后,很快完成了全新的业务架构搭建。
下面是一个归档类型Bucket创建、文件上传、查询、解冻与下载的简单流程:

1、创建归档类型的Bucket

首先通过控制台创建一个归档类型Bucket,当前阿里云OSS开放的是华北2(北京)区域,开通归档类型Bucket流程和其他存储类型Bucket是相同的。

22222

2、上传数据

OSS提供的ossutil工具可以自动根据文件大小适配上传模式,包括PUT 上传、分片上传。基因文件普遍都是GB级以上,需要通过分片机制,将大文件能够拆分成多个片段独立上传。

3、查询文件列表

OSS API和相关工具可以实时查询文件列表。

001

4、文件解冻

归档存储与标准类型在读取Object前,需要有一个Restore操作,按照OSSArchive文档中介绍,上传到归档类型的Object处于冷冻状态,需要先解冻后进入到可读取状态,Restore操作后需要等待1~4个小时的等待时间。

002

在Restore解冻过程中的Object会显示ongoing-request="true"。
解冻完成后,查询Object状态会显示解冻完成可以直接下载,expiry-date为过期时间,过期时间一到,Object会重新进入冷冻状态。

003

解冻操作是需要收取费用的,每解冻 1GB数据需要0.06元,所以不需要立即使用的Object还是让它安安静静的保存吧。解冻完成24小时后Object会重新回到冷冻状态,参考官网文档处于解冻状态下,可以通过多次调用Restore,使Object最长保持七天可读状态。

5、文件下载、读取分析

已经解冻的Object可以和标准类型的Object一样的下载方式 。
对于基因数据的管理,我们对每个基因文件的元信息使用了数据库保存,每个基因文件都会记录上传时期和近半年内使用信息,对于上传时间超过一定时期并且长期没有访问的基因文件,会从标准类型的Bucket中迁移到归档类型Bucket。
归档存储类型总体使用下来的体验不错,也给OSS产品提个建议吧,希望后期能支持加入Restore解冻完成的事件通知,现在应用程序实现中都是每隔一小时去获取下Restore的状态。
来源:搜狐网
原文链接

目录
相关文章
|
Java Apache Spring
springboot如何导出Excel某个表的表字段以及字段类型
springboot如何导出Excel某个表的表字段以及字段类型
518 0
|
9月前
|
算法 搜索推荐 API
微信加人太频繁被限制怎么办?
微信加人限制的技术背景 微信为
|
监控 安全 网络安全
中间人攻击之SSL剥离
【8月更文挑战第12天】
790 1
|
存储 传感器 监控
《探秘鸿蒙Next:模型轻量化的能源效益衡量之道》
在鸿蒙Next生态中,模型轻量化显著提升设备能源效益。通过功耗指标(CPU、GPU、整体设备)、运行时间与能耗比值、电池续航(实际场景和极端测试)、散热情况(温度变化、散热能耗)及资源占用(内存、存储)的综合衡量,可全面评估轻量化模型对能源效率的优化效果,为设备性能提升提供依据。
430 10
《探秘鸿蒙Next:模型轻量化的能源效益衡量之道》
ly~
|
传感器 存储 供应链
大数据在供应链管理中的具体应用案例
以下是大数据在供应链管理中的具体应用案例:沃尔玛通过整合内外部数据进行需求预测,提前调配应急物资;亚马逊利用大数据优化库存管理,提高周转率并降低成本;DHL通过传感器收集数据优化物流路线,提升运输效率。大数据的优势在于提高需求预测准确性、优化库存管理、提升物流效率、增强供应商管理和提高供应链可视性,从而实现全方位的供应链优化。
ly~
3533 2
|
存储 NoSQL Java
流计算需要框架吗?SPL 可能是更好的选择
流数据源的动态无界特性使得传统数据库技术难以直接处理,而Heron、Samza、Storm、Spark、Flink等计算框架在流计算领域取得了先发优势。然而,这些框架往往侧重于访问能力,计算能力不足,尤其在高级计算如流批混算、复杂计算和高性能计算方面表现欠佳。esProc SPL作为基于JVM的轻量级开源计算类库,专注于提升流计算的计算能力,支持丰富的流数据访问、灵活的集成接口和高效的内外存存储格式,具备强大的高级计算功能,能够简化业务逻辑开发并适应多样的应用场景。SPL通过专业的计算语言和结构化数据处理能力,为流计算提供了更优的解决方案。
|
存储 编译器 内存技术
【计算机组成原理】中央处理器
【计算机组成原理】中央处理器
869 1
【计算机组成原理】中央处理器
|
算法 网络协议 数据安全/隐私保护
NTP网络时间同步协议详解
NTP协议是互联网上用于同步计算机时间的标准,它利用分布式时间服务器网络,通过分层管理和本地路由算法确保时间的准确性。协议涉及时间偏差、延迟和差量三个概念,用于测量与参考时钟的同步状态。基本NTP数据包包含48字节,如头部和时间戳,关键字段如跳跃指示器(LI)、版本号(VN)、模式(Mode)、层次(Stratum)等影响同步过程。协议还包括时间戳以记录不同阶段的时间点。NTP认证可选,用于数据安全。
NTP网络时间同步协议详解
|
缓存 分布式计算 监控
算法优化:提升程序性能的艺术
【10月更文挑战第20天】算法优化:提升程序性能的艺术
|
存储 人工智能 关系型数据库
PolarDB 与 AI/ML 集成的应用案例
【8月更文第27天】随着大数据和人工智能技术的发展,越来越多的企业开始探索将关系型数据库与 AI/ML 技术相结合的方式,以提高数据分析效率和业务智能化水平。阿里云的 PolarDB 是一款高性能的关系型数据库服务,支持多种数据库引擎,如 MySQL、PostgreSQL 和 Oracle。通过与阿里云的其他 AI/ML 服务集成,PolarDB 能够为企业提供端到端的数据处理和分析解决方案。
553 0

热门文章

最新文章