节省60%费用！巧用阿里云归档存储降低基因测序成本-阿里云开发者社区

节省60%费用！巧用阿里云归档存储降低基因测序成本

2017-05-27 6062

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

对象存储 OSS，OSS 加速器 50 GB 1个月

简介： “如果有款存储产品能在保证业务正常运行的时候节省60%的成本，我会毫不犹豫选择它”。我的工作是做生物基因测序的，我们公司很早就在云上搭建了数据分析平台（云的优势不多说了，省心省钱），数据通过采集设备生成后，会立即上传到云端进行预订的测序分析。

“如果有款存储产品能在保证业务正常运行的时候节省60%的成本，我会毫不犹豫选择它”。
我的工作是做生物基因测序的，我们公司很早就在云上搭建了数据分析平台（云的优势不多说了，省心省钱），数据通过采集设备生成后，会立即上传到云端进行预订的测序分析。当然了，考虑到算法更新，这些数据都是保存在云端的，有了新的分析方法就可以进行更多维度的分析，无需重新采集。
存储周期长是基因数据的特点，在采集后的最初几个月内会被频繁访问，对于数据实时的响应性要求极高。但经过开始的几个月后，原始数据访问频率就开始大幅下降，所以我们尽量会寻找不同访问特性的存储，去降低总存储成本。
之前我们用的一直是阿里云的OSS标准存储，虽然速度快、延迟低、吞吐能力强，但对我们业务的不同时期来说有些“性能过剩”。所以当我们看到阿里云新上线的归档存储OSSArchive的价格的时候，说句实话，挺惊讶的：毕竟这款产品比OSS便宜得多。然后又想到阿里云看的挺远，不免有些服气。
归档存储有多便宜呢？相比标准存储低了近60%，适用于长期（几年甚至更长时间）存储的归档数据取回。按照存储容量300TB来计算，如果使用归档类型存储一年是221184元，即使与300TB年存储包相比，也可节省11万元以上。

111

对基因行业，这是个非常大的惊喜，因为每个基因文件的大小在几GB到几十GB不等，随着基因测序的需求增加，存储规模增长非常快，其在总成本中占有的比例也在不断增大。
另一个吸引我的地方是归档存储采用的是OSS标准API，跟我们现有的数据管理与分析平台完全配套，无需进行平台改造。
归档存储的上手非常简单，我们经过了几天的方案验证后，很快完成了全新的业务架构搭建。
下面是一个归档类型Bucket创建、文件上传、查询、解冻与下载的简单流程：

1、创建归档类型的Bucket

首先通过控制台创建一个归档类型Bucket，当前阿里云OSS开放的是华北2（北京）区域，开通归档类型Bucket流程和其他存储类型Bucket是相同的。

22222

2、上传数据

OSS提供的ossutil工具可以自动根据文件大小适配上传模式，包括PUT 上传、分片上传。基因文件普遍都是GB级以上，需要通过分片机制，将大文件能够拆分成多个片段独立上传。

3、查询文件列表

OSS API和相关工具可以实时查询文件列表。

001

4、文件解冻

归档存储与标准类型在读取Object前，需要有一个Restore操作，按照OSSArchive文档中介绍，上传到归档类型的Object处于冷冻状态，需要先解冻后进入到可读取状态，Restore操作后需要等待1~4个小时的等待时间。

002

在Restore解冻过程中的Object会显示ongoing-request="true"。
解冻完成后，查询Object状态会显示解冻完成可以直接下载，expiry-date为过期时间，过期时间一到，Object会重新进入冷冻状态。

003

解冻操作是需要收取费用的，每解冻 1GB数据需要0.06元，所以不需要立即使用的Object还是让它安安静静的保存吧。解冻完成24小时后Object会重新回到冷冻状态，参考官网文档处于解冻状态下，可以通过多次调用Restore，使Object最长保持七天可读状态。

5、文件下载、读取分析

已经解冻的Object可以和标准类型的Object一样的下载方式。
对于基因数据的管理，我们对每个基因文件的元信息使用了数据库保存，每个基因文件都会记录上传时期和近半年内使用信息，对于上传时间超过一定时期并且长期没有访问的基因文件，会从标准类型的Bucket中迁移到归档类型Bucket。
归档存储类型总体使用下来的体验不错，也给OSS产品提个建议吧，希望后期能支持加入Restore解冻完成的事件通知，现在应用程序实现中都是每隔一小时去获取下Restore的状态。
来源：搜狐网
原文链接