基因,基因组,大数据
基因是带有遗传信息的DNA片段,储存着生命的种族、血型、孕育、生长、凋亡等过程的全部信息。
基因组是细胞内所有的遗传信息,这种遗传信息以核苷酸序列形式存储,由30亿个碱基对组成的基因组,蕴藏着生命的奥秘。
大数据是信息时代庞大的信息资产,以及对这些含有意义的数据进行专业化处理。如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
生命科学遇上信息科技,基因结合大数据,这一切就在人和未来发生。人和未来生物科技有限公司由一支北美青年科学家团队始创于圣地亚哥,自2009年开展基因检测临床转化研究,并于2014年正式在北京组建成立,是一家以基因科技为核心的医疗健康解决方案提供商。
不做跟随者,要做冒险家
2009年基因测序的浪潮在美国西海岸日益兴盛,美国圣地亚哥某实验室,一群来自Cornell、Yale、GoldmanSachs、IDG等知名高校及机构的年轻人聚在一起进行二代基因测序技术研究,抱着孤注一掷的勇气将所有的积蓄投入进去做了启动资金,希望有朝一日能将这份研究成果带回国,让基因科技普惠更多中国老百姓的同时,为国内基因技术赶超国际一流水平贡献一份力量。
2014年,国内基因检测行业的转折点已悄然来临——国家卫健委启动了基因检测的规范管理,行业即将迈入有序发展的快车道。传统的一切都亟待新的改变和发展,而最终澎湃的心让这群年轻人做出了归国创业的决定。同年,人和未来生物科技有限公司成立,基于生物技术和信息技术(BT+IT)双轮驱动,专注于基因检测前沿技术及基因大数据智能基础设施的开发,致力于成为精准医学整体解决方案服务商。
留在美国,意味着有成熟的市场环境和大量从事基因研究的科研人才;归国创业则必须做好面临各种市场、非市场问题的准备。“比起在现有的规则里做一个跟随者,做一个探寻未知市场的冒险家对于我们来说会更有吸引力。”
医疗行业信息化程度逐步提升,但基因大数据由于涉及与人类健康相关的各个领域,具有明显的多维、海量以及多源异构的特点,成为了数字化程度最低的一种数据类型。21世纪,基因数据已成为关系国家人口健康和生物安全的重要战略资源,“冒险家”们深知,不想被别人“卡脖子”,那就必须研发中国人自己的关键技术,让国产基因大数据技术和产品托起行业的蓬勃发展。
走出一条差异化“大道”
随着科技的进步,医疗健康行业正以搬山造海的势头迎来巨变,而变革的源头正是以基因大数据为代表的行业细分领域崛起。
在同行把业务重点放在基因测序、肿瘤靶向药物用药指导、肿瘤复发监测等主赛道之时,人和未来借助以BT(生物技术)+IT(信息技术)为基础的数据处理和分析能力,走上了一条差异化的“大道”。
测序技术不断升级,测序成本直线下降,测序通量越来越高……当下,基因测序已广泛应用在科研、临床、遗传优生、健康管理等多个领域。DNA数据正在激增,
孤立的、单个的数据分析形式越来越不能满足科研的需要,生物基因大数据的价值需要被更深入地挖掘。
在多方探索之下,人和未来技术团队研发出了GTX基因大数据智能基础设施。
1、GTX.ZIP能将FASTQ文件压缩到原来大小的2%,数据解压还要100%一致还原,在这样的极高倍率压缩技术的支持下,使用百兆网络,就能达到以千兆速度上传数据的效果,使得大规模测序数据上云及各科研机构间的交互成为可能。
2、GTX.FPGA能在18多分钟内完成人类全基因组数据分析,将全基因组计算带入百元时代。对比单台标准服务器,数据分析速度提高了90倍。
3、GTX.Digest则可以根据患者的基因型数据与表型信息,结合文本挖掘和人工智能技术进行基因解读,从而协助临床遗传专家快速发现和筛选致病突变。
“以前,想要在海量的数据中找到致病原因难度不异于海底捞针,而现在,通过技术的革新,人和未来将基因数据从下机到数据压缩、存储、传输、计算、分析、解读、挖掘等全流程,都串起来了。”
云上的健康守护
基因数据对算力的需求会随着样本量的增减而变化,本地服务器的部署难度较大。多了则会造成很大的成本浪费,少了则会影响业务开展。整合不同规格的计算资源,打通线上线下计算集群成为了基因企业最行之有效的方案。从创业初期到现在,阿里云伴随客户一起成长,人和借助阿里云FPGA云服务器算力更高、成本更低的优势,实现了将海量历史数据迁移上云,大大降低了本地高性能NAS的容量和性能压力。
基因数据从测序仪下机后,样本数据通过闪电立方或专线上传到云端的OSS对象存储中,再通过批量计算配合ECS计算集群完成基因测序与分析任务,阿里云强大的云计算与大数据能力为人和未来的业务发展保驾护航,卓越的计算能力随时为人和未来提供数百万核时的计算能力。人和未来已成功将公司的核心技术GTX.ZIP基因数据压缩以及GTX.FPGA基因数据加速计算部署在阿里云端上 。针对基因计算数据吞吐量大的情况,提供高IO的本地SSD规格实例提升性能,同时提供针对基因测序分析优化过的批量计算服务,通过缓存技术,调度优化,竞价实例等进一步降低计算成本。“批量计算”直面大计算挑战,帮助人和未来轻松完成海量数据并行计算任务。支持基于有向无环图轻松构建复杂工作流,结合批量计算独有的分布式缓存技术和OSS挂载功能,无需特别编程就可以实现稳定高效的大规模基因数据样本分析。“闪电立方”快速搞定网络传输! 以1PB(约100万GB)数据为例,普通的办公网络下全部上传需要10000多天,在1Gbps的专线下也需要100多天,借助“闪电立方”,仅需24小时就能完成1PB的数据迁移,大大提升了任何未来数据上云的效率。
未来,基因大数据将成为基因企业的核心资产。基于基因大数据智能基础设施GTX,为精准医疗在医疗机构的落地提供实验室管理、样本管理、科研支持、临床辅助决策等全栈式解决方案,将快速获取“数据、算力、知识”的能力赋予合作伙伴,是我们不懈的追求。