[Google] Baseline工程把基因大数据化

简介:

Google 在下一盘大棋。


纵观几年,谷歌苹果三星微软几家巨头在健康领域投入越来越大,势头愈加生猛。据华尔街日报报道,紧接无人驾驶汽车,隐形眼镜式血糖仪,高原气球网络服务,Google俨然开始了一项自公司成立以来最具野心,最为困难的科学项目,一个“登月”工程。Google X 实验室开始了 Baseline“基线”项目,大量收集人类基因组标本并利用大数据合成一份完美的健康人类基因图谱,为多种疾病的提早发现及治疗提供前提。


基线工程的第一步是采集175个参与者的匿名基因和分子信息,取样包括基因排序,血液,唾液,眼泪,尿液,以及参与者的食物及药物代谢信息,心率,家族病史等,第一波测量过后,参与者将佩戴可穿戴测量设备,持续提供体征信息。Google将通过第三方的隐私过滤得到匿名的基因组信息。下一步将把实验群体扩大到数千人,获得更多更广的基因数据。


项目领导者分子生物学家安德鲁·康拉德(Andrew Conrad)2013年3月加盟Google,现在已经建立起了一支70-100人的队伍,包括生理,生物化学,成像和细胞生物学的专家。康拉德认为基线工程处在刚刚起步阶段,基因图谱的制作和分析是一项极其艰难的工作,我们对于DNA,蛋白,酶类间的相互关系和外界的影响知之甚少,但随着掌握的数据量增多,依赖Google 强大的大数据计算能力,研究者们可以从海量的基因组数据中获得生物标记(biomarker)的规律,而这些生物标记将对预防,治疗,制药领域产生强大的引领和促进作用。


举例来说,每个人对于食物脂肪的代谢功能都是不一样的,部分人的基因组中缺乏帮助人体代谢多余食物脂肪的生物标记,从而导致早年的心血管疾病,通过数据收集,研究者们可以准确的定位生物标记在基因中的位置,确定新病人是否缺乏这段标记,及时做出准确的治疗和饮食推荐。大量减少心血管疾病的发生。

既然基因组的作用如此强大,在Google之前为什么没有人开始同样的收集工作呢?原因很简单,没钱没时间。人类的基因组及其庞大,一个基因组由十万以上的基因分段组成,每个基因段又由成百上千个核苷酸配对组成,放在几十年前,受集一份整套的基因组的工作量是不可想象的。2001年,第一份基因组才被排序成功,而在十年前,单单一份基因排序需要一亿美金,随着排序技术的发展,如今只需要1000美金就可以完成。但一般的公司和个人还是支付不起系统性收集基因组的。记着之前在学校学起DNA排序时,十分激动的问生物老师我们要是收集几万人的DNA后通过大数据岂不是可以把人体的秘密通通展现出来,老师淡然一笑:好想法,你有钱吗?


我没有,但是Google财大气出,魄力十足。


有人可能会好奇当今基因排序技术的准确度,老实说,不是很高,Emory大学的神经学系主任Allan Levey在讲座中劝告听众不要盲目花钱做基因排序,提到一位老友的故事:50岁后这位仁兄去做了一个基因排序以防基因病来得错手不急,结果发现他的APP基因突变了,这个基因突变理论上必然导致老年痴呆症(Alzheimer’sDisease),结果老兄丧气地找到Levey 教授寻求解释,经过一番测试后发现他已经过了开始发病年龄却一点症状没有,后来发现是基因排序出了差错。这类事件时有发生,但是终归是针对个人案例的。大数据的绝对优点就是海量数据弥补个别差错。或许基线工程的第一波实验结果会出现不准确的风险,但是几年后,当实验群扩张到千人甚至万人的时候,通过计算足以剔除DNA中的大量无用分段和错误信息,将研究者的目光直接导向致病的基因段。人类的健康基因图谱将得到越来越多的完善,接近完美。


那么关于老生常谈的隐私问题呢?Google 已经建立起当今世界上最为强大的电脑和信息网络来支撑搜索引擎和YouTube这样强劲的数据捕获手段,今年年底又要利用安卓涉足穿戴式设备领域,数据的掌控量之恐怖,自然会让我们不放心Google获得大量的基因组数据。康拉德在采访中提到Google将与斯坦福和杜克大学的医学院合作,两个大学将把基线工程参与者的身份信息抹掉,把匿名数据交给Google,听起来让人稍稍安心一些,但仔细想想,那些被抹掉的也只是参与者的信息,Google获得的却是人类身体中最为珍贵的秘密,如果Google不将这些计算后的结果公开,而单独和几家制药公司分享,我们作为普通老百姓可能一点办法没有,任由巨头们把我们的弱点和需求看个透。


Google创始人之一拉里佩奇(Larry Page) 多次提到大数据在健康和医药领域的巨大潜能,常常不忿隐私法律对于人体数据获取的制约,现在来看,Google可能在建立一个独立的庞大数据池,仅供自己所用,直接绕过隐私法获得数据,为其数据计算能力找到了新的用武之地。我们只能寄希望于斯坦福和杜克为大众把好隐私关,制约Google的数据用法和走向。


Google在让我们更清晰的了解自己身体秘密的同时,是否正在将我们趋向一个没有隐私的时代,我们不得而知,只能猜想和等待。


原文发布时间为:2014-07-28

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
弹性计算 分布式计算 大数据
阿里云计算平台大数据基础工程技术论文入选 VLDB 2023
近日,在 VLDB 2023 上,由阿里云计算平台大数据基础工程技术团队主导,与计算平台 MaxCompute 团队、华东师范大学数据科学与工程学院、达摩院合作的论文入选 Industrial Track
|
6月前
|
数据采集 人工智能 算法
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
234 1
|
10月前
|
机器学习/深度学习 运维 算法
大数据基础工程技术团队4篇论文入选ICLR,ICDE,WWW
大数据基础工程技术团队4篇论文入选ICLR,ICDE,WWW
149 0
|
机器学习/深度学习 运维 大数据
【KDD2024】大数据基础工程技术集群异常检测论文入选
阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《Cluster-Wide Task Slowdown Detection in Cloud System》被数据挖掘领域顶会ACM SIGKDD2024接收
|
SQL 监控 大数据
"解锁实时大数据处理新境界:Google Dataflow——构建高效、可扩展的实时数据管道实践"
【8月更文挑战第10天】随着大数据时代的发展,企业急需高效处理数据以实现即时响应。Google Dataflow作为Google Cloud Platform的强大服务,提供了一个完全托管的流处理与批处理方案。它采用Apache Beam编程模型,支持自动扩展、高可用性,并能与GCP服务无缝集成。例如,电商平台可通过Dataflow实时分析用户行为日志:首先利用Pub/Sub收集数据;接着构建管道处理并分析这些日志;最后将结果输出至BigQuery。Dataflow因此成为构建实时数据处理系统的理想选择,助力企业快速响应业务需求。
699 6
|
机器学习/深度学习 运维 算法
大数据基础工程技术团队4篇论文入选ICLR,ICDE,WWW
近日,由阿里云计算平台大数据基础工程技术团队主导的四篇时间序列相关论文分别被国际顶会ICLR2024、ICDE2024和WWW2024接收。
|
机器学习/深度学习 运维 算法
|
SQL 存储 人工智能
Google BigQuery深度解析:云端大数据分析服务的威力
【4月更文挑战第8天】本文是关于Google Cloud Platform的BigQuery在大数据和云技术领域的应用分析。BigQuery的核心特性包括无服务器、全托管架构,实现高性能的超大规模并行处理,并严格遵循安全与合规标准。在实战应用中,它用于数据湖分析、机器学习与AI,以及实时数据分析与BI。BigQuery的极致性能、易用性和与GCP生态的整合,使其成为云端大数据分析的强大工具,适用于各种行业场景,帮助企业释放数据价值。作者将持续分享相关技巧和最佳实践。
1741 0
|
存储 弹性计算 大数据
【云计算与大数据技术】Google、亚马逊、IBM、阿里云等云计算应用平台介绍讲解(超详细)
【云计算与大数据技术】Google、亚马逊、IBM、阿里云等云计算应用平台介绍讲解(超详细)
772 0
|
人工智能 运维 Cloud Native
SREWorks云原生数智运维工程实践-SREWorks 介绍篇-阿里云原生大数据运维平台SREWorks正式开源(上)
SREWorks云原生数智运维工程实践-SREWorks 介绍篇-阿里云原生大数据运维平台SREWorks正式开源
594 0

推荐镜像

更多