利用 Hi-C 挖掘癌症结构变异 (1)

简介: 利用 Hi-C 挖掘癌症结构变异 (1)

摘要

结构变异(SVs)是大型基因组重排,由于基因组重复序列和复杂 SV 结构等各种混淆因素的存在,当前使用短读长测序技术进行识别颇具挑战。Hi-C breakfinder 是首个利用高通量染色质构象捕获测定(Hi-C)技术来系统识别 SVs 的计算工具,不受常规混淆因素干扰。SVs 会改变基因组区域的空间距离,并在 Hi-C 中产生不连续信号,这些信号通过常规信息学实践难以分析。在此,我们提供逐步指导,说明如何使用 Hi-C 数据识别 SVs,以及如何在存在 SVs 的情况下重建 Hi-C 图谱。

本文介绍基础概念,下一节进行实战分析!

结构变异

结构变异(SVs)是包括倒位、缺失、重复、非整倍体、易位和染色质碎裂在内的大规模基因组重排。每个正常个体基因组都可能携带数千个种系 SVs。尽管其中大多数对人类健康影响中性,但一小部分种系 SVs 若破坏已知肿瘤抑制基因(如 BRCA2 与 ATM)则可能使个体对特定癌症易感。与此同时,大多数癌症基因组中都可见大量体细胞 SVs。癌基因激活事件已被确认为复发性 SVs 的产物,例如涉及 ABL1 与 MLL1 的易位诱导基因融合事件,可驱动白血病的发展。SVs 已在临床提供了明确的诊断与预后信息,并成为药物疗法的成功靶点。

检测方法

SVs 可以通过多种技术进行检测。历史上,核型分析、荧光原位杂交和微阵列曾被广泛使用。由于它们的通量和分辨率有限,近年来,基于全基因组高通量测序的技术(如 whole genome sequencing, WGS)已成为 SV 检测的诱人替代方案。尽管 WGS 已取得成功,但它受限于对短序列读长的依赖,导致基因组的结构连续性大量丢失,因此需要一种新方法,能够以可承受的成本有效识别基因组重复序列中的 SVs 并解析复杂的 SV。2018 年,最初为描绘染色质空间结构而发明的高通量染色体构象捕获技术Hi-C首次被用于 SV 检测。

Hi-C

Hi-C 之所以能够检测 SV,归功于其独特的实验设计。首先用交联剂固定细胞,以保存染色质的空间结构;随后用限制酶切断 DNA。DNA 断端经生物素标记并用 DNA 连接酶处理,使得空间上彼此邻近的 DNA 片段更易重新连接,并可通过生物素亲和富集。接着进行解交联,使重新连接的 DNA 与蛋白质分离。最后,以这些 DNA 构建测序文库并进行测序,产生数亿条测序读长。来自基因组两个位点的重连读长被成对回贴,大量这样的配对最终构成一个方阵,用来描述任意两个给定区域之间染色质接触的频率。

Hi-C breakfinder

Hi-C 显示出很适合用于 SV 检测的潜力,因为 SV 能够改变两个原本相距很远的基因组区域之间的空间距离,从而大幅提高这些区域 DNA 被重新连接的概率;与具有类似基因组距离的背景相比,这类重连读长会异常富集。事实上,自 2009 年以来,随着生成的 Hi-C 数据越来越多,人们已直观地注意到某些癌细胞系在 Hi-C 矩阵中呈现出特定模式,并推测它们正是由 SV 引起的。Hi-C breakfinder 是首个能在全基因组范围内系统识别 SV 的方法,可给出 SV 的类型、位点、方向及置信度评分。该方法在考虑基因组距离、A/B 区室、TAD 以及小染色体之间及亚端粒区域之间相互作用的背景下,当 Hi-C 接触数显著高于期望值时,即可判定 SV。与 WGS 相比,其一大优势是 Hi-C breakfinder 可利用映射到已连接 SV 臂上任意位置的读长,稳健地识别大规模 SV,而不受 SV 断点附近重复等复杂基因组序列的干扰。长插入读长还保留了遗传连续性,有助于解析和重建复杂 SV 簇。

展望

最近的研究表明,SVs 通过将远端增强子置于重要癌症基因旁边——一种被称为“增强子劫持”的现象——并重组局部染色质构象,从而诱导异常基因表达。因此,阐明 SV 引起的染色质构象变化可为基因调控的新机制带来启示。然而,系统识别新的染色质构象变化(如新型 TAD 和环结构域的形成)仍然困难重重。SV 位点的 SV 杂合性以及拷贝数变异(CNV)和肿瘤样本的异质性进一步增加了复杂性。未来工作需要更精密的计算方法来应对这些问题。

相关文章
|
数据采集 数据可视化 数据处理
如何使用Python实现一个交易策略。主要步骤包括:导入所需库(如`pandas`、`numpy`、`matplotlib`)
本文介绍了如何使用Python实现一个交易策略。主要步骤包括:导入所需库(如`pandas`、`numpy`、`matplotlib`),加载历史数据,计算均线和其他技术指标,实现交易逻辑,记录和可视化交易结果。示例代码展示了如何根据均线交叉和价格条件进行开仓、止损和止盈操作。实际应用时需注意数据质量、交易成本和风险管理。
690 5
|
安全 测试技术 持续交付
微服务的测试策略
【8月更文第29天】随着微服务架构的普及,测试变得尤为重要,因为它有助于确保各个独立的服务都能正确运行并且能够协同工作。本文将介绍一种全面的测试策略,包括单元测试、集成测试和端到端测试,以及如何为微服务应用编写这些测试。
550 0
|
JavaScript Ubuntu Shell
Ubuntu上安装任意版本nodejs方法
通过以上步骤,您可以在Ubuntu系统上灵活地安装和管理不同版本的Node.js。这种方法让开发者能够根据不同项目的需要选择合适的Node.js版本,同时也使版本切换变得非常方便。而且,nvm能够为每个项目独立管理依赖,从而确保不同项目之间的环境隔离,增强了开发环境的稳定性和可维护性。
4069 2
|
设计模式 Java 测试技术
【Selenium使用误区】Iframe元素定位失败:避免误提GitHub Issue的技巧
本文分享了作者在使用Selenium进行UI自动化测试时遇到的一个常见问题:在模拟登录163邮箱的过程中,元素定位失败,原因是没有正确地定位到iframe内的元素。文章通过分析问题原因、提供解决方案和附录代码,指导读者如何避免类似的错误,并强调了在UI自动化测试中准确定位页面元素的重要性。
307 1
|
开发工具 数据库 git
通俗易懂!看漫画学Python入门教程(全彩版)Git首发破万Star
很多编程语言书读起来都略显晦涩,让不少读者望而却步,很难坚持读完。关老师的新书另辟蹊径,以漫画形式切入,生动有趣,把复杂的技术点和编程知识讲解得通俗易懂真正体现了一图胜干言的道理。而且每章结束时都有“练一练”环节,能够帮助读者夯实基础、锻炼技能。不得不说,这是一本Python入门和进阶佳作。
|
JavaScript 前端开发 Java
CocosCreator 面试题(十)Cocos Creator 内存管理
CocosCreator 面试题(十)Cocos Creator 内存管理
981 0
|
SQL 存储 固态存储
presto、impala、kudu相关优化整理
presto、impala、kudu相关优化整理
|
存储 消息中间件 关系型数据库
解密分布式事务:CAP理论、BASE理论、两阶段提交(2PC)、三阶段提交(3PC)、补偿事务(TCC)、MQ事务消息、最大努力通知
解密分布式事务:CAP理论、BASE理论、两阶段提交(2PC)、三阶段提交(3PC)、补偿事务(TCC)、MQ事务消息、最大努力通知
518 0
|
SQL Oracle 关系型数据库
Oracle 锁表查询及解锁kill进程
1. 查看被锁定的表 SELECT OBJECT_NAME, MACHINE, S.SID, S.
3421 0