HiChIP 数据分析: 数据集介绍

简介: HiChIP 数据分析: 数据集介绍

数据集

在本文中,我们将分析 Lyu 等人 的数据集,该数据集包含来自人类胚胎干细胞(hESC)在不同“architectural proteins”于热休克处理前后的 HiChIP 数据。研究的目的在于评估染色质重排在转录响应温度胁迫中的作用

尤其地,我们关注通过免疫沉淀获得的 Rad21 数据,Rad21 是 cohesin complex 的一部分,而 cohesin complex 在控制基因组的“functional architecture”方面具有基础性作用 。

HiChIP 实验流程样品用 DpnII(MboI 的 isoschizomer,识别 GATC 限制位点)进行消化。测序采用 paired-end 布局,读长为 50 bp。由于我们希望鉴定出在热休克处理下显著改变的 topologies,因此需要为每种条件至少获取 2 个 replicates。所有选定的样本(共 4 个文件)列于下表 。

为了简化说明,我们以单个 HiChIP 文件(Rad21_Rep1)为例演示预处理与 loop 鉴定的步骤。

HiChIP 数据下载

Lyu 等人 的完整数据集可在 Sequence Read Archive下载。原始 reads 可以通过 SRA Toolkit下载并转换成 FASTQ 格式,命令如下:

WORKDIR=/home/HiChIP-analyses
cd $WORKDIR
mkdir fastq
fastq-dump --split-files -O fastq/ --gzip SRR6206783

其中 --split-files 用于将 paired reads 分离成两个独立文件,-O 指定 FASTQ 将被保存的文件夹,而 SRR6206783 是 Rad21 replicate 1 样本的 run accession number。

出于实际操作方便,我们将每个 replicate 的 FASTQ 文件重命名为上表所示的名称:

mv fastq/SRR6206783_1.fastq.gz fastq/Rad21_Rep1_1.fastq.gz
mv fastq/SRR6206783_2.fastq.gz fastq/Rad21_Rep1_2.fastq.gz

附加数据下载

原始 reads 的比对需要参考基因组的 FASTA 序列以及 Bowtie2 索引;这里我们使用 UCSC hg19 ,它们可从 Illumina’s iGenomes collection 下载,位于 Bowtie2 网站(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml)。

为了用 hichipper 进行 interactions call,我们还需下载 Rad21 及对照 IgG ChIP-Seq 实验的 FASTQ 文件,这些实验与 HiChIP 数据集在同一细胞系和实验条件下完成(下表)。

这些原始文件可按上一段所示方法下载并重命名。为了去除落在重复区域或其他异常位点的 ChIP-Seq peaks,我们在工作目录下载一个包含 ENCODE DAC Blacklisted Regions 的 BED 文件(https://www.encodeproject.org/annotations/ENCSR636HFF/)。

在该网页的 “Files” 区域,选择 “File Details” 标签页并下载 hg19 的 BED/BED6 文件;解压 .gz 文件后,将文件名从 ENCFF001TDO.bed 改为 hg19_DAC_blacklist.bed。

最后,为了将差异 loops 与 Rad21 结合的变化以及相互作用位点的激活水平进行比较,我们从 Gene Expression Omnibus(GEO)下载 Rad21 和 H3K27ac 的 ChIP-Seq 信号文件(BigWig)。

相关文章
|
人工智能 数据挖掘 机器人
【python】python智能停车场数据分析(代码+数据集)【独一无二】
【python】python智能停车场数据分析(代码+数据集)【独一无二】
|
机器学习/深度学习 存储 SQL
15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!
15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!
655 0
|
4月前
|
数据采集 数据挖掘 索引
HiChIP 数据分析: 用HiC-Pro预处理原始数据
HiChIP 数据分析: 用HiC-Pro预处理原始数据
|
4月前
|
数据挖掘
HiChIP 数据分析: 过滤及Peak Calling
HiChIP 数据分析: 过滤及Peak Calling
|
4月前
|
数据可视化 算法 数据挖掘
HiChIP 数据分析: 分析简介
HiChIP 数据分析: 分析简介
HiChIP 数据分析: 分析简介
|
3月前
|
存储 数据挖掘 Serverless
HiChIP 数据分析: 差异 Loop 检测
HiChIP 数据分析: 差异 Loop 检测
HiChIP 数据分析: 差异 Loop 检测
|
3月前
|
存储 算法 数据挖掘
HiChIP 数据分析: 鉴定 Loops
HiChIP 数据分析: 鉴定 Loops
|
数据可视化 数据挖掘 大数据
Python 数据分析入门:从零开始处理数据集
Python 数据分析入门:从零开始处理数据集
|
数据挖掘
【数据分析】大型ADCP数据集的处理和分析(Matlab代码实现)
【数据分析】大型ADCP数据集的处理和分析(Matlab代码实现)
692 0