空间转录组学: 测序数据介绍

简介: 空间转录组学: 测序数据介绍

引言

本系列讲解 空间转录组学 (Spatial Transcriptomics) 相关基础知识与数据分析教程,持续更新,欢迎关注,转发,文末有交流群

背景

基于测序的空间转录组学(ST)平台通过使用下一代测序(NGS)技术,结合空间条形码,在组织的不同空间位置上对基因表达进行定量分析。在平台制造和样本制备过程中,空间位置信息被编码,并与测序过程中检测到的转录本相关联。这种关联体现在NGS平台测序生成的序列读取结构中。

为了进行空间数据分析,需要将原始测序数据经过一系列预处理步骤,转化为有用的数据格式,通常是计数矩阵。通过计数矩阵,我们可以分析目标组织中的基因表达情况。这些预处理步骤因平台而异,但基本流程是从一系列“读取序列”开始,最终生成适用于下游分析工具(如Squidpy、Seurat或基于SpatialExperiment对象的Bioconductor工作流程)的空间数据格式。

序列和测序

在转录组学中,“读取序列”是指从RNA分子逆转录而来的cDNA片段的核苷酸序列。这些转录本的丰度反映了基因表达水平,而这正是转录组学分析的核心目标。空间转录组学的优势在于能够将读取序列与RNA分子的起源位置相关联,从而揭示基因表达的空间分布。生成读取序列的过程通常包括以下几个步骤:

  • RNA提取
  • 逆转录
  • cDNA片段化
  • 接头连接
  • PCR扩增

由于PCR扩增步骤的存在以及RNA提取过程中的不完美性,读取序列的丰度只能作为基因表达的相对指标,而不能作为绝对值。因此,在进行差异表达分析等下游分析之前,需要对数据进行归一化处理。在归一化之前,读取序列需要经过一系列预处理步骤,构建计数矩阵或其他等效数据结构,以便用于后续分析。

序列结构

在大多数基于测序的空间技术中,读取序列通常以“配对末端”的形式记录,即DNA片段的两端分别被测序,并分别存储在不同的文件中,通常是.fastq格式的文件。其中一个文件(通常是读取1)包含条形码序列,而根据是否事先对读取序列进行了修剪,它还可能包含连接序列或其他结构序列。另一个文件则包含我们需要与参考基因组或转录组(或探针集)进行比对以确定表达基因的转录本(或探针)序列。

以下是BGI STOmics Stereo-seq用户手册中提供的一个读取序列结构示例:

在这里,我们可以看到读取1是从序列左端开始的前50bp,而读取2是从序列右端开始的最后100bp。

读取1中包含了25bp的坐标ID(CID)、一个15bp的固定连接序列,以及一个10bp的分子ID(MID)。

读取2仅包含一个100bp长的转录本片段。

另一个例子来自10X Visium CytAssist试剂盒,用于展示基于探针的文库的结构:

在.fastq文件中,每个读取序列都包含一个对应的序列标题和质量评分。这里提供了一个示例(同样来自BGI STOmics Stereo-seq用户手册),用于说明:

两条读取序列的第一行是“标题”或“名称”,用于唯一标识每条读取序列,并可能包含一些额外信息,例如读取序列来自测序仪的哪一条泳道。此外,标题部分还可以插入工具生成的附加元数据,以“注释”的形式呈现。第二行是测序转录本的碱基序列,如前文所述。第三行是一个间隔行,通常只包含一个“+”字符,尽管有时会在这里重复标题中的读取序列标识符和注释。第四行是序列中每个碱基的读取质量评分。质量评分的衡量标准会因测序仪的版本以及是否使用Q4或Q40文件而有所不同。Q分数是基于p值的对数形式,用于衡量对碱基判定的置信度。p值的确切计算方法以及读取序列被判定为不可靠的阈值因平台而异,因此如果这些统计信息对你的分析很重要,建议仔细检查你所使用的工具。

相关文章
|
4月前
|
算法 数据可视化 数据挖掘
空间转录组: 降维聚类+差异分析
空间转录组: 降维聚类+差异分析
空间转录组: 降维聚类+差异分析
|
6月前
|
存储 编解码 移动开发
空间转录组:数据格式介绍
空间转录组:数据格式介绍
空间转录组:数据格式介绍
|
数据可视化
R语言自定义图形:ggplot2中的主题与标签设置
【8月更文挑战第30天】`ggplot2`作为R语言中功能强大的绘图包,其自定义能力让数据可视化变得更加灵活和多样。通过合理使用`theme()`函数和`labs()`函数,以及`geom_text()`和`geom_label()`等几何对象,我们可以轻松创建出既美观又富有表达力的图形。希望本文的介绍能够帮助你更好地掌握`ggplot2`中的主题与标签设置技巧。
|
4月前
|
Ubuntu 安全 Linux
《Ubuntu 24.04.1版安装全攻略与实测体验》
综上所述,这次关于Ubuntu 24.04.1版的安装经历让我对新版本充满了期待,尽管细节上有些微的变化,但整体体验显得更加便捷易懂。在这一波Ubuntu新气象中,我期待与各位一起分享更多新鲜的体验与感受。
|
数据采集 存储 索引
转录组分析丨一套完整的操作流程简单案例(上)
转录组分析丨一套完整的操作流程简单案例
|
网络性能优化 定位技术 C++
跨地区远程访问如何更快、更稳、更可靠:贝锐蒲公英智能选路
贝锐蒲公英云智慧组网采用自研智能选路技术,可根据实时网络状况自动选择最优路径,大幅降低延迟并提升传输速率。相较于传统单线模式下数据必须经由单一服务器转发导致高延迟与无备份线路的问题,蒲公英通过全球分布式节点与SD-WAN技术实现了智能实时导航能力。实测显示,智能选路可使通讯延迟降低5倍、传输速率提升百倍。该技术基于多云服务商的主干网络与FullMesh架构,能自动避开拥堵路径并确保网络可用性,即使面对线路故障也能自动切换,提供更快速、稳定和可靠的跨地区远程访问体验。
635 3
跨地区远程访问如何更快、更稳、更可靠:贝锐蒲公英智能选路
|
弹性计算 Ubuntu 安全
阿里云服务器镜像选择全指南:不同类型的镜像区别及选择参考
阿里云服务器镜像,作为ECS实例的“装机盘”,不仅提供了操作系统,还包含了初始化应用数据和预装软件。选择合适的镜像对于云服务器的性能和稳定性至关重要。本文将详细解析阿里云服务器提供的多种镜像类型,包括公共镜像、自定义镜像、共享镜像、云市场镜像和社区镜像,以供参考和选择。
阿里云服务器镜像选择全指南:不同类型的镜像区别及选择参考
|
存储 网络协议 数据库
多数据中心的互联需求及流量原则
【7月更文挑战第21天】灾备数据中心提升业务连续性,增强用户体验与数据安全,复杂网络架构带来挑战。
|
Android开发 UED 开发者
【Uniapp 专栏】比较 Uniapp 与原生开发的差异与适用场景
【5月更文挑战第15天】UniApp与原生开发各有千秋。UniApp以高效跨平台著称,一套代码覆盖多平台,降低开发成本,适合快速开发简单应用。原生开发则提供优秀性能和用户体验,适合对性能要求高的复杂应用。两者在功能实现和维护上各有优势,开发者需根据项目需求权衡选择。随着技术进步,两者都在不断优化,为移动应用开发带来新机遇。
858 1
【Uniapp 专栏】比较 Uniapp 与原生开发的差异与适用场景
|
JavaScript API
Vue2.X项目超简单整合Axios并使用
这篇文章提供了Vue 2.X项目中如何整合Axios的详细步骤,包括配置请求拦截器、响应拦截器、错误处理以及在Vue组件中调用Axios进行数据请求的方法。
278 0