材料和方法
获取微阵列数据和选择数据集头颈部鳞状细胞癌的基因表达数据
(HNSCC)从Cancer Genome Atlas下载(TCGA)数据库(https://gdc-portal.nci.nih.gov/)。根据口腔的解剖学定义,387个口腔样本(336个OSCC样品和51个正常对照样品)
从587个HNSCC数据中提取。 mRNA和miRNA表达数据包括327个OSCC样本和31个非癌样本已下载。原始lncRNAs和mRNAs 数据(HUGO基因命名委员会(HGNC)数据库
(http://www.genenames.org/)包含2775个lncRNA和19004他们的靶mRNA。
从Gene获得OSCC的基因表达谱(GEO)数据库(http://www.ncbi.nlm.nih.gov / geo /)通过研究术语“口腔鳞状细胞癌”(2016年8月)。原始数据和探针注释文件GSE9844(31个OSCC样本和24个非癌对照样本)和GSE 13601(26个OSCC样品和12个非癌症控制样品)基于Affymetrix Human Genome U133 Plus 2.0 Array(Affymetrix,Inc.,Santa Clara,CA,USA)下载了探针进一步分析。
微阵列数据的预处理
CEL格式的原始数据和文件是预先通过背景校正处理,四分位数据标准化使用寡核苷酸(oligo)包进行总结和总结(http://bioconductor.org/packages/release/bioc/html/oligo.html)简而言之,原始数据被转化为可识别的表达数据。背景用标准添加方法进行校正(MSA)和lncRNA,miRNA和mRNA的表达量使用分位数方法归一化。最后,基因表达数据根据基因探针和symbol以及表达密度分布图。
鉴定OSCC中的DEG,DE-lncRNA和DE-miRNA
标准化后,对微阵列进行显着性分析(差异表达分析)采用(SAM)。edgeR包用于筛选DEGs,DE-lncRNAs和DE-miRNAs在OSCC和健康组织之间差异表达。 P值通过t检验计算值(显着性水平:p <0.05)和使用错误发现率(FDR)(<0.05)和|FC| > 1.5。之后使用Cluster软件进行有层次的分层聚类ware(3.0版,Eisen Lab,Stanford,CA,USA),使用Pearson's相关距离度量和平均链接。热图是在Cluster bb3.0和TreeView 1.60程序中生成。
与临床特征相关的DEG,DE-lncRNA和DE-miRNA
收集各种临床信息和OSCC样品根据某些临床特征分为两组(见表S1a-c)。 R的封装edgeR用于筛选出来与临床特征相关的DEG,DE-lncRNA和DE-miRNA通过设置FDR <0.05和| fold change |> 1.5作为截止点。
DEG,DE-lncRNA和DE-miRNA与预后相关
筛选无病生存(DFS)相关基因组数据,使用函数survfit进行单变量cox分析包存活调查可能的预后DEGs,DE-lncRNAs和DE-miRNAs用于无复发生存期(RFS)和总生存期(OS)。采用Kaplan-Meier方法检测DE-lncRNAs的预后价值,并统计学意义使用对数秩检验评估。进行所有分析在R 3.0.1框架上。筛选OS的独立预后因素进行多变量Cox回归分析以进行筛选预后DE-RNAs和临床病理特征是OSCC患者OS的独立预后标志物。
构建蛋白质 - 蛋白质相互作用(PPI)网络和筛选关键基因
从三个数据库BioGRID中检索的PPI对(http://thebiogrid.org/),HPRD(http://www.hprd.org/)和DIP(http://dip.doe-mbi.ucla.edu/),被整合来构建一个背景网络。 DEGs映射到PPI网络 -
工作,相互作用,信心分数超过0.4保留。之后,PPI利用Cytoscape软件可视化网络。连通度和中介性中心性分析了每个节点的(BC)。连接最多的节点(> 6个连接)被认为是中枢蛋白质。 BC
价值计算如下:使用BC值确定按BC值排名的前100。关键基因的组合
通过选择优化筛选出来。支持向量建立机器(SVM)分类模型来预测DEGs的预后效应。确认稳健性和转移 - 构建的SVM模型,GSE9884数据和GSE13601的能力数据用作验证集。模型的功效是评估 - 敏感性,特异性,阳性预测值,阴性预测值和ROC曲线下面积(AUC),使用时间依赖的接收器 - 操作员特征(ROC)曲线分析。
构建ceRNAs监管网络
DE-lncRNA和DE-miRNA对以及DE-通过计算Pearson的相关性来鉴定miRNA和DEGs
系数(PPCs)基于它们的表达水平。只有具有|coefficient|> 0.95的对被认为是共表达的。
获得了lncRNAs-miRNAs-mRNAs调节网络基于lncRNAs-miRNA和miRNA-mRNAs调节对。
DE-lncRNA与DE-miRNA之间的调节关系通过miRcode(http://www.mircode.org)预测对
starBase(http://starbase.sysu.edu.cn/)。监管关系通过miRTar-预测DE-miRNA和DEGs对之间的关系Base(http://mirtarbase.mbc.nctu.edu.tw)。监管对DE-miRNAs和DEGs以及DE-lncRNAs和DE-miRNAs有相反的表达趋势,彼此被选中建立监管网络。因此,DEGs和DE-lncRNAs
由相同的DE-miRNA调节被过滤掉。综合可视化lncRNA-miRNA-mRNA的共表达网络通过Cytoscape软件。此外,预后DEGs,DE-鉴定了ceRNA网络中的lncRNA和DE-miRNA,并且
这些代表性miRNA和Kaplan-Meier的存活图绘制mRNA。
功能丰富分析
用于注释,可视化和集成发现的数据库(DAVID,http://david.abcc.ncifcrf.gov/)用于功能性
浓缩分析。 GO富集和KEGG途径使用Fisher精确检验进行如下:全基因组中的基因总数; M:基因数量; K:特征基因的数量;费舍尔的得分:至少x个基因属于功能途径基因K显着表达基因。Fisher的精确测试用于对GO类别进行分类,并且计算FDR以校正p值(显着性)水平<0.05)。
鉴定转录因子(TF)-miRNAs-lncRNAs网络
TF-miRNA调节对从TRRD获得和JASPAR数据库并映射到整个ceRNA的共表达网络。
TF-miRNAs-lncRNAs调节环通过结合TF-miRNA和miRNAs-lncRANs调控对,然后构建TF-miRNAs-lncRNAs网络