转录组学(transcriptomics)的研究对象是全基因组尺度下所有转录本(transcript),即转录组(transcriptome)
将荧光标记的cDNA制成微阵列探针来测定样本中特定转录本含量。又称为 基因芯片(Gene Chip)、微阵列(Microarry)。
获取表达量的步骤:
提取RNA -> 反转录 (->扩增)->标记->杂交->扫描->获得原始数据
局限性:
• 只能检测已知或;确定性的序列
• 无法检测新发现的,未放置到芯片上的基因
• 有部分探针的信号可能会收到非特异性杂交或个体序列差异的影响
基于高通量二代测序技术的转录组学研究方法。
特点:
高通量、低成本;不依赖已知转录本探针,可以测全转录组;对于低表达丰度的转录本灵敏
度高;以reads数量腐酸表达,比芯片的荧光信号更为精确。
应用和最新进展
依据文库要求检查完整性分值,如果不合格将不适合建库测序。一些特殊文库对RNA提取要求很高,如全长转录组文库,需要特殊提取流
程保证RNA 完整性。
需要的数据:参考基因组数据fasta、GFF注释信息、双端测序的fastq文件
我这里用的是普通栽培稻( Oryza sativa L)的参考基因组和、GFF文件和SRR17439319数据。
参考步骤: >
介绍这个包之前,先要搞清楚这个包能干啥。(部分内容摘抄自学术咖)
Q1:WGCNA能干嘛?
A1:能够将表达模式相似的基因进行聚类,并分析模块与特定性状或表型之间的关联关系。具体一点:1)构建分层聚类树(hierarchical clustering tree),聚类树的不同分支代表不同的基因模块(module),模块内基因共表达程度高,而分属不同模块的基因共表达程度低。2)探索模块与特定表型或疾病的关联关系,最终达到鉴定疾病治疗的靶点基因、基因网络的目的。
Q2:WGCNA分析结果中总是提到共表达网络,是什么?
A2:共表达网络特指利用基因间的表达相关性预测基因间调控关系的方法,WGCNA是共表达网络分析中最有效的方法之一。
Q3:一般说WGCNA的样品不少于15个,15个样品考虑重复吗?
A3:15个样本这个是包含了生物学重复,比如5个时间点3个重复。
Q4:每个样本有3个生物学重复,不需要对三个重复的表达量求平均值代表该样本吗?
A4:做WGCNA的时候每个样本是独立的,三个生物学重复样本是全部导入做分析,不是取均值再做分析,每个样本都是独立的。
Q5:WGCNA里面一般会提到hubgene,如何确定hubgene
A5:在WGCNA分析里面,每个基因都会计算连通性,连通性高的就是hubgene。
那么根据它能做的事情,再结合具体的数据,那么我们在做WGCNA之前需要准备的数据有两个:表达量数据和表型数据。
表达量数据,FPKM矩阵即可。
表型数据,即性状数据,比如肿瘤的stage、肿瘤的预后等等。可以是质量性状也可以是数量性状。
1、安装包
你可以直接安装,但是后面会报错。
看了半天发现,是少了一个impute的包。所以需要重新安装。
2、导入数据
3、用hclust给所有的样本建树。看看不同个体之间的距离,以及有没有一些具体特别远的个体。
4、确定最佳的beta值,
画图
5(51)、构建共表达矩阵(自动构建网络 + 模块识别)
可视化module
5(52)、构建共表达矩阵(逐渐构建网络 + 模块识别)
Step_1:Co-expression similarity and adjacency
Step_2:计算拓扑重叠矩阵(TOM)
Step_3:使用TOM(拓扑重叠矩阵)进行聚类,绘制聚类得到的树形图。
Step_4:使用dynamic tree cut来识别模块。
Step_5:将基因表达相似的模块进行合并
Step_6:保存模块相关变量,用于后续的分析需要保存的变量有①模块的特征基因②模块的数字标签③模块的颜色标签④基因的树形图。
6、展示模块之间的相关性
7、可视化基因网络 (TOM plot)
8、模块和性状的关联分析
看完资料之后,性状关联分析貌似有两种处理方法。
第一种:质量性状。一列subtype但是包含有5种类型的癌症。( >
关于Illumina的双端测序,最重要的理解一点是在进行单端测序结束后,再继续通过桥式PCR扩增出反向互补链进而第二次测序,而这第二次测序的序列就是原来哪条序列的真实序列,第一次测序的是互补链的序列。
表观遗传学认为在不改变DNA序列的情况下,通过DNA和组蛋白的修饰来调控基因的表达,而其中DNA甲基化最为常见(DNA methylation)在人类的表观遗传学中,CpG岛的甲基化修饰最为常见,
CpG岛的甲基化修饰主要过程是在CpG甲基化结合蛋白(Methyl-CpG Binding ProteinsMBDs)和DNA甲基化转移酶(DNA methyltransferasesDNMTs)的作用下,使得CpG二核苷酸5’端的胞嘧啶转变为5’甲基胞嘧啶。
目前研究发现,在正常人类的DNA中,约有3-6%的胞嘧啶被甲基化。在哺乳动物中,约有50,000,000个CpG二核苷酸,其中70%的被甲基化。而那些可被甲基化的CpG 二核苷酸并非随机的分布于基因组序列中,相反,在基因组的某些区域中,通常是基因的启动子区域,5’端非翻译区和第一个外显子区,CpG序列密度非常高,超过均值5倍以上,成为鸟嘌呤和胞嘧啶的富集区,称之为CpG岛(CpG Islands, CGIs)
最近,为了排除那些Alu重复序列,提出了更严格的标准:长度至少500碱基对,GC含量超过55%,CpG比值大于065。 据研究估计,哺乳动物基因组中的CpG岛约有4万个。在健康人的基因组中,CpG岛中的CpG位点一般处于非甲基化状态,而CpG岛外的CpG位点通常是被甲基化的。
如图1左所示,在正常细胞中,位于抑癌基因启动子区域的CpG岛处于低水平或未甲基化状态,此时抑癌基因处于正常的开放状态,抑癌基因不断表达抑制肿瘤的发生。而在肿瘤细胞中,该区域的CpG岛被高度甲基化,染色质构象发生改变,抑癌基因的表达被关闭,从而导致细胞进入细胞周期,凋亡丧失,DNA修复缺陷,血管生成以及细胞粘附功能缺失等,最终导致肿瘤发生。同样,如图1右所示,对于在正常细胞中处于高度甲基化的一些基因和重复序列,如果其甲基化水平降低,这些基因将表达和重复序列将激活,从而导致基因印记丢失,细胞过度增长,不合适的细胞特异性表达,基因组脆性增加,以及内寄生序列(endoparasitic sequence)的激活,最终也导致肿瘤发生。
由于CpG岛的局部高度甲基化要早于细胞恶性增生,故其甲基化的检测可用于肿瘤的预测,而全基因组水平的低水平甲基化状态,则随着肿瘤恶性程度的增加而进一步降低,使其可用于肿瘤的诊断以及分级。
最后关于甲基化测定方法详见>
由于技术上的限制,移植的造血干细胞(HSCs)在预处理的宿主体内后不久的表现还没有被研究过。在这里,利用单细胞RNA测序,我们首先获得了28种造血细胞类型的基于转录组的分类。然后,我们将它们与功能分析相结合,跟踪受者移植后第一周内免疫表型纯化的造血干细胞的动态变化。根据我们的转录分类,大多数骨髓和脾脏中的HSCs成为多能祖细胞,偶尔也有一些HSCs产生巨核红细胞或髓系前体细胞。平行的体外和体内功能实验支持了在第一周没有大量HSC扩增的情况下稳健分化的范式。因此,这项研究揭示了早期在清髓受者中移植 HSC 的动力学和命运选择,对造血干细胞和其他干细胞的临床应用具有一定的指导意义。
造血干细胞 (HSC) 能够产生造血系统 ,从而为患有许多破坏性疾病 3 的患者提供再生医学(移植)的宝贵来源。在临床实践中,移植的干细胞通常会遇到患病或受损的受体环境。尽管存在多种疾病,但目前针对患者的移植方案涉及在移植前使用化学治疗剂或全身照射进行预处理。因此,在这些病理受体的早期阶段,与微环境(利基)的适当接触和移植 HSC 的有序繁殖对于移植的长期植入和最终成功至关重要。过去 已经广泛研究了移植 HSC 的归巢、寄宿、定位、生态位相互作用和增殖。尽管认为大量的 HSC 在长期移植过程中会达到稳态水平,但移植后 HSC 的行为在很大程度上是未知的。
在小鼠移植模型中,早在 HSC 移植后 7-9 天就首次观察到血小板生成。鉴于经典的逐步造血级联模型,HSC 必须快速响应清髓宿主环境。与 HSCs 在生命周期中仅在有限时间内分裂的稳态条件相反,HSCs 应该在清髓受体中经历剧烈增殖以满足移植后造血再生的迫切需要,然后逐步分化为多个谱系 。然而,该模型的有效性从未得到严格或全面的研究,这主要是由于技术困难,例如移植后不久可以收集的供体来源细胞数量非常有限。
单细胞 RNA 测序 (scRNA-seq) 技术的快速发展提供了一个强大的工具和前所未有的机会来定义细胞分类、跟踪分化并以单细胞分辨率揭示任何给定的可分离异质细胞群的转录网络。因此,我们使用 scRNA-seq 来全面表征造血系统中的 28 个细胞群,并应用基于转录组的分类来跟踪 HSC 移植后的供体来源细胞。
作为研究历史最长、临床应用最为广泛、治疗效果最为确切的成体干细胞之一,造血干细胞(HSC)依靠其“SMART”特性(S: Self renewal, M: Multi-lineage differentiation, A: Apoptosis, R: Rest/quiescence, T: Trafficking)维持整个造血系统的动态平衡。HSC移植也因此广泛应用于多种血液系统疾病和自身免疫性疾病以及多种遗传性疾病的治疗。在临床实践中,通常在移植后不同时间点采集受者的外周血或者骨髓来评估移植物的植入效率及造血恢复情况。但对于HSC在骨髓归巢后如何增殖、分化并重建整个造血的动态过程却知之甚少。这方面研究对解决目前临床HSC移植植入不良十分重要。
可能由于本研究开始较早,单细胞测序水平还不够高,本文淡化了单细胞测序的细胞数量等信息。
造血系统的28个免疫表型的相应的测序数据
作者首先将28个免疫表型定义的造血细胞群体(immunophenotype-based haematopoietic cell populations)根据转录组特征定义为21个转录组细胞群(transcriptome-based haematopoietic cell populations),并将测序结果与已发表的造血细胞测序数据进行了比较,结果显示相同细胞类型的测序数据结果高度吻合,证明了测序数据质量的可靠性。
作者将高度异质性的5个免疫表型定义的HSC群体和9个免疫表型定义的MPP群体根据转录组特征重新定义为3个tHSC亚群(tHSC1、tHSC2和tHSC3)和5个tMPP亚群(tMPP1、tMPP2、tMPP3、tMPP4和tMPP5),并对这些重新定义的HSC以及MPP在自我更新、增殖潜能以及分化倾向方面的差异进行了比较,发现tHSC1和tHSC2为处于造血级联最顶端的自我更新潜能最强的HSC, tHSC3主要为淋系偏向的HSC。
tMPP1为最靠近HSC的多能祖细胞亚群,而tMPP2和tMPP3主要向巨核红系以及髓系分化,tMPP4细胞周期不活跃且分化潜能不显著,而tMPP5则主要向淋系分化。这是目前成体小鼠各类造血细胞较为精细的单细胞转录组定义和最全面的分类体系。
图1a应该是放错了
相同策略,9种免疫表型多能性祖细胞(iMPPs)被分为5个不同转录特征群:tMPP1、tMPP2、tMPP3、tMPP4和tMPP5(图2a)。iMPPs和tMPPs的转录组成均表现出较大转录异质性(图2b,c)。
轨迹分析,tHSC3在轨迹图上与tHSC1和tHSC2明显不同(图2d),之前研究和我们的数据分析显示,tHSC3具有长期的淋巴细胞偏倚重建潜能。因此,tHSC3可能在功能上更多地与短期HSC或MPPs相关。tMPP1细胞在细胞周期中比tHSCs更活跃,分化轨迹分析表明,它们的分化潜能接近(图2d)。总的来说,该轨迹图在上半部分与造血干细胞到MPPs的连续过程一致,在下半部分有明确的髓系和淋巴系分支。
因此,这21个转录组定义的细胞簇是评估应激条件下细胞特性的有力参考工具,特别是当细胞表面标记不稳定或细胞产量低导致移植后不久无法对移植的造血干细胞进行详细表型分析时。
基因表达谱将祖细胞,红细胞,巨核细胞,粒细胞,单核-巨噬细胞和淋巴细胞聚为一类,称为tCP1-3(祖细胞),tME1-3 (巨核细胞-红系细胞),tGM1-3 (粒细胞-单核细胞-巨噬细胞)和tLym1-4 (淋巴细胞-淋巴细胞)。然后根据免疫表型细胞计算这些群体的组成。转录组分析将28个造血群体分为21个群,每个簇都特异性表达与功能相关特征的独特生物学过程富集的基因。
基于上述转录组所有造血细胞类型的特征,研究者试图追踪受辐射个体移植后HSC的性质。
从 绿色荧光蛋白 (GFP)转基因小鼠(B6-Ly52, GFP+)中纯化的HSC (CD201+150+48−45+Sca-1+c-Kit+(ESLAMSK))共1000-4000个,与3×105个竞争细胞(B6-Ly52, GFP-)一起移植到受辐射个体(B6-Ly52)中。
在移植后第1、3、5和7天收集供者GFP+细胞(57个移植受者的1031个细胞),开展scRNA-seq(图3a)。
供体GFP+细胞采集率极低(第1、3、5和7天分别为0005±0007%、0006±0004%、0012±0009%和022±0292%);具有代表性的流式细胞图见图3b。与移植后ESLAMSK细胞相比,供体细胞整体基因表达早在移植后第1天就发生显著变化。
通过对转录因子(TF)调控因子的分析,进一步阐明转录因子网络的动态转录活性。编码自我更新相关TFs基因(如Egr1、Egr3、Gata2和Hmga2)逐渐下调。髓系细胞(Cebpa、Cebpab、Cebpad和Cebpae)和红细胞-巨核细胞(Irf2)相关的TFs基因在移植后第1天表达上调并共表达。
这些结果表明, 移植的造血干细胞和/或其后代表现出弱自我更新特征,并在移植后的非常早期阶段采用一种转录程序将其限制在一个或多个谱系 。
根据稳态下细胞类型特异性的特征基因将移植细胞分为21个细胞簇,这些细胞身份相关基因在移植后的单个细胞中持续表达。动态平衡状态下所有造血细胞的t分布随机邻域嵌入图(图3c)显示,移植后1周内tHSCs、tMPPs、tMEs和tGMs再生,而tCPs和tLyms很少(图3d)。 与注射tHSCs相比,移植后每天的细胞组成清楚表明移植的HSCs定向成为tMPPs,甚至在第1天产生少量tMEs和tGMs (图3e,f)。从移植后1周内的细胞动力学来看,tHSCs(主要是tHSC1和tHSC2)的比例逐渐下降,而tMPPs是主要的人群,甚至在第1天和第7天出现一些tMEs和tGMs(图3f,g)。每个代表性受体的细胞重组表明,tMPPs在移植后不久即成为主要的细胞类型。第1天和第7天出现部分谱系性细胞,特别是tMEs(17个受者中有6个)和tGMs(8个受者中有2个)(图3h)。为排除第1天采集的细胞存在取样偏倚可能性,另收集137个供体骨髓和脾脏细胞,转录组的细胞分类结果与图2g所示一致,符合移植的造血干细胞在1周内立即分化为祖细胞和谱系细胞(tMEs和tGMs)的模型。
移植后HSC第1天的转录组快速变化促使研究者思考转录组改变是否依赖于细胞分裂。为此,将CellTrace Violet染色的供体HSC移植到受体小鼠体内,移植后收集发现,大多数供体细胞在第1天保持不分裂,但从第3天到第7天逐渐分裂(图4a-c),表明造血干细胞MPP转录组谱不依赖于细胞分裂。
进一步分析移植后tHSC1和tHSC2的转录组变化(简称TxtHSC1/2)。移植前相比, tHSC1和tHSC2表现出造血干细胞信号的下调(图5a)。tHSC1的增殖特征减弱,而tHSC2的增殖特征增强(图5a,b)。
对于假定的分化潜能,tHSC1在巨核细胞系、红系和髓系分化上富集降低。相反,tHSC2被诱导向红系和髓系分化(图5c)。与稳态下的同类相比,TxtHSC1/2在淋巴、凋亡或自噬信号富集方面没有差异(图5c,附图8f)。基于此作者认为tHSC2是处于活化状态的HSCs满足分化功能;tHSC1处于静息状态,维持干细胞池。这一模式与之前功能性研究一致,表明功能性HSC的两种不同细胞状态。
接下来研究tMPPs,它是移植后HSCs快速分化而来的主要成分。tMPP1-5不同亚群的变化过程(图5d)。tMPP2和tMPP3的频率增加伴随着S/G2/M细胞周期信号的百分比升高。
tMPP1在第3天占供体细胞的30%以上,在第7天持续下降至5%以下。tMPP2在第5天占40%以上,在第7天下降到20%。tMPP3的频率最初小于5%,在第7天急剧上升到30%。tMPP4维持在低频率,而tMPP5在移植后第5天逐渐升高到20%(图5d)。tMPP2和tMPP3的频率增加伴随着S/G2/M细胞周期信号的百分比升高。
GSEA利用特定基因进一步研究tMPPs的分化谱,并与相应的对照在稳态条件下进行比较(图5e)。tMPP1表现出更高的增殖特征,有利于向红系和髓系分化,并抑制巨核细胞。tMPP2对髓系基因呈正富集,对巨核基因呈负富集。tMPP3和tMPP4分别表现为红系和巨核基因富集。与巨核细胞、红系细胞和髓系细胞相关的基因集在tMPP5中富集,而淋巴潜能被抑制。
具体来说,红细胞( Phb2 和 Nfia )、巨核细胞( Pf4 和 Vwf )、髓系细胞( Spi1 和 Cebpd )和淋巴细胞( Flt3 和 Satb1 )的代表性TF或标记基因在不同的tMPPs上表达可能触发移植后谱系分化。
与稳态下相比,移植后tMPPs(简称TxtMPPs)表现出应激反应相关基因 Ifitm3 、 S100a6 和 Serpina3g 的上调,B细胞分化基因 Ramp1 、 Cd52 和 Pnp 的下调(图5f,g)。氧化磷酸化、剪接体和RNA转运途径与1周内tMPPs的动态变化有关。表面蛋白CD201、CD150和CD48的表达变化支持移植后1周内的细胞类型转变(图5h)。总的来说,这些结果表明,Tx tMPPs中髓系和红系分化稳定,而淋巴细胞分化受到抑制。
使用单细胞集落形成试验和二次移植来检测供体细胞移植后的植入和分化潜能。与新鲜HSC相比,供体细胞的集落形成率降低(第1、3、5和7天,供体细胞的集落形成率分别为1293±585%、2395±666%、1005±395%和212±4%,而新鲜HSC的集落形成率为6234±834%)(图6a)。细胞从第1天和第3天生成50-80%非常小(直径<03毫米)和小(直径在03-1毫米)克隆,而细胞从第5天和第7天生成50-60%中型(直径1-2毫米)和大型(>2毫米直径)克隆(图6b)。此外,第1天和第3天供体细胞的多谱系菌落(中性粒细胞、巨噬细胞、红细胞和巨核细胞)与新鲜HSC相当,而第5天和第7天供体细胞的多谱系潜能略有下降(图6c)。重要的是,第1天从受体骨髓和脾脏中回收的GFP+细胞在二次移植中表现出持续的多谱系植活度。同时,在第3、5、7天恢复的细胞中,即使收集到更多的细胞,重构效率和植入水平也逐渐下降(图6d)。这些数据表明,移植后HSC匹配的概率立即下降,与scRNA-seq分析的结果一致。尽管大多数注射的造血干细胞在其转录组谱基础上类似MPPs,第1天(未分裂)收集的细胞仍然具有HSC的长期移植能力。
令人惊讶的发现是移植后造血干细胞tMEs和tGMs的早期分化(图3g,h)。在供体总细胞中,tMEs和tGMs的频率在第1天达到约10%,然后在第3天和第5天急剧下降到0%,但在第7天再次上升到10%(图7a)。
流式细胞术分析显示,第1天和第7天的Ter119+和Mac-1+Gr-1+细胞分别占20%和10%(图7b)。这些数据表明,移植后HSC可能最早在第1天通过“旁路”途径直接程序化进入红系和髓系,这与最近的一项研究一致,即HSC分化可以发生在第一次细胞分裂之前。
单细胞反转录定量PCR (qRT-PCR)显示,供体Ter119+细胞在第1天表现出更高的干细胞相关基因( Kit 、 Slamf1 、 Fgd5 和 Gata2 )、巨核细胞( Pf4 和 Selp )和红系基因( Lmo2 和 Tal1 )的表达。供体Mac-1+Gr-1+细胞表现出类似髓系基因表达( Csf1r 、 Csf2rb 和 Csf3r )(图7c)。此外,免疫应答相关基因第1天在tMEs中高表达,第7天靶向膜蛋白相关基因的表达水平升高(图7d)。这些数据表明,tMEs第1天的不成熟状态可能是由微环境中应激反应触发。与外周血(PB)血清中稳态对照相比,红细胞生成素(EPO)和粒细胞集落刺激因子(G-CSF)这两种主要的生长因子分别参与红细胞分化和髓系分化,在移植后红细胞生成素(EPO)和粒细胞集落刺激因子(G-CSF)的蛋白水平显著升高(图7e,f)。升高的细胞因子水平可促进有限的谱系分化。因此,移植后tMPP2、tMPP3、tCP1、tME1和tGM1中Ifitm1的表达显著增加,表明红系和髓系分化程序激活。总的来说,这些数据证实移植后造血干细胞和/或骨髓基质细胞存在早期的红细胞和骨髓细胞偏倚分化,但这些“分化”细胞仍然保持某些未成熟的特征,它们的生理作用和意义,尤其是在压力或损伤条件下,值得进一步研究。
综上,本研究基于 免疫表型、转录组特征和功能 三个方面 更加全面地定义了造血系统21个细胞群体,建立了稳态下造血细胞转录组图谱,首次揭示了HSC移植后早期动态变化过程。
• 总体上来说HISAT利用了BWA和Bowtie的算法,同时解决了mRNA中不存在内含子难以比对的问题,比对上代主流RNA-seq比对工具能快50倍,同时需求更少的内存<8G(这就意味着你可以在PC上跑数据),20个样本,每个样本一亿reads的估计,用一台电脑一天之内能够跑完。使用者可以提供精确的基因注释来提高在已知基因区域的准确性,但这是可选项。
• Transcript assembly and quantification with StringTie
• RNA-seq的分析依赖于精准的对于基因isoform的重建以及对于基因相对丰度的预测。继承于Cufflinks,StringTie相对于之前开发的工具更为准确,需求内存和耗时也更少。
• 使用者一样可以使用注释文件来帮助StringTie运行,对于低丰度的数据比较有帮助。此时StringTie依旧会对非注释区域进行转录本的组装,所以注释文件在这里是可选选项。
首先添加环境变量,如果使用conda的话需要 source activate
hisat2支持对gtf文件构建索引,并且可以向其中添加外显子,SNP等信息,进一步完善索引
随后利用 ballgown 或者 featurecount 得到表达矩阵进行下游分析
对于可变剪切一般使用 rMATs 进行统计,rMATS是一款对RNA-Seq数据进行差异可变剪切分析的软件。其通过rMATS统计模型对不同样本(有生物学重复的)进行可变剪切事件的表达定量,然后以likelihood-ratio test计算P value来表示两组样品在IncLevel(Inclusion Level)水平上的差异(从公式上来看,IncLevel跟PSI的定义也是类似的),lncLevel并利用Benjamini Hochberg算法对p value进行校正得FDR值。rMATS可识别的可变剪切事件有5种,分别是skipped exon (SE)外显子跳跃,alternative 5′ splice site (A5SS)第一个外显子可变剪切,alternative 3′ splice site (A3SS)最后一个外显子可变剪切,mutually exclusive exons (MXE)外显子选择性跳跃和 retained intron (RI)内含子滞留
随后对结果进行可视化,
以上就是关于转录组数据分析RNA-seq全部的内容,包括:转录组数据分析RNA-seq、外显子捕获测序和转录组测序分析有什么不同、转录组WGCNA分析等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!