生信文章分享!多组学数据、多重网络、

petting2022-07-07  14

今天,我想和大家分享一篇发表在去年《生物和医学计算机》杂志上的文章,题为《基于网络的多组学数据综合排序的癌症基因优先排序》。

摘要:

作者提出了一种整合的基于等级的方法(iRank),通过统一的网络框架整合多个组学数据,对癌症基因进行优先排序。将其应用于TCGA HCC数据集。iRank的核心是基于带约束的改进PageRank算法。

数据:

为了概念的证明,这是一些想法的简短和不完整的实现,以证明其可行性和论证其原理,作者优先考虑从KEGG和Malacards汇编的HCC癌基因。有33个基因与HCC的发生发展有因果关系。HCC经济学的数据是从TCGA下载的。匹配一致的样本信息后,最终选出37个有对照和肿瘤的样本。

IRank使用RNA-Seq、DNA甲基化、体细胞突变、miRNA-seq和拷贝数变体。

作者使用多重网络来组织相应的多组学数据。在跨层次互作组中,作者选择基因调控网络(GRN)作为核心层。作者从RegNetwork和miRTarbase下载了完整的人GRN来调节miRNA的相互作用。此外,利用string、bind、biogrid、hprd、intact和MINT数据库构建了蛋白质相互作用网络(PPI)。

IRank框架:

伊朗框架图

IRank框架,主要包括6个步骤。(a)(b)下载HCC数据,并从各种数据库中构建多层次综合生物分子网络。(c)根据正常癌症样本的微分互信息(DMI ),测量边的权重,并将网络与多组学数据整合。(4)在加权多重网络的基础上,提出了一种约束PageRank算法(CPR ),其中每个节点的PR值由CPR实现。(e)(f)综合多个网络的等级后,得到每个节点的最终排名。图中R()表示节点在对应层次中的排名,α,β,γ是对应的权重。

多网络和多组学数据整合

通过计算一条边上两个节点X和Y之间的互信息,对多个网络的边进行加权,从而将分子数据映射到集成的多个网络上。多重网络的每条边的差分互信息(DMI)被定义为DMI,然后通过最小-最大方法标准化,并且通过标准化的DMI对边进行加权以获得加权多重网络。

现在以ORIrd为例(ORIrd是指使用的数据是GRN+RNA-Seq+DNA甲基化):

在RNA-Seq数据中,发现了7391和1843个基因的37个正常样本和37个癌症样本。计算差异互信息(权重)。

在DNA甲基化和RNA-Seq数据中发现基因5934的37个正常样本数据和37个癌症样本数据。计算差异互信息(权重)。

(d)在加权的多个网络上实现受约束的PageRank算法(CPR)。

去掉权重为0的边后,加权网络就是内容特定网络,然后通过CPR算法的PR值得到节点排名。

还是以奥里德为例来说明:

1)在RegNetwork级别构建转移矩阵

根据加权基因调控网络,对源基因和目标基因进行计数,并得到基因总数NR。传递矩阵的构造(稀疏):首先构造NR×NR的三个全零的稀疏矩阵R,R,RW,RCS。如果两个基因之间存在调控关系,则R和RCS对应的元素为1,RW对应的元素对为DMI。然后对R的每一列求和,如果一列的和为N(不为零),则将R中该列的元素除以N,加权转移矩阵为RTW=R.*RW。

2)构建从2)DNA到RegNetwork的转移矩阵

根据DNA对RNA的调节,计算基因交叉数d。传递矩阵的构造(稀疏):首先构造NR×D的三个全零的稀疏矩阵DR、DWR、DRC。如果甲基化基因和网络基因之间存在调控关系,那么DR和DRCS对应的元素是1,DWR对应的是DMI。然后对DR的每一列求和,如果一列的和为N(不为零),则用DR中该列的元素除以N,加权转移矩阵为DRTW=DR.*DWR*(λ/2)。

得到最终(NR+D)长度的PR值。对于33个HCC癌基因,找出每个基因的PR值及其在所有基因中的排名。

PageRank算法曾经是Google的网页排名算法。PageRank算法,给每个目标网页附加权重,权重大的显示在前面,权重小的显示在后面。PageRank算法就是给每个网页赋予权重。PageRank算法借鉴了学术论文重要性的评价方法:谁被引用次数多,谁就越重要。

PageRank算法的核心思想

(1)如果一个网页被很多其他网页链接,说明这个网页很重要,也就是PageRank值会比较高。

(2)如果一个高PageRank值的网页链接到另一个网页,那么被链接网页的PageRank值也会相应增加。

一个网页的PR值,用概率来说,就是这个网页被访问的概率。PR值越高,其排名越高。

结果:

给出了结合网络和组学数据的不同策略的层次箱线图。ORI代表在原始GRN中获得的排名,意味着只考虑GRN的网络拓扑。ORIr代表由RNA-Seq数据加权的GRN基因的排序。

IRank也是通过添加多层次信息(即DNA甲基化(D)、体细胞突变(S)和miRNA(m))在多层网络中运行。

作者发现,当更多的分子水平组学数据被整合到优先级中时,癌症基因往往会获得更高的排名。并且具有较小的平均值和标准偏差。

转载请注明原文地址:https://juke.outofmemory.cn/read/625477.html

最新回复(0)