DNA数据库的EMBL

电影斗鱼2023-04-26  13

欧洲生物信息学研究所(European

Bioinformatics

Institute,

EBI)创建的一个核酸序列数据库。EMBL的数据来源主要有两部分,一部分由科研人员或某些基因组测序机构通过计算机网络直接提交,另一部分则来自科技文献或专利(Stoesser等,

1998)。EMBL与DDBJ、GenBank建有合作关系,他们分别在全世界范围内收集核酸序列信息,每天都将新发现或更新过的数据相互交换。

DNA数据库的规模正在以指数方式增长,平均不到9个月就增加一倍。1998年1月,EMBL中收录的序列数已超过一百万,包括15,500个物种,其中模式生物的序列占50%以上,它们包括人类(Homo

sapiens),

线虫(Caenorhabditis

elegans),啤酒酵母(Saccharomyces

cerevisiae),小鼠(Mus

musculus)和拟南芥(Arabidopsis

thalania)。

可以利用序列查询系统

SRS(Sequence

Retrieval

System)从EMBL数据库中提取有关信息(Etzold等,1996年)。SRS序列查询系统通过超文本链接将DNA序列数据库和蛋白质序列、功能位点、结构、基因图谱以及文献摘要MEDLINE等各种数据库联系在一起。利用EBI网站提供的BLAST或FastA程序,可以对EMBL数据库进行未知序列同源性搜索。

基因间的相互作用又称上位性或基因间互作,考虑两个基因位点A-a和B-b,上位性有四种类型,即纯合基因型间的上位性、A位点纯合基因型和B位点杂合基因型间的上位性(用ad表示)、A位点杂合基因型和B位点纯合基因型间的上位性(用da表示)以及杂合基因型间的上位性(用dd表示)

从代谢系统或基因的调控角度就比较好理解这个问题:任何基因的表达都需要一个表达系统,系统间的因子之间都存在着相互的作用。上游或下游因子的表达与否,剂量都会对当前基因有一定的反馈调控作用。

深圳市大鹏新区大鹏街道下沙片区禾塘仔,这里依山傍海,环境优美,背山面海的几栋白色的建筑并不起眼,但令人难以置信的是,庞大的数据如同螺旋一般,每天从这里源源不断地涌出。这些白色的梯田造型的建筑就是中国首个获批筹建的国家基因库,也是目前全球最大的综合性基因库。

国家基因库项目一期占地面积475万平方米,拥有基因测序房、超级计算房以及冷冻资源房,相较于其庞大的建筑规模,它丰富的内容更是令人瞠目结舌:国家基因库目前已存储多种生物资源样本1000万份,可检索生物信息条目数已经超过一个亿,我国更是计划把它打造成为中国的诺亚方舟,建立一个巨大的生物活体库,保护和保存世界约三十万种植物、百万种动物、近千万种微生物活体资源。如此大手笔、高规格的项目究竟什么来头?建立国家基因库的意义何在?下面就让我们一起走进关于国家基因库的专业解读。

                         图1 位于深圳市大鹏新区的国家基因库一期项目

“干”“湿”“活”三位一体

在我国建立基因库之前,美国、欧洲和日本就已经建立了大型基因数据库,而且这三大库里的生物信息数据几乎涵盖所有已知的脱氧核糖核酸、核糖核酸和蛋白质数据。中国国家基因库与这三大库的不同就在于,它不仅仅是数据库,而是国际上现有的各类生物样本库、数据库、生物多样性库、疾病库等的综合升级版。除了所谓的“干库”,——基因、蛋白、分子、影像等多组学生物信息数据库,和“湿库”——多样性生物样本和物种遗传资源库之外,中国的国家基因库还引入了“活库”,也就是生物活体库,将存储的内容扩展到动物资源、植物资源、微生物资源和海洋资源。同时,该基因库不仅面向科研,还面向推动中国精准医学、精准农业的发展,利用对基因信息的掌控推动产业的发展。

图2 国家基因库中的生物信息数据库

基因的“国库”

2011年,国家发改委等4部委批复同意深圳依托华大基因研究院组建国家基因库,今年9月,国家基因库正式投入运营,这是中国首个获批筹建的国家基因库,同时也是目前为止的唯一一个。

国家基因库有“超测”、“超算”、“超存”的能力:其中,人类资源方面基因库主要保存血液样本、组织样本、细胞系、细胞和尿液等,将为重大疾病的前瞻性研究提供样本资源支撑,为疾病诊断与预测及个性化医疗等奠定基础。在动物资源方面,基因库主要保存珍稀动物及具有重要经济价值的动物组织、细胞等。此外,国家基因库除了存储人类资源、动物资源以外,还存储植物资源、海洋资源和微生物资源。这些都可以为日后的研究工作收集大量的信息。这个建设中的基因“国库”,数据规模到底有多大?打个形象化的比方,目前深圳国家基因库已建成20 Pb数据的可访问能力,以一部**约500Mb计算,20Pb相当于四千万部**,一个人一天看一部**,至少需要10万年才能看完。

存储健康的“生命银行”

2015年1月,美国总统奥巴马在国情咨文演讲中谈到“人类基因组计划”所取得的成果,并宣布新的项目——— 精准医疗计划。更有专家表示,精准医疗计划在时间上是承接人类基因组计划,在本质上是对现行的以药物治疗为主体的医疗进行改革。科学家们认为,绝大多数的疾病都可以通过基因测序得以提前防范和管理。那么,基因测序究竟如何“锁定”疾病?以一个形象化的比喻来解释,一个D N A的正常表达可以理解为一段文字,如果该文字中出现一个错别字,可能就失去其正确意义。测序就是要与正常序列比对,找出哪个细胞哪里出错。通过测序结果,分析基因突变的部分,就能够找到某个疾病对应的基因,方便对症下药。事实上,每个人一生中所有关键阶段的标本都应该永久保存起来:比如出生时的干细胞,20岁时的免疫细胞,30岁时的生殖细胞等等……而国家基因库,就是储存这些样本和数据的地方,它就像是人类的“生命银行”一般。通过有意识地存储自己的健康数据,让人们对自己身体变化状况了如指掌,并且根据这些数据设计自己的饮食、运动和生活节奏,“对抗”衰老。

深圳国家基因库建成后,这个巨型“生命银行”将为中国生命科学研究和生物产业发展提供基础性和支撑性服务平台,储存和管理中国特有的遗传资源、生物信息和基因数据。同时,以生物资源为依托,形成从资源到科研到产业的全贯穿、全覆盖模式,实现大资源、大数据、大科学、大产业的整合与应用。

图3 国家基因库的工作人员将细胞样品放入液氮中保存

在农业时代,一个国家拥有的耕地越多优势越大;在工业时代,拥有的石油、矿产等能源越多优势越大;而在生命时代,拥有更多基因资源同时能对基因资源进行认知和利用,则意味着更大的优势。国家基因库的成立,正在为我国积累全新的优势。目前,国家基因库已与联合国粮食及农业组织、国际农业研究磋商小组、国际生物及环境样本库协会、挪威斯瓦尔巴全球种子库、美国自然历史博物馆等100多个组织和科研机构建立战略合作关系,将在人类健康、生物多样性、生物进化机制等方面开展合作研究。

出品:科普中国

制作:爱科范儿团队

监制:中国科学院计算机网络信息中心

“科普中国”是中国科协携同社会各方利用信息化手段开展科学传播的科学权威品牌。

本文由科普中国融合创作出品,转载请注明出处。

答:可以通过基因组浏览器,比如UCSC Genome Browser、Ensembl、NCBI Genome等,查找基因的基本信息,如基因名称、基因结构、基因功能等,以此作为比较的依据,找出不同数据库中同一基因的不同名称。此外,还可以利用基因数据库之间的比对工具,比如BLAST,对基因序列进行比对,从而找出不同数据库中同一基因的不同名称。另外,也可以利用基因注释工具,比如InterProScan,对基因序列进行注释,以此作为比较的依据,找出不同数据库中同一基因的不同名称。

以上就是关于DNA数据库的EMBL全部的内容,包括:DNA数据库的EMBL、如何查找基因之间相互作用的数据库、国家基因库:人类存储健康信息的“生命银行”等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

转载请注明原文地址:https://juke.outofmemory.cn/read/3688765.html

最新回复(0)