生物信息学定义

2025 年 3 月 17 日 | 23 分钟阅读

生物信息学是一个跨学科领域,它开发技术和软件工具来理解生物数据,特别是当数据集庞大且复杂时。为了分析和解释生物数据,生物信息学(一个多学科的研究领域)融合了生物学、化学、物理学、计算机科学、信息工程、数学和统计学。使用计算和统计方法进行的生物学计算机查询评估已通过生物信息学进行。

Bioinformatics Definition

“生物信息学”一词既指包含计算机编程作为其技术的研究,也指特定的分析“管道”,尤其是在基因组学的背景下。候选基因鉴定和单核苷酸多态性分析是生物信息学的常见应用(SNPs)。此类鉴定通常旨在更好地理解疾病的遗传基础、特殊的适应性、期望的性状(尤其是在农业物种中)或种群之间的差异。生物信息学还试图以一种不太正式的方式理解控制核酸和蛋白质序列结构的蛋白质组学原理。

从大量的原始数据中,可以通过图像和信号处理提取可用的结果。它通过协助基因组测序来支持基因组及其报告突变的注释。它通过协助组织和搜索生物数据以及生物文献的文本挖掘,影响了生物学和基因本体论的创建。对基因和蛋白质的调控和表达的检查也是其功能之一。通过使用生物信息学工具,可以更轻松地比较、分析和解释遗传和基因组数据,并更全面地理解分子生物学的进化元素。它有助于对作为系统生物学关键组成部分的生物网络和通路进行更集成水平的分析和编目。它有助于在结构生物学中模拟 DNA、RNA、蛋白质和生物分子相互作用。

Bioinformatics Definition

序列

自人类基因组计划完成以来,测序速度和成本都得到了显著提高。一些实验室现在每年可以测序超过 100,000 亿个碱基,而一个完整的基因组现在可能只需 1,000 美元或更少。当 Frederick Sanger 于 20 世纪 50 年代初发现胰岛素序列并提供了蛋白质序列时,计算机在分子生物学中变得至关重要。手动比较多个序列被证明是不可能的。Margaret Oakley Dayhoff 是该领域的先驱。她创建了最早的蛋白质序列数据库之一,该数据库最初以书籍形式出版,她还发明了序列比对和分子进化的技术。

Elvin A. Kabat 是生物序列分析领域的先驱,他在 20 世纪 70 年代初对生物信息学做出了重大贡献。在 1980 年至 1991 年期间,他与 Tai Te Wu 一起出版了大量抗体序列。在 20 世纪 70 年代,当使用新的 DNA 测序方法对噬菌体 MS2 和 X174 的扩展核苷酸序列进行解析时,使用了信息学和统计算法。这些研究提供了证据,表明通过简单的统计分析可以发现众所周知的特征,例如编码区段和三联体密码,从而支持生物信息学可以提供有用信息的观点。

目标

Bioinformatics Definition

必须合并生物信息学才能提供这些活动的完整图景,以便检查常见细胞功能在不同疾病状态下是如何改变的。由于该学科的发展方式,分析和解释各种数据类型是该领域目前最紧迫的挑战。蛋白质域、蛋白质结构以及核苷酸和氨基酸序列也包括在内。计算生物学是用于描述数据分析和解释的实际过程的术语。在生物信息学和计算生物学中,重要的子领域包括

  • 创建和使用能够高效处理和利用各种类型信息的计算机程序。
  • 创建分析大规模数据集中个体之间关系的新数学公式(算法)和统计指标。例如,存在识别序列中基因、预测蛋白质结构和/或功能以及将蛋白质序列分组到相关序列家族中的技术。

提高我们对生物过程的理解是生物信息学的主要目标。然而,它侧重于创建和使用计算复杂策略来实现这一目标,这使其区别于其他方法。示例包括可视化、数据挖掘、机器学习技术和模式识别。序列比对、基因发现、基因组组装、药物设计、药物发现、蛋白质结构预测、基因表达和蛋白质-蛋白质相互作用预测、全基因组关联研究、进化建模以及细胞分裂/有丝分裂是该领域的一些主要研究计划。

由于生物数据的管理和分析,必须通过开发数据库、算法、计算和统计技术以及理论来解决形式和实际的挑战。这就是所谓的生物信息学。

由于信息技术以及基因组和其他分子研究技术的快速发展,在过去的几十年里,已经产生了大量的分子生物学知识。这些用于理解生物过程的计算和数学技术统称为生物信息学。

在生物信息学中,常见任务包括映射和分析 DNA 和蛋白质序列,比对 DNA 和蛋白质序列进行比较,以及构建和显示蛋白质结构的三维模型。

与其他领域的关系

尽管它经常与计算生物学混淆,但生物信息学是一个与生物计算相关但又不同的研究分支。生物计算利用生物工程和生物学来构建生物计算机,而生物信息学则利用计算来理解生物学。生物数据(尤其是 DNA、RNA 和蛋白质序列)的分析是生物信息学和计算生物学的一个组成部分。人类基因组计划和 DNA 测序技术的快速发展是生物信息学学科自 20 世纪 90 年代中期以来急剧扩大的主要因素。

要分析生物数据以产生相关信息,需要编写和运行使用图论、人工智能、软计算、数据挖掘、图像处理和计算机模拟程序的计算机程序。离散数学、控制论、系统论、信息论和统计学等理论基础都用作算法的基础。

序列分析

自 1977 年对噬菌体 -X174 进行测序以来,已对数万个生物体的 DNA 序列进行了破译并保存在数据库中。为了识别编码蛋白质的基因、RNA 基因、调控序列、结构基序和重复序列,对这些测序数据进行了处理。比较同一物种内或不同物种之间的基因可以揭示物种之间的关系或蛋白质功能相似性(利用分子系统学构建系统发育树)。由于数据量的不断增加,手动分析 DNA 序列早已不可行。

DNA 测序

在进行评估之前,必须首先从数据存储库(例如 Genbank)收集序列。由于原始数据可能存在噪声或受到弱信号的影响,DNA 测序仍然是一个具有挑战性的问题。已经为许多实验性的 DNA 测序方法开发了碱基识别算法。

序列组装

大多数 DNA 测序方法产生小的序列片段,这些片段必须组合起来形成完整的基因或基因组序列。所谓的“鸟枪法”测序法产生了数百万个小 DNA 片段的序列,例如,该方法被基因组学研究所 (TIGR) 用于测序第一个细菌基因组——流感嗜血杆菌(长度从 35 到 900 个核苷酸不等,取决于测序技术)。当基因组组装程序正确地比对这些片段的末端时,由于这些片段的末端重叠,因此可以用于重建整个基因组。鸟枪法测序产生测序数据速度快,但对于较大的基因组,组装片段的过程可能很困难。对于像人类基因组那样大的基因组,可能需要大型内存、多处理器计算机花费数天才能组装好片段,并且组装好的基因组通常有许多需要以后填补的间隙。与链终止法或化学降解法相比,鸟枪法测序是几乎所有已测序基因组的首选技术,而基因组组装算法是生物信息学研究的一个关键领域。

基因组注释

在基因组学的背景下,注释是通过标记 DNA 序列中的基因和其他生物学特性来完成的。除了需要注释尽可能多的基因组外,因为测序速度不再是瓶颈,大多数基因组都太大了,无法手动注释。因此,这个过程必须自动化。尽管在这些区域发现的确切序列可能因基因而异,但基因具有可识别的起始和停止区域这一事实使得注释成为可能。

基因组注释的三个级别是核苷酸、蛋白质和过程级别。

核苷酸级别注释的主要功能之一是基因发现。对于复杂基因组而言,最有效的方法是将从头基因预测与表达序列数据库和其他生物的序列比较相结合。基因组测序可以通过与基因组的其他遗传图和物理图集成来实现,这得益于核苷酸级别的注释。

为基因组的副产物分配功能是蛋白质级别注释的主要目标。蛋白质序列、功能域和基序数据库是此类注释的强大资源。然而,新的基因组序列通常有一半的预测蛋白质没有明显的功能。

过程级别注释的目的是在细胞和生物体生理学的框架内理解基因及其后代是如何运作的。在实现这一级别的注释时,不同模型系统使用的不一致术语一直是挑战之一。基因本体论联盟正在解决这个问题。

进行第一个全基因组测序和研究的自由生活生物——细菌流感嗜血杆菌——的研究所基因组学研究小组于 1995 年发表了第一个全面的基因组注释系统的描述。为了定位编码所有蛋白质、转移 RNA、核糖体 RNA 和其他位点的基因,以及进行初步的功能分配,Owen White 设计并创建了一个软件系统。虽然大多数现代基因组注释系统功能相似,但存在分析基因组 DNA 的程序。其中一个程序是 GeneMark 工具,该工具是在流感嗜血杆菌中开发并用于识别蛋白质编码基因的。

美国国家人类基因组研究所创建的一个新项目,响应了人类基因组计划在 2003 年终止后未完成的目标。所谓的 ENCODE 项目利用基因组图谱阵列和下一代 DNA 测序技术,协同收集人类基因组功能组件的数据。这些技术可以自动产生大量数据,每碱基成本显着降低,同时保持相同的准确性(碱基识别错误)和保真度(组装错误)。

预测基因功能

尽管序列同源性(以及因此的相似性)是注释基因组的主要标准,但可以利用其他序列特征来推断基因的功能。实际上,由于蛋白质序列更详细且功能更丰富,因此大多数预测基因功能的方法都集中在它们上。例如,根据疏水性氨基酸的分布来预测蛋白质中的跨膜区域。然而,也可以利用外部数据来预测蛋白质的功能,例如关于蛋白质结构、基因表达或蛋白质之间相互作用的信息。

数字进化生物学

研究不同物种随时间如何变化以及它们如何产生是进化生物学。通过促进以下任务,信息学为进化生物学家提供了帮助

  • 与仅依赖于物理分类学或生理学数据相比,可以通过分析大量的遗传变异来追踪大量生物的进化,
  • 比较整个基因组,这使得研究更复杂的进化现象成为可能,例如基因重复、水平基因转移以及预测对细菌物种形成至关重要的变量,
  • 创建复杂的计算种群遗传学模型来预测系统随时间的演变。
  • 跟踪和共享关于不断增加的物种和生物的数据

现在更复杂的生命之树将在后续研究中得到重建。

尽管这两个领域有时会被混淆,但计算进化生物学并不总是与使用遗传算法的计算机科学研究领域相关。

比较基因组学

比较基因组分析的核心是确定不同生物体中基因(同源性分析)或其他基因组属性之间的相关性。这些基因组间图谱使我们能够识别导致两个基因组分化的进化事件。基因组进化受各种进化过程的影响,这些过程在不同的组织水平上运作。点突变在最基本水平上影响单个核苷酸。大染色体片段在高一级上经历插入、删除、倒位、横向转移、重复和横向转移。最终,内共生、多倍体化和杂交等过程涉及完整的基因组,并经常导致快速物种形成。

基因组进化的复杂性为数学模型和算法的创造者带来了许多令人兴奋的挑战。这些开发者转向各种算法、统计和数学技术,从基于简约模型的精确、启发式、固定参数和近似算法,到基于概率模型的贝叶斯分析的马尔可夫链蒙特卡罗算法。

在许多这些研究中,序列的分配给蛋白质家族基于同源序列的发现。

全球基因组学

Tettelin 和 Medini 于 2005 年首次提出了泛基因组学的概念,该概念最终在生物信息学领域获得关注。虽然最初用于描述密切相关的同一物种菌株,但泛基因组是指特定分类群的整个基因库。它也可以指更大的上下文,例如一个属、一个门等。可消耗/灵活基因组由未出现在所有研究基因组中但存在于部分或所有基因组中的基因组成。核心基因组是存在于所有研究基因组中的基因集(这些通常是对生存至关重要的管家基因)。可以使用生物信息学工具 BPGA 来表征细菌物种的泛基因组。

疾病遗传学

由于下一代测序技术的发展,不孕症、乳腺癌和阿尔茨海默氏病等复杂疾病的基因已被成功绘制。为了识别导致这些复杂疾病的突变,全基因组关联研究是一种可行的策略。通过这些研究,已经发现了数万个与类似疾病和特征相关的遗传变异。此外,基因最关键的应用之一是它们在预后、诊断和治疗中的潜在用途。许多研究探讨了用于选择基因作为预测疾病存在或预后的方法,以及所涉及的挑战和风险。

全基因组关联研究已成功发现了数百万个复杂疾病和行为的常见遗传变异;然而,这些常见变异仅占遗传度的很小一部分。一些缺失的遗传度可能可以用罕见突变来解释。由于大规模全基因组测序研究,已发现数亿个罕见变异,这些研究已快速测序了数百万个完整基因组。通过包含功能注释,可以大大提高全基因组测序研究的罕见变异遗传关联分析能力,这些注释有助于优先排序罕见功能变异并预测遗传变异的影响或功能。利用全基因组测序数据,已开发出一些提供一体化罕见变异关联分析的工具,包括基因型数据及其功能注释的整合、关联分析、结果汇总和可视化。为了寻找与复杂性状相关的罕见变异,必须收集大量的样本。全基因组测序研究的荟萃分析为这一挑战提供了一个有吸引力的解决方案。

癌症突变综述

癌症会导致受影响细胞的基因组发生复杂、有时是出乎意料的重排。为了在多种癌症相关基因中发现先前未发现的点突变,会进行广泛的测序工作。生物信息学家继续开发专门的自动化系统来管理生成的大量序列数据,他们还开发新的算法和软件来将测序结果与不断增长的人类基因组序列和种系多态性数据库进行比较。

使用新的物理检测方法,例如用于检测已知点突变的单核苷酸多态性阵列和用于识别染色体增益和损失的寡核苷酸微阵列(这个过程称为比较基因组杂交)。当用于高通量分析数千个样本时,这些检测技术会同时测量基因组中的数十万个位点,为每次实验产生 PB 级别的数据。同样,海量和多样化的数据类型为生物信息学家带来了新的机遇。为了推断实际的拷贝数变化,正在开发诸如隐马尔可夫模型和变化点分析之类的方法,因为通常发现数据包含大量的不确定性或噪声。

在对癌症基因组进行生物信息学分析以寻找外显子突变时,可以应用两个关键概念。首先,累积的体细胞基因突变是癌症的原因。第二个癌变中的突变包括驱动基因,必须将其与乘客基因区分开来。

由于下一代测序技术为生物信息学领域带来的进步,癌症基因组学可能会发生重大转变。由于改进的技术和工具,生物信息学家现在能够快速且廉价地测序大量癌症基因组。这可能导致开发一种更灵活的方法来分析基因组中与癌症相关的突变并识别不同类型的癌症。未来,通过癌症样本的测序,可能能够跟踪疾病恶化的个体。

在多种癌症中发现的易感性损伤的分析是另一种类型的数据,需要新的信息学发展。

基因和蛋白质表达

基因表达分析

可以使用多种方法来测量 mRNA 水平,以识别许多基因的表达,例如微阵列、表达的 cDNA 序列标签 (EST) 测序、基因表达系列分析 (SAGE) 标签测序、大规模并行签名测序 (MPSS)、RNA-Seq(也称为“全转录组鸟枪法测序” (WTSS))或多重原位杂交的各种应用。开发统计工具以区分高通量基因表达研究中的信号和噪声是计算生物学中的一个重要研究领域,因为所有这些方法都非常容易出现噪声和/或对生物测量偏差敏感。这些研究经常用于识别与疾病相关的基因。例如,为了识别特定癌细胞群中上调和下调的转录本,可以比较癌性上皮细胞的微阵列数据与非癌细胞的数据。

蛋白质表达分析

高通量 (HT) 质谱 (MS) 和蛋白质微阵列都可以快速概览生物样本中存在的蛋白质。理解蛋白质微阵列和 HT MS 数据需要大量的生物信息学;前者的方法与靶向 mRNA 的微阵列面临类似的问题,而后者则面临将大量质谱数据与蛋白质序列数据库的预测质量进行比较的挑战,以及对检测到每种蛋白质不完全肽段的样本进行具有挑战性的统计分析。使用亲和蛋白质组学,可以在组织背景下实现细胞蛋白质定位。结果以免疫组织化学和组织微阵列为基础的空间数据显示。

调控分析

基因调控是通过一个信号(可能是激素等细胞外信号)最终导致一个或多个蛋白质活性的增加或减少的复杂过程的编排。生物信息学方法已被用于研究该过程的各个阶段。

例如,附近的基因组元件可以控制基因的表达方式。启动子分析过程涉及发现和分析基因编码区周围 DNA 中的序列基序。这些基序会影响该区域翻译成 mRNA 的程度。通过三维相互作用,远离启动子的增强子元件也可以控制基因表达。通过染色质构象捕获实验的生物信息学分析可以识别这些关系。

可以通过比较生物体不同状态下的微阵列数据并就每个状况下涉及的基因形成假设来从表达数据中推断基因调控。例如,可以比较单一细胞生物中的不同胁迫和细胞周期阶段(热休克、饥饿等)。然后可以使用聚类方法在表达数据上识别共表达基因。例如,可以搜索共表达基因上游区域(启动子)中过度代表的调控元件。K-均值聚类、自组织映射 (SOM)、层次聚类和共识聚类方法是用于基因聚类的聚类算法的一些示例。

结构生物信息学

Bioinformatics Definition

生物信息学用于预测蛋白质结构,这是另一个关键应用。从编码它的基因的序列,可以很容易地确定蛋白质的氨基酸序列,或所谓的初级结构。大多数时候,自然环境中的结构仅凭其初级结构就可以识别。(有些例外,例如疯牛病朊病毒,会影响牛。)要理解蛋白质如何工作,必须熟悉其结构。次级、三级和四级结构是分类结构信息最常用的方法。此类预测仍然没有找到可行的通用解决方案。到目前为止,大多数注意力都集中在大多数情况下都能正常工作的启发式方法上。

同源性概念是生物信息学中的基本概念之一。如果基因 A 的序列(其功能已知)与基因 B 的序列(其功能未知)同源,那么人们会假设 B 可能与 A 具有相同的功能。这就是同源性在生物信息学基因组学分支中用于预测基因功能的方式。同源性在生物信息学结构学分支中用于识别对结构发育和与其他蛋白质相互作用至关重要的蛋白质部分。一旦已知同源蛋白质的结构,该知识就用于一个称为同源建模的过程来预测蛋白质的结构。这是长期以来预测蛋白质结构的唯一方法。

然而,随着谷歌人工智能研究部门 DeepMind 中的一个生物信息学团队创建的名为 AlphaFold 的新深度学习算法软件的出现,发生了一个范式转变。在第 14 届蛋白质结构预测关键评估 (CASP14) 计算蛋白质结构预测软件竞赛中,AlphaFold 创造了历史,成为第一个提交的预测在大多数情况下具有与实验结构相当的准确性的竞争者,并且远远优于当时所有其他预测软件技术。此后,AlphaFold 已通过 AlphaFold 提供数亿个蛋白质的预测结构。

一个例子是人类中的血红蛋白和豆类中的豆血红蛋白,它们是同一个蛋白质超家族的远缘成员。两者都出于同一原因携带氧气到全身。尽管它们具有完全不同的氨基酸序列,但这两种蛋白质近乎相同的蛋白质结构表明它们的功能几乎相同,并且具有共同的祖先。

蛋白质折叠和从头(从零开始)基于物理的建模是预测蛋白质结构的进一步方法。

结构生物信息学的进一步应用是使用蛋白质结构进行虚拟筛选模型,如定量结构-活性关系模型和蛋白质化学计量模型 (PCM)。蛋白质的晶体结构还可以用于模拟各种实验,例如配体结合研究和计算机诱变研究。

生物网络与系统

网络分析的目标是理解生物网络(例如蛋白质-蛋白质相互作用网络或代谢通路)内的连接。虽然可以使用一种类型的分子或实体(例如基因)来构建生物网络,但网络生物学通常旨在整合多种数据类型,包括蛋白质、小分子、基因表达数据和其他信息,这些信息在物理上或功能上(或两者兼有)相互关联。

系统生物学是通过计算机模拟构成新陈代谢的细胞子系统(例如代谢物和酶的网络、信号转导通路和基因调控网络)来研究生物过程的相互关联性。通过模拟简单的(人工)生命形式的计算机模拟,人工生命或虚拟进化旨在更好地理解进化是如何运作的。

分子相互作用网络

Bioinformatics Definition

通过蛋白质核磁共振波谱 (Protein NMR) 和 X 射线晶体学,已确定了数万个三维蛋白质结构。结构生物信息学中的一个关键问题是,是否可以通过仅基于这些三维形状来预测潜在的蛋白质-蛋白质相互作用是可行的,而无需先进行蛋白质-蛋白质相互作用实验。蛋白质对接问题已通过多种不同策略得到解决,但该领域似乎仍有许多工作要做。

蛋白质-配体相互作用(可能涉及药物)和蛋白质-肽相互作用是可能发生的进一步相互作用。称为对接算法的计算技术分析分子相互作用的核心思想是分子动力学模拟原子绕可旋转键的运动。

文献分析

由于已发表文献的增加,阅读所有论文几乎变得不可能,这导致了研究领域的碎片化。文献分析的目标是利用计算和统计语言学来收集这个不断增长的文本资源语料库。例如

  • 使用缩写识别软件识别生物术语的长形式和缩写。
  • 被称为命名实体识别的生物术语(如基因名称)的识别。
  • 使用蛋白质-蛋白质相互作用工具从文本中确定哪些蛋白质与哪些蛋白质相互作用。

快速图像分析

计算技术加速或完全自动化大规模、信息量大的生物医学图像处理、量化和分析。通过提高准确性、客观性或速度,现代图像分析工具可以帮助观察者从大型或复杂的图像集中进行测量。观察者可能完全被一个完全成熟的分析系统取代。尽管这些系统并非专门针对生物医学成像,但它们对于研究和诊断都变得越来越重要。例如

  • 高通量、高保真度量化和亚细胞定位(高内涵筛选、细胞组织病理学、生物图像信息学)
  • 形态测量学
  • 可视化和临床图像分析
  • 实时观察活体动物的呼吸模式。
  • 在动脉损伤发生和恢复期间拍摄的实时图像中测量阻塞的幅度
  • 分析实验室动物的大量录像以观察其行为
  • 使用红外测量法测量代谢活动
  • 使用 Sulston 分数推断 DNA 图谱中的克隆重叠。

数据库

对于生物信息学的研究和应用,数据库至关重要。有许多数据库涵盖不同类型的信息,例如 DNA 和蛋白质序列、分子结构、表型和生物多样性。两者最常见的组合是数据库存储实验数据(直接从实验中获得)和预测数据(从分析中获得)。它们可能专门针对特定生物体、过程或有趣的分子。它们也可以使用从许多其他数据库收集的信息作为替代。这些数据库的格式、访问方法和公开可访问程度各不相同。

以下列表包含一些最受欢迎的数据库。请参阅小节开头的链接以获取更完整的列表。

  • 生物化学序列分析工具包括 Genbank 和 UniProt。
  • 蛋白质数据库:结构分析 (PDB)。
  • 蛋白质家族和基序发现工具:InterPro、Pfam。
  • 序列读取存档用于下一代测序。
  • 代谢通路数据库(KEGG、BioCyc)、相互作用分析数据库和功能网络都用于网络分析。
  • GenoCAD 用于构建人工遗传电路。

软件和工具

生物信息学有各种类型的软件工具,从简单的命令行工具到更复杂的图形程序以及由不同生物信息学公司或政府组织提供的独立 Web 服务。

完全免费的生物信息学应用程序

自 20 世纪 80 年代以来,一直存在大量免费和开源软件应用程序,并且至今仍是如此。创新的计算机实验潜力、分析不断变化的生物读出数据新算法的持续需求,以及可免费分发的开放代码库的可用性,都为所有研究小组(无论资金安排如何)为生物信息学和开源软件的多样性做出贡献创造了机会。当作为营利性应用程序中的社区支持插件使用时,开源技术通常充当思想孵化器。

为了帮助解决生物信息集成方面的难题,它们还可以提供事实上的标准和共享对象模型。

Bioconductor、BioPerl、Biopython、BioJava、BioJS、BioRuby、Bioclipse、EMBOSS、.NET Bio、带生物信息学插件的 Orange、Apache Taverna、UGENE 和 GenoCAD 只是一些可用的开源软件应用程序。自 2000 年以来,非营利性开放生物信息学基金会一直为两年一度的生物信息学开源会议 (BOSC) 提供财政支持,以维护这一传统并促进新的机会。

基于 Web 的生物信息学服务

已经使用 SOAP 和 REST 接口构建了广泛的生物信息学应用程序,使得运行在一个机器上、位于世界一个地区的应用程序能够访问位于其他地区的服务器上的方法、信息和计算资源。这些服务式生物信息学资源,从具有通用数据格式的独立工具集合(在单一、独立或基于 Web 的接口下)到集成、分布式和可扩展的生物信息学工作流管理系统,展示了基于 Web 的生物信息学解决方案的适用性。

序列搜索服务 (SSS)、多序列比对 (MSA) 和基本生物信息学服务 (BSA) 是 EBI 将基本生物信息学服务分类的三个类别(生物序列分析)。

生物信息学工作流管理系统

生物信息学工作流管理系统是一种特殊的工作流管理系统,专门用于在生物信息学应用程序中组成和执行工作流,或一组计算或数据操作任务。此类系统的目的是

  • 提供一个易于使用的环境,使应用程序科学家能够设计自己的工作流。
  • 如果可以为科学家提供交互式工具,让他们能够运行自己的工作流并实时查看结果,
  • 简化科学家工作流的共享和重用过程,并
  • 使科学家能够追溯工作流执行结果的来源以及工作流构建过程。

Bio-Compute 和 Bio-Compute 对象

生物信息学中的可重复性是美国食品药品监督管理局于 2014 年在美国国立卫生研究院贝塞斯达校区赞助的一次研讨会的主题。在接下来的三年里,一群感兴趣的各方经常会面,讨论 BioCompute 范式的未来。政府、商业和学术界的代表都包含在这些利益相关者中。NIH 的众多研究所和中心、FDA、诸如人类变异组项目和欧洲医学信息学联合会等非营利组织,以及斯坦福大学、纽约基因组中心和乔治华盛顿大学等研究机构的代表在会议上担任主持人。

人们一致认为,BioCompute 范式将以数字“实验室笔记本”的形式出现,从而实现生物信息学技术的复制、审查和重用。这样做的目的是促进团队之间的想法交流,同时允许研究团队在普通人员变动期间获得更大的连续性。此举得到了美国 FDA 的支持,以提高其监管人员对管道信息的访问性和透明度。

2016 年,该小组再次在马里兰州贝塞斯达的国家卫生研究院会面,讨论 BioCompute 对象(BioCompute 范式的体现)的可能性。这项工作的预印本手稿和“标准试用版”都已上传到 bioRxiv。JSON 大小的记录可以由员工、合作者和监管机构访问。

教育平台

生物信息学的计算性质使其适用于计算机辅助和在线学习,除了许多大学教授的线下硕士学位课程。Rosalind 和瑞士生物信息学研究所培训门户提供的在线课程是用于教授生物信息学原理和技术的软件平台示例。加拿大生物信息学研讨会网站提供 Creative Commons 许可的视频和培训课程幻灯片。4273 项目(也称为 4273pi 项目)提供对开源教育资源的免费访问。该课程已用于培训成人和学童,并在廉价的 Raspberry Pi 计算机上运行。一群在代号为 4273 的学者和研究人员的合作下,使用 Raspberry Pi 计算机和 4273 操作系统来执行研究级生物信息学。

MOOC 平台也提供生物信息学及相关领域的在线认证,例如 EdX 上的生命科学数据分析 XSeries 以及 Coursera 上的生物信息学专业化(加州大学圣地亚哥分校)和基因组数据科学专业化(约翰霍普金斯大学)(哈佛大学)。

结论

生物信息学已发展成为生物科学领域中一个至关重要的跨学科科学主题,支持“组学”技术和领域,主要管理和分析“组学”数据。由于“组学”领域技术进步导致高通量生物数据的发展,因此需要并优先使用生物信息学资源,以及用于分析复杂且进一步扩大的“大数据”量的研究和应用,而没有生物信息学,这些将是不可能且无意义的。因此,在此已证明,迫切需要培训具备综合知识、多语种和跨领域经验的新一代高素质科学家,他们能够使用先进的操作系统、软件、算法、数据库/网络技术,以处理、分析和解释高通量和不断增长的复杂生物数据量。


下一主题BMR 定义