基因库

2025年3月17日 | 阅读 15 分钟

基因库由一个生物体的多个 DNA 序列组成，这些序列已被克隆到载体上，以便于纯化、储存和分析。基因库是克隆 DNA 的集合，其目的是使在集合中找到源 DNA 的任何特定片段的可能性非常高。基因库用于收集和储存信息，就像标准的图书馆一样，是一系列 DNA 分子。所有基因库中的 DNA 片段集合代表了一个特定的感兴趣的生物系统。

构成人类基因组的 30 亿个碱基对 DNA 序列中，大约有 25,000 个基因。要研究它，研究人员必须首先将这些基因中的每一个与生物体 DNA 中的其他基因分开。研究人员感兴趣的 DNA 片段可以被定位和分离以供进一步检查。当一个基因被发现并复制时，它就被认为是“克隆”了。

什么是基因组？

在分子生物学和遗传学科学中，基因组被认为是包含一个生物体所有遗传物质。它由 DNA（或 RNA 病毒的情况下的 RNA）核苷酸序列组成。核基因组包含蛋白质编码和非编码基因、其他有价值的基因组区域，包括调控序列（参见非编码 DNA），以及通常大量的未知功能的垃圾 DNA。几乎所有真核生物都存在线粒体和小的线粒体基因组。此外，藻类和植物可能包含含有叶绿体基因组的叶绿体。

基因组研究被称为基因组学。许多生物的基因组序列和注释已经完成。尽管最初的“完成”序列缺少 8% 的基因组，主要由重复序列组成，但人类基因组计划于 1990 年 10 月启动。它于 2003 年 4 月公布了人类基因组的测序。

得益于能够处理人类 DNA 中发现的许多重复序列的测序技术的进步，而这些序列在第一次人类基因组计划研究中并未完全揭示，科学家们于 2022 年 3 月公布了人类基因组的首个端到端序列。

历史

两次诺贝尔奖得主 Frederick Sanger 于 1977 年完成了第一个基于 DNA 的基因组的测序。Sanger 和他的研究小组构建了一个噬菌体 phi X 174 的文库，用于 DNA 测序。由于这项成就的重要性，对于包括基因治疗在内的研究，对基因组测序的需求日益增长。现在，团队可以对基因组中的变异进行分类，并研究可能导致帕金森病、阿尔茨海默病、多发性硬化症、类风湿性关节炎和 1 型糖尿病等疾病的基因。这些是由基因组关联研究的进展和用于构建和测序的基因组文库的可及性带来的。以前使用的一些少数方法是连锁研究和候选基因调查。

基因库的类型

基因库有两种类型

基因组文库
cDNA 文库

1) 基因组文库

基因组文库是由重叠的 DNA 链组成的集合，这些 DNA 链共同构成了一个生物体的整个基因组。当载体储存 DNA 时，种群中的每个相同载体都包含一个单独的 DNA 插入片段。生物体的 DNA 被取出细胞，用限制性内切酶消化成特定大小的片段，然后组装成基因组文库。随后使用 DNA 连接酶将这些片段引入载体。然后，当每个细胞中只有一个载体分子时，载体 DNA 可以被宿主生物同化，宿主生物通常是埃希氏大肠杆菌或酵母菌群落。当载体被宿主细胞携带时，可以很容易地扩增并从文库中获取特定克隆进行研究。

有几种载体类型和插入能力可供选择。总的来说，由基因组较大的物种创建的文库需要具有较大插入片段的载体，这需要使用更少的载体分子。为了确定完全覆盖基因组所需的克隆数量，研究人员可以选择一个载体，同时考虑最佳的插入片段大小。

测序应用通常使用基因组文库。人类基因组和其他模式物种的整个基因组的测序在很大程度上得益于它们的贡献。

基因组文库的构建

构建基因组文库需要大量的重组 DNA 分子。一旦提取了生物体的基因组 DNA，就会用限制性内切酶对其进行消化。对于基因组非常小的物种（10 kb），消化的片段可以通过凝胶电泳区分。然后，可以将分离出的片段分别克隆到载体中。然而，一旦限制性内切酶消化了一个大基因组，就需要去除的片段就太多了。在整个片段集合与载体一起复制后，可以进行克隆分离。在每种情况下，片段都使用相同的限制性内切酶消化的载体连接在一起。然后可以使用载体将基因组 DNA 片段导入宿主生物。

从大基因组构建基因组文库的步骤如下

纯化并提取 DNA。
使用限制性内切酶分解 DNA。因此，形成大小相似的片段，每个片段包含一个或多个基因。
将 DNA 片段连接到也用限制性内切酶切割的载体上。使用 DNA 连接酶将 DNA 片段连接到载体。结果是产生了一个巨大的重组分子库。
通过转化，宿主细菌吸收这些重组分子并产生 DNA 文库。

DNA 的切割机制

(a) 物理程序

使用细针头或超声波，将基因组 DNA 机械剪切成可用于克隆的合适大小的片段。通常选择约 20 kb 的平均 DNA 片段大小用于克隆到基于载体上。由于 DNA 碎片化是不可预测的，DNA 片段的大小可能不同。此方法需要大量 DNA。

(b) 酶技术

对于纯 DNA 的片段化，使用限制性内切酶。
易受限制性内切酶活性影响的位点的分布概率，这将导致 DNA 片段比预期大小短，从而限制了此过程。
如果一个需要克隆的基因有多个特定限制性内切酶可以识别它的位置，那么完全消化会产生通常太小的片段，无法克隆。因此，该基因可能不会包含在文库中。
这个问题通常通过使用一定量的限制性内切酶对 DNA 分子进行部分消化来解决，以产生最佳大小的片段。
决定使用哪种限制性内切酶的两个标准是酶活性产生的末端类型（钝端或粘性末端）以及酶对化学碱基修饰（如甲基化）的敏感性，这些修饰可能会阻碍酶的功能。
通过使用蔗糖梯度法或琼脂糖凝胶电泳，可以回收所需大小的片段并将其连接到适当的载体上。

如下所述，通过使用产生钝端或粘性末端的限制性内切酶来实现部分限制性消化

i) 限制性消化产生钝端的酶

基因组 DNA 可通过产生钝末端的限制性内切酶（如 HaeIII 和 AluI）进行分解。在克隆之前，钝末端会被转化为粘性末端。这些钝末端 DNA 片段可以连接到称为连接体（linker）的寡核苷酸上，这些连接体包含一个限制性内切酶识别序列，或者连接到适配器（adaptor）上，适配器具有用于克隆到特定限制性位点的粘性末端悬垂。

连接体

连接体是短的双链 DNA 片段，具有限制性内切酶的识别位点，长度为 8 到 14 bp。通过使用连接酶，将连接体连接到钝末端 DNA 上。与较大分子的钝末端连接相比，连接体连接更有效。连接的 DNA 可以用适当的限制性内切酶消化，产生用于在载体中克隆所需的粘性末端。目标 DNA 片段可能包含产生粘性末端的酶所需的限制性位点，这可能会限制其在克隆中的使用。

适配器

这些是简短的寡核苷酸片段，具有粘性末端或在连接前已被限制性内切酶消化的连接体。通过添加适配器，DNA 分子的钝末端会转化为粘性末端。

适配器的用途-

(a) 适配器的实际组成，显示了改变的 5'-OH 末端；

(b) 通过添加适配器将钝末端转化为粘性末端。在插入适配器后，通过多核苷酸激酶改变异常的 5?-OH 末端为天然的 5?-P 形式，从而得到可插入适当载体的粘性末端片段。

ii) 产生粘性末端的限制性内切酶

借助易于获得的产生粘性末端的限制性内切酶，可以消化基因组 DNA。例如，用 BamHI（识别序列 5'-GGATCC-3'）切割载体会产生与通过用限制性内切酶 Sau3AI（识别序列 5'-GATC-3'）消化基因组 DNA 产生的粘性末端相兼容的 DNA 片段。然后创建 DNA 片段并将其克隆到适当的载体中。

应用

当建立基因库以了解基因如何影响生物体或比较相关动物的基因组时，就可以对生物体的基因组进行测序。如上所述的基因组关联研究可用于发现各种功能性状的候选基因。基因组文库可用于提取基因，然后可以将这些基因用于人类细胞系或动物模型以供进一步研究。此外，开发具有精确基因组表示且没有稳定性问题的保真度高的克隆作为霰弹枪测序的中间体或功能分析中全基因组的检查将是有益的。

1) 顺序层次

与分层霰弹枪测序相比，全基因组霰弹枪测序。它们的主要应用之一是使用基因组文库进行分层霰弹枪测序，也称为自上而下、图谱为基础或克隆-克隆测序。在获得高通量测序技术之前，该方法是在 20 世纪 80 年代开发的，用于测序完整的基因组。可以将基因组文库中的单个克隆剪切成更小的片段，通常为 500-1000 bp，这对于测序更容易处理。一旦基因组文库克隆被测序，就可以使用该序列搜索文库中具有与已测序克隆重叠的插入片段的其他克隆。然后可以通过测序任何额外的重叠克隆形成 contig。使用这种方法，称为染色体行走，可以测序完整的染色体。

另一种无需使用高容量载体文库来测序基因组的方法是使用全基因组霰弹枪测序。相反，短序列读数使用计算机算法进行拼接，以覆盖整个基因组。因此，基因组文库和全基因组霰弹枪测序经常一起使用。通过对基因组文库中多个克隆的插入片段进行双端测序，可以产生高分辨率图谱。该图谱上的序列以确定的距离分开，使得组装从霰弹枪测序获得的数据更容易。BAC 文库和霰弹枪测序被用于构建人类基因组序列，该序列于 2003 年被认为完成。

1) 基因组关联研究

基因组关联研究的一般用途是识别人类群体中的特定基因靶点和多态性。为了收集和利用这些数据，来自许多国家的科学家和组织合作成立了国际单倍体图谱项目。为了了解染色体区域内的相似性和差异性，这项工作比较了不同个体的基因序列。来自所有参与国家的科学家正在利用来自非洲、亚洲和欧洲血统的个体的信息来对这些特征进行分类。这些基因组范围内的分析有助于未来的团队专注于根据遗传特征协调药物，同时也为进一步的药物和诊断治疗铺平了道路。在基因工程中，这些概念已经在使用中。例如，一个研究团队已经真正构建了一个 PAC 穿梭载体，该载体生成了一个代表人类基因组两倍覆盖率的文库。这可能是查明负责特定疾病的基因或基因组的关键工具。

此外，正如对杆状病毒的研究所示，这些研究可能是检查转录调控的有力手段。总的来说，DNA 测序和基因组文库组装的改进使得能够有效地识别各种分子靶点。通过使用这种有效的方法同化这些特性，可以加速新药物候选物的开发。

基因组文库的优点

由真核生物产生的基因组文库对于分析感兴趣的特定基因的基因组序列至关重要。
在基因组较小的原核生物中找到编码特定基因的克隆是有益的。
它有助于进一步研究生物体的基因构成和功能。遗传突变研究也利用了它。
此策略也可用于寻找对药物重要的基因。

2) cDNA 文库

由已引入一组宿主细胞以构成生物体转录组一部分的互补 DNA (cDNA) 片段组成的“文库”称为“cDNA 文库”。cDNA 仅包含生物体的已表达基因，它是由存在于细胞核中的完全转录的 mRNA 创建的。类似地，可以创建组织特异性的 cDNA 文库。由于成熟的 mRNA 在真核细胞中已经过剪接，因此产生的 cDNA 不含内含子，并且可以轻松地在细菌细胞中表达。尽管基因产物可以很容易地识别，但基因组 DNA 文库中包含的增强子、内含子和其他调控元件不包含在 cDNA 文库的信息中，使其作为工具的有效性和有用性降低。

cDNA 文库原理

通过生物体的 mRNA 序列创建 DNA 副本，然后将它们克隆起来以创建 cDNA 文库。
由于文库中的所有 DNA 都与 mRNA 互补，并且是通过 mRNA 的逆转录产生的，因此使用了“cDNA”一词。
cDNA 文库不包含构成大多数真核 DNA 的重复序列，因为它们不会被翻译成 mRNA。
原核生物和低等真核生物没有内含子。因此，通常不需要为这些物种生产 cDNA。应牢记这一事实。
因此，仅使用高等真核生物来构建 cDNA 文库。
噬菌体和细菌 DNA 都可用作 cDNA 文库构建中的载体。

cDNA 文库的构建

使用逆转录酶将真核细胞中的成熟 mRNA 转化为 cDNA。一长串腺嘌呤核苷酸，称为 poly-(A) 尾，它区分了真核生物中的 mRNA 与 tRNA 和 rRNA，可作为逆转录的引物位点。问题在于，某些转录本，例如组蛋白的转录本，不编码 poly-A 尾。

mRNA 的提取

制作 cDNA 文库的第一步是提取 mRNA 模板。应考虑分离的 mRNA 的完整性，因为 mRNA 只包含外显子，从而确保仍可生成编码的蛋白质。分离的 mRNA 的大小应在 500 到 8 kb 之间。有几种技术，包括三唑提取和柱纯化，可用于 RNA 纯化。可以通过使用寡聚 dT 核苷酸包被的树脂来利用 mRNA 的特性，例如具有 poly-A 尾，其中只有带有此特性的 mRNA 序列会结合。与柱结合后，洗脱所需的 mRNA。

cDNA 的构建

在纯化 mRNA 后，将寡聚 dT 引物（一种短的脱氧胸苷核苷酸链）连接到 RNA 的 poly-A 尾上。逆转录酶需要引物才能开始合成 DNA。因此，产生了 RNA-DNA 杂合体，其中一条互补 DNA 链与 mRNA 链相连。RNAse H 酶用于通过切割其骨架并产生游离的 3'-OH 基团（这对用 DNA 替换 mRNA 至关重要）来去除 mRNA。然后，切割的 RNA 作为 DNA 聚合酶 I 的引物，使其能够识别并开始用 DNA 替换 RNA 核苷酸。接下来，引入 DNA 聚合酶 I。这是由 sscDNA 本身提供的，它通过自身盘绕在 3' 端形成发夹环。聚合酶延长 3'-OH 端，然后 S1 核酸酶的剪刀作用打开 3' 端处的环。然后使用限制性内切酶和 DNA 连接酶将序列克隆到细菌质粒上。

然后通常通过抗生素选择来选择选定的微生物。选择后，制备细菌的储存液，允许进一步生长和测序以构建 cDNA 文库。

cDNA 文库的用途

由于 cDNA 文库包含大量非编码区域，因此它们通常用于复制真核基因组，因为它们减少了信息量。在原核生物中使用 cDNA 文库表达真核基因。原核生物的 DNA 中不含内含子。因此，它们缺乏在转录过程中去除内含子的酶。由于 cDNA 不含内含子，原核细胞能够表达它。而额外的基因组信息在反向遗传学中用处较小，cDNA 文库在这种领域最有用的。通过 cDNA 文库进行功能克隆是根据编码蛋白的功能来识别基因的另一种常见应用。在分析真核 DNA 时，使用互补 DNA (cDNA) 来构建表达文库，这有助于确认插入片段确实是一个基因。

cDNA 克隆

a. 连接体

最终，同聚物加尾和 RNaseH 技术产生了双链、钝末端的 cDNA 分子。
现在有必要将载体分子连接到它们上。
这可以通过添加连接体、钝末端连接、用适当的酶消化以及连接到载体上来实现。

b. 限制性位点的包含

限制性位点的包含
可以使用经过修改以包含限制的引物来修改同聚物加尾技术。
新创建的第一条 cDNA 链在 3' 端有一个 C's 尾。
然后使用寡核苷酸的双链部分作为帆板位点，为第二链合成提供 oligo-dG 引物。
在此过程中，必须使用具有双链区域的寡核苷酸。
两根链独立合成以创建这些寡核苷酸，然后让它们彼此退火。

c. cDNA 同聚物加尾

重复使用末端转移酶是另一种策略。
钝末端双链 cDNA 经过末端转移酶和 dCTP 处理，导致在任一末端的 3? 羟基上聚合了多个 C 残基（通常为 20 个或更多）。
用末端转移酶和 dGTP 处理后，在载体的末端添加了多个 G 残基。可以使用 dATP 和 dTTP 交替使用。
如今，载体和 cDNA 可以退火，并且碱基配对区域通常非常大，以至于不需要 DNA 连接酶处理。
虽然载体插入的边界可能实际上包含间隙而不是缺口，但这些在重组分子被放入宿主后会被生理机制修复。

如何筛选 cDNA 文库？

文库中的成员应在固定在尼龙膜上之前进行修改以成为单链。
创建放射性标记的探针，然后将其变性以使其成为单链。
将探针与克隆文库进行杂交。
去除探针上的任何额外材料，并显影 X 射线胶片。
识别阳性克隆，然后进行分析。

为了确保探针能够连接到任何具有相同序列的克隆，杂交过程在非应激温度下进行。此外，由于一些克隆仅微弱地类似于该探针，因此可能会发生非特异性杂交。通过在足够高的温度下洗涤探针，可以去除任何非特异性连接到它的克隆。重要的是要确保温度不足以清除与探针序列相同或等同的克隆。因此，洗涤程序的强度取决于探针的来源是同源还是异源。

cDNA 文库的优点

cDNA 文库有两个优点最为突出。
最初，它富含活跃转录基因的片段。
如果目标是在细菌中产生真核蛋白，内含子会带来挑战，因为大多数细菌无法去除内含子。然而，内含子不会改变克隆的序列。

cDNA 文库的缺点

cDNA 文库的缺点是它只包含成熟 mRNA 中存在的序列。
未转录成 RNA 的序列，如启动子和增强子，以及内含子和转录过程中发生的任何其他序列，都不存在于 cDNA 文库中。
同样重要的是要记住，cDNA 文库仅由在提取 RNA 的组织中表达的特定基因序列组成。
此外，特定 DNA 序列在 cDNA 文库中的频率受匹配 mRNA 在目标组织中的数量的影响。
相比之下，基因组 DNA 文库中的几乎每个基因都以相同的频率存在。

基因组 DNA 文库与 cDNA 文库

基因组 DNA 的调控和非编码成分在 cDNA 文库中不存在。尽管它们需要更多资源来创建和维护，但基因组 DNA 文库提供了有关该生物体的更具体信息。

下一主题原核生物基因调控

基因库

什么是基因组？

历史