蛋白质定义

2025年3月17日 | 阅读18分钟

蛋白质是生物体内由一个或多个氨基酸残基链组成的大型生物分子和生物大分子。蛋白质在生物体中起着各种作用,包括催化代谢反应、复制 DNA、响应外部刺激、为细胞和生物体提供结构以及运输化学物质。蛋白质之间差异的主要方式是它们的氨基酸排列,这受其基因的核苷酸序列控制。这种序列导致蛋白质通常折叠成特定的三维结构,从而控制其活性。

多肽是氨基酸残基的有序序列。每种蛋白质都至少含有一条长多肽链。通常将 20-30 个残基或更少的残基称为肽而不是蛋白质,有时也称为短多肽。肽键和相邻的氨基酸残基将单个氨基酸的残基连接在一起。蛋白质中氨基酸残基的排列由基因序列决定,该序列编码在遗传密码中。

Protein Definition

遗传密码通常只定义 20 种标准氨基酸,但在某些生物体中,它也可能包含硒代半胱氨酸,在某些古菌中还包含吡咯赖氨酸。在蛋白质合成之后或甚至在蛋白质合成过程中,残基会通过翻译后修饰定期进行化学改变。因此,蛋白质的物理和化学性质、活性、折叠、稳定性和最终功能都会受到影响。非肽基团,通常称为辅因子或辅助基团,有时会添加到蛋白质中。此外,蛋白质可以协同完成某些任务,并且它们经常协同作用形成稳定的蛋白质复合物。

蛋白质周转是细胞机械在有限时间后分解和回收已生成蛋白质的过程。蛋白质半衰期是衡量蛋白质寿命的广泛指标。在哺乳动物细胞中,它们通常可以存活 1-2 天,尽管有时可能持续几分钟或几年。异常或错误折叠的蛋白质会更快地降解,因为它们是细胞凋亡的靶标,或者因为它们不稳定。

蛋白质在几乎所有细胞过程中都起着至关重要的作用,并且是生物体的基本组成部分,就像其他生物大分子如多糖和核酸一样。酶在蛋白质中很常见,对于代谢和催化生物过程至关重要。具有结构或机械功能的蛋白质包括肌动蛋白和肌球蛋白,它们存在于肌肉中,以及构成细胞骨架的蛋白质,细胞骨架形成维持细胞形状的支架结构。

起源与历史

在 18 世纪,Antoine Fourcroy 和他的同事们将蛋白质识别为一类独立的生物分子。这些分子以其在加热或酸存在下易于凝固或絮凝的倾向为特征。当时,血液血清白蛋白、蛋清中的白蛋白、纤维蛋白和麦醇溶蛋白是主要的例子。

瑞典科学家 Jöns Jacob Berzelius 和荷兰化学家 Gerardus Johannes Mulder 于 1838 年首次鉴定出蛋白质。Mulder 对常见蛋白质进行了元素分析,发现几乎所有蛋白质都具有相同的经验公式 C400H620N100O120P1S1。他错误地认为它们可能由一种(极其巨大的)分子组成。

Mulder 的同事 Berzelius 将这些分子称为“蛋白质”(protein);“protein”一词来自希腊语 proteios,意为“主要的”、“领先的”或“站在前面”,加上 -in 后缀。Mulder 继续鉴定蛋白质裂解的副产物,包括氨基酸亮氨酸,他发现其(近似准确的)分子量为 131 Da。在“蛋白质”一词出现之前,曾使用过“白蛋白”(albumins)或“含白蛋白的物质”(albuminous materials)等术语。

由于“肉生肉”,早期营养研究者,如德国的 Carl von Voit,认为蛋白质是维持身体结构最重要的营养素。Karl Heinrich Ritthausen 发现了谷氨酸,并扩展了已知蛋白质的种类。Thomas Burr Osborne 在康涅狄格州农业研究学院撰写了对植物蛋白质的详细分析。通过与 Lafayette Mendel 合作并利用李比希最低律在喂养实验用大鼠中,发现了对营养至关重要的氨基酸。William Cumming Rose 维护了该项目并传播了信息。

Franz Hofmeister 和 Hermann Emil Fischer 的研究使他们能够将蛋白质视为多肽(1902 年)。直到 1926 年 James B. Sumner 证明酶脲酶实际上是一种蛋白质时,蛋白质作为生物体内酶的关键重要性才被清楚地认识到。

对于早期的蛋白质生物化学家来说,蛋白质由于难以大量纯化而难以研究。因此,早期研究集中在可大量纯化的蛋白质上,例如血液、蛋清、各种毒素以及从屠宰场收集的消化/代谢酶。20 世纪 50 年代,Armour Hot Dog Co. 蒸馏了 1 公斤纯牛胰核糖核酸酶 A 并免费提供给研究人员;此举帮助核糖核酸酶 A 在随后几十年中发展成为生物化学研究的重要课题。

Linus Pauling 被认为是发展了 William Astbury 在 1933 年基于氢键对规则蛋白质二级结构进行的成功预测。Walter Kauzmann 后来关于变性的工作,部分基于 Kaj Linderstrm-Lang 的早期发现,增加了我们对疏水相互作用介导的蛋白质折叠和结构的了解。

1949 年,Frederick Sanger 对第一个蛋白质胰岛素进行了测序。通过正确鉴定胰岛素的氨基酸组成,Sanger 毫无疑问地证明了蛋白质是由氨基酸线性聚合物构成,而不是支链、胶体物质或环状物。因此,他于 1958 年获得了诺贝尔奖。

X 射线晶体学的发展使得蛋白质结构测序成为可能。1958 年,John Kendrew 和 Max Perutz 分别确定了肌红蛋白和血红蛋白的第一个蛋白质复合物。计算机的使用和计算能力的提高使得复杂蛋白质的测序成为可能。Roger Kornberg 于 1999 年使用同步加速器产生的高强度 X 射线成功测序了极其复杂的 RNA 聚合酶结构。

自那时以来,巨型生物大分子组装冷冻电子显微镜(cryo-EM)已被开发出来。Cryo-EM 分析的是被冷冻的蛋白质样品,而不是晶体,它使用电子束而不是 X 射线。它对样品的损伤更少,使研究人员能够获得更多数据并检查更复杂的结构。研究人员还通过计算蛋白质结构预测对小型蛋白质域取得了原子级分辨率的蛋白质结构。截至 2017 年,蛋白质数据库(Protein Data Bank)中已有超过 126,060 种原子分辨率的蛋白质结构。

基因组编码多少蛋白质?

每个基因组中的蛋白质和基因数量大致相等(尽管可能存在大量编码蛋白质的 RNA 的基因,例如核糖体 RNA)。真核生物通常编码数万种蛋白质,而细菌和古菌通常合成几百到几千种蛋白质。

生物化学

大多数蛋白质是由最多 20 种不同的 L-氨基酸序列组成的线性聚合物。所有蛋白质生成的氨基酸都具有相同的结构单元,即 α-碳,其上连接着一个羧基、一个氨基和一个可变的侧链。只有脯氨酸偏离了这种基本结构,因为它在氨基的 N-端有一个不寻常的环,将 CO-NH 酰胺部分锁定在一个固定的构象中。

蛋白质的三维结构和化学反应性最终取决于其所有氨基酸侧链的综合影响,这些侧链列在标准氨基酸列表中,并具有各种化学结构和性质。

Protein Definition

在多肽链中,一旦一个氨基酸与其他氨基酸在蛋白质链中连接,它就被称为残基。主链,也称为蛋白质骨架,由连接的碳、氮和氧原子组成。

肽键的两个共振形式赋予其一定的双键特性并阻止其轴向旋转,有助于保持 α-碳的大致共面性。蛋白质骨架的局部形状由肽键中的第二个和第三个二面角决定。游离氨基位于蛋白质的 N-末端,也称为氨基末端,而游离羧基位于蛋白质的 C-末端,也称为羧基末端。

区分“蛋白质”、“多肽”和“肽”的含义可能很困难。“蛋白质”一词通常指具有稳定形状的整个生物分子,“肽”一词通常保留给短氨基酸寡聚物,它们通常缺乏稳定的三维结构。但是,两者之间的界限并不明确,通常在 20 到 30 个残基之间。可以称氨基酸链(线性)为“多肽”,通常不考虑其长度。但是,这个词通常意味着缺乏特定的结构。

相互作用

蛋白质可以与各种物质相互作用,包括 DNA、脂质、碳水化合物和其他蛋白质。

细胞丰度

平均大小的细菌每个细胞约有 200 万个蛋白质(例如,金黄色葡萄球菌和 E. coli)。较小细菌(包括螺原体和支原体)的分子数量在 50,000 到 100 万个之间。另一方面,真核细胞更大,蛋白质含量也更多。例如,据估计,酵母细胞含有 10 亿到 30 亿个蛋白质,而人细胞则含有 5000 万个蛋白质。

在给定的细胞中,可以找到从几个分子到 2000 万个拷贝的单个蛋白质。大多数细胞不表达编码蛋白质的每个基因,并且表达的基因数量取决于细胞类型和环境刺激等因素。例如,在人基因组编码的约 20,000 种蛋白质中,淋巴母细胞只有 6,000 种。

合成

利用基因中存储的指令,将氨基酸组合起来形成蛋白质。编码每种蛋白质的基因及其核苷酸序列决定了该蛋白质的确切氨基酸序列。遗传密码中的每三个核苷酸组合,称为密码子,指定一种氨基酸。例如,甲硫氨酸的密码子是 AUG(腺嘌呤-尿嘧啶-鸟嘌呤)。

Protein Definition

遗传密码存在一些冗余,因为有 64 种可能的密码子,因为 DNA 有四种核苷酸。因此,一些氨基酸由一个以上的密码子指定。前信使 RNA(mRNA)通过 RNA 聚合酶等将基因从 DNA 转录到蛋白质而产生。大多数生物体通过各种转录后修饰过程处理前 mRNA(也称为主转录本)以生成成熟的 mRNA。然后,核糖体使用成熟的 mRNA 作为模板进行蛋白质合成。

原核生物要么立即使用 mRNA,要么在 mRNA 从类核区移出后将其结合。相反,在真核生物中,mRNA 在细胞核中产生,然后通过核膜传输到细胞质中,在那里用于蛋白质合成。与真核生物相比,原核生物每秒合成蛋白质的速度可能高达 20 个氨基酸。

通过称为翻译的过程,从 mRNA 模板合成蛋白质。mRNA 被加载到核糖体上,并以三个核苷酸为一组读取,通过将每个密码子与携带氨基酸的转运 RNA 分子上的匹配碱基配对的反密码子进行匹配。必要的氨基酸由氨酰-tRNA 合成酶“充电”到 tRNA 分子上。扩展的多肽链通常被称为“新生链”。蛋白质始终从 N-末端生物合成到 C-末端。

化学合成

短蛋白质也可以通过肽合成方法化学合成,该方法依赖于高产肽合成方法,包括化学连接。多肽链可以通过化学合成包含非天然氨基酸,它还允许将荧光探针连接到氨基酸的侧链上。

Protein Definition

尽管它们通常不用于商业应用,但这些技术在实验室生物化学和细胞生物学中很有用。对于长度超过 300 个氨基酸的多肽,化学合成效率不高,并且生成的蛋白质可能不会很快采用其天然的三级结构。与生物反应相反,大多数化学合成过程是从 C-末端到 N-末端进行。

蛋白质通常折叠成独特的 3D 形状。蛋白质的天然构象是指其自然折叠方式。尽管许多蛋白质可以由于其氨基酸的化学性质而自由折叠,但其他蛋白质需要分子伴侣的帮助才能折叠成其天然状态。生物化学家经常提到蛋白质结构的四个独特特征

氨基酸序列是基本结构。多酰胺是蛋白质。

二级结构由氢键支持的局部重复模式组成。三个最常见的例子是 α-螺旋、β-折叠和转弯。由于二级结构是局部的,因此同一蛋白质分子中可以存在多个不同二级结构的区域。

三级结构由单个蛋白质复合物的整体结构以及二级结构的*空间构象*组成。三级结构通常通过非局部相互作用来维持,包括疏水区域的形成、盐桥、氢键、二硫键,甚至翻译后修饰。“折叠”一词经常与“三级结构”一词互换使用。蛋白质的基本功能受三级结构控制。

下一级结构由许多蛋白质分子(多肽链)组成,在本文中也称为蛋白质亚基,它们作为一个单一的蛋白质复合物工作,称为*四级结构*。

五级结构 - 蛋白质表面区分细胞内部拥挤环境的独特特征。五级结构依赖于在活细胞内发生的短暂但至关重要的生物大分子相互作用。

蛋白质并非完全僵硬的分子。除了这些结构层之外,蛋白质在执行其工作时可以从多种相关结构之间切换。在讨论这些功能性易位时,这些三级或四级形式有时被称为“构象”,它们之间的变化称为构象变化。

这些改变通常遵循反应物分子与酶的活性位点或蛋白质参与化学催化的区域的相互作用。蛋白质在溶液中的结构变化也受热振动和分子碰撞的影响。

根据典型的三级结构,蛋白质可以任意分为三类:球状蛋白、纤维状蛋白和膜蛋白。许多球状蛋白是酶,几乎所有酶都是可溶的。例如,胶原蛋白(结缔组织中的主要蛋白质)或角蛋白(头发和指甲中的蛋白质)等纤维状蛋白通常具有结构作用。许多时候,膜蛋白充当受体或作为极性或带电分子穿过细胞膜的通道。脱水蛋白(Dehydrons)是一种特殊的蛋白质,它们表现出不易受到水攻击的分子内氢键,因此促进自身脱水。

蛋白质区域

蛋白质由许多蛋白质结构域组成,即折叠成不同结构单元的蛋白质片段。在大多数情况下,结构域也具有专门的功能,例如酶活性(如激酶)或作为结合模块(例如,其他具有富含脯氨酸序列的蛋白质可以结合到 SH3 结构域)。

系列基序

蛋白质经常通过包含短氨基酸序列来作为其他蛋白质的识别位点。例如,SH3 结构域经常结合短的 PxxP 基序(即,由两个未知氨基酸 [x] 分隔,有两个脯氨酸 [P],尽管相邻氨基酸可能会影响精确的结合亲和力)。真核线性基序(ELM)数据库包含许多此类基序。

细胞过程

蛋白质是细胞中的主要参与者,它们被认为执行由基因中包含的数据决定的功能。大多数其他生物分子都是蛋白质相对无害的底物,除了某些形式的 RNA。尽管 DNA 和 RNA 等其他大分子在大肠杆菌细胞的干重中仅占 3% 和 20%,而蛋白质则占一半。一个细胞或一类细胞的蛋白质组是在这些细胞中表达的蛋白质的集合。

Protein Definition

蛋白质的主要特性,也是其广泛任务的能力,是它们能够牢固而特异地结合其他分子。结合位点是分子表面上的凹陷或“口袋”,是蛋白质中负责附着到另一分子的区域。周围氨基酸的侧链和蛋白质的三级结构(形成配体结合区域)都有助于调节这种结合能力。

例如,核糖核酸酶受体蛋白与人血管生成素的解离常数(10⁻¹⁵ M)极低,但与两栖同源物(>1 M)的解离常数则远高于此。这是一个蛋白质结合可以极其选择性和紧密的例子。例如,当将单个甲基添加到结合伙伴时,结合有时会几乎完全消除。例如,特异性为氨基酸缬氨酸的氨酰-tRNA 合成酶会区分出非常相似的氨基酸异亮氨酸的侧链。

小分子底物和其他蛋白质都可以与蛋白质结合。蛋白质可以通过特异性地结合相同分子的其他拷贝而形成纤维状聚集体,这通常发生在结构蛋白中,结构蛋白由球状单体组成,它们自相关联形成坚硬的纤维。蛋白质-蛋白质相互作用驱动酶活性,指导细胞周期发育,并形成执行各种紧密关联的生物学功能的大型蛋白质复合物。蛋白质可以吸附到细胞膜上,甚至整合到细胞膜中。

由结合伙伴引起的蛋白质构象变化能够创造出极其复杂的信号网络。由于蛋白质相互作用是可逆的,并且在很大程度上依赖于各种伙伴蛋白质群体的存在来形成可以执行不同功能集的聚集体,因此研究特定蛋白质之间的相互作用对于理解细胞功能及其最终区分不同细胞类型的特征至关重要。

蛋白质在细胞中最著名的功能是作为酶,它们可以加速化学过程。酶通常只加速一到两种化学反应,并且非常专业化。大多数代谢反应都是由酶完成的,酶还通过转录、DNA 修复和复制等过程操纵 DNA。在称为翻译后修饰的过程中,一些酶通过添加或去除化学基团来修饰其他蛋白质。

已知酶可催化约 4,000 种过程。通常,速率的大大加速是酶催化作用的结果;例如,脲嘧啶脱羧酶将速率比非催化过程快 10¹⁷ 倍。

底物是酶结合并发生反应的分子。尽管酶可能包含数百个氨基酸,但通常只有一小部分残基——平均为三到四个残基——直接参与催化,并且只有一小部分总残基与底物接触。术语“活性位点”指的是酶结合底物并包含催化残基的区域。一类称为发散蛋白的蛋白质成员控制由另一种酶产生的分子的立体化学。

配体结合和细胞信号传导

信号转导和细胞信号传导涉及大量蛋白质。一些蛋白质,如胰岛素,是细胞间的,它们与细胞中产生的远处的其他细胞进行通信。另一些是受体膜蛋白,其主要任务是结合信号分子并在细胞内引起生物反应。许多受体的内部效应域可以具有酶活性或发生构象变化,这些变化可以被其他蛋白质识别。许多受体还在细胞表面有一个暴露的结合位点。

抗体,免疫系统的蛋白质组成部分,主要负责结合抗原或体内的外来物质,并将免疫系统的清除过程指向它们。抗体既可以释放到细胞外环境中,也可以释放并附着在浆细胞(一种特化的 B 细胞)的膜上。酶在结合底物以执行其反应的能力上受到限制,但抗体不受这些限制。抗体与其靶点的结合亲和力非常高。

许多配体转运蛋白结合特定的生物小分子,并将它们移动到多细胞生物体的不同部位。抗体与其靶点的结合亲和力非常高。当配体在目标组织中的可用量很小时,这些蛋白质需要具有高结合亲和力;当配体数量很多时,则需要低结合亲和力。血红蛋白是配体结合蛋白中最著名的例子,它通过肺将氧气输送到所有脊椎动物的各个组织和器官,并且在每个生物王国中都有紧密的同源物。凝集素是结合糖的蛋白质,并且对它们识别的糖部分具有极高的选择性。涉及细胞和蛋白质的生物识别过程通常涉及凝集素。激素和受体是高度选择性的结合蛋白。

跨膜蛋白作为配体转运蛋白可以改变细胞膜对离子和小分子的渗透性。极性或带电分子无法自行扩散穿过膜的疏水核心。膜蛋白内的通道允许这些化学物质进出细胞。许多离子通道蛋白被定制成仅对一种特定离子具有选择性;例如,钾离子和钠离子通道通常仅对这两种离子中的一种具有选择性。

构建块蛋白质

与流动的生物成分不同,结构蛋白赋予它们坚固性和刚性。大多数结构蛋白是纤维状蛋白。例如,角蛋白是毛发、指甲、羽毛、蹄和某些动物外壳等硬质或丝状结构的成分,而胶原蛋白和弹性蛋白是软骨等结缔组织的关键组成部分。一些球状蛋白也可以发挥结构作用。例如,肌动蛋白和微管蛋白在单体状态下是球状且可溶的,但当它们聚合时,会形成长而坚硬的纤维,构成细胞骨架并帮助细胞维持其大小和形状。

马达蛋白,如肌球蛋白、驱动蛋白和动力蛋白,它们能够产生机械力,是具有结构作用的其他蛋白质。这些蛋白质对于许多进行有性生殖的多细胞动物的精子以及单细胞物种的细胞运动都至关重要。

蛋白质的进化

蛋白质如何进化,或者更具体地说,多少突变(或者更准确地说是氨基酸序列的变化)导致新的结构和功能,是分子生物学中的一个核心主题。蛋白质中的大多数氨基酸都可以改变而不会损害其活性或功能,这在其他物种中发现的大量同源蛋白质(如在专用蛋白质序列数据库(例如 PFAM)中汇编的)中得到了证明。

基因可能会在自然突变产生戏剧性影响之前被复制。假基因也可能由此产生,以及基因活性的完全丧失。

尽管一些单氨基酸改变可能显著改变蛋白质功能,尤其是在酶中,但大多数单氨基酸改变的影响都很小。例如,一个或几个突变可能会改变几种酶的底物特异性。

酶的选择性,以及随后的酶活性,会因突变而改变。因此,细菌(或其他生物)可以适应多种食物来源,甚至合成底物,如塑料。

营养

动物(包括人类)和植物通常可以生物合成所有 20 种必需氨基酸,但大多数细菌和植物不能。这些被称为必需氨基酸,是生物体无法自行产生的氨基酸。动物缺乏几种关键酶,包括天冬氨酸激酶,它催化从天冬氨酸生成赖氨酸、甲硫氨酸和苏氨酸的初始步骤。如果环境中存在氨基酸,细菌可以通过消耗环境中的氨基酸并降低其生物合成过程的活性来节省能量。

Protein Definition

动物通过摄入富含蛋白质的食物来获取氨基酸。摄入的蛋白质在消化过程中被分解成氨基酸,这通常涉及通过接触酸使蛋白质变性,并通过蛋白酶水解。虽然一些摄入的氨基酸被用于蛋白质生产,但其他氨基酸通过糖异生作用转化为葡萄糖或进入柠檬酸循环。在营养不良时期,由于蛋白质作为燃料的利用,我们自身的蛋白质,特别是肌肉中的蛋白质,可以被用来维持生命。

通过促进犬猫等动物的毛囊生长和角蛋白化,蛋白质可以保持皮肤的健康和质量,并降低皮肤病发生异味的风险。低质量的蛋白质也会影响消化健康,增加犬类肠胃胀气和产生异味物质的风险,因为当蛋白质未被消化进入结肠时,它们会发酵,产生硫化氢气体、吲哚和粪臭素。狗和猫比从植物中提取的蛋白质更容易吸收动物源性蛋白质,但劣质动物产品,包括皮肤、羽毛和结缔组织,是不可消化的。

结论

人体由数百万个细胞组成,人体中的每一个细胞都包含蛋白质。蛋白质最基本和最简化的结构是氨基酸链。蛋白质对于地球生命的生存至关重要。我们的饮食必须含有蛋白质,以便修复受损细胞并制造新细胞。它在包括人类在内的每个生物的生长和发育中也起着至关重要的作用。


下一个主题可持续发展定义