什么是多层模型?

2025年8月1日 | 阅读11分钟

在统计分析中,数据通常具有分层或嵌套的结构。例如,学生嵌套在教室里,患者嵌套在医院里,或员工嵌套在公司里。传统的统计方法,如普通最小二乘回归(OLS),假设观测值是独立的。然而,在嵌套数据中,这种假设被违反,同一组内的个体倾向于比其他组内的个体更相似。

这就是多层模型(MLM),也称为分层线性模型(HLM)或混合效应模型变得至关重要的地方。它允许分析人员考虑数据的嵌套结构,提供更准确的估计和推断。

多层模型:定义

多层模型(MLM),也称为分层线性模型(HLM)或混合效应模型,是一种用于分析具有嵌套或分层结构的数据的统计技术。它通过考虑个体在群体内的依赖性或聚类性,同时对分析的多个层次进行建模。

简而言之,当数据组织在多个级别(例如,学生在教室里,员工在公司里)并且标准回归模型不适用(因为它们忽略了数据的分层结构)时,就会使用多层模型。

多层模型是一种处理收集和汇总数据集的策略。它可以处理来自同一序列中不同部分具有不同估计值的数据。多层模型也可用于通过重复测量来研究数据。例如,如果我们定期监测一组人的血压水平,后续测量可以被视为同一主题的一部分。在这些情况下,MLM 的分层模型可以模拟在多个级别上变化的参数。在本教程文章中,我们将介绍多层模型并描述其工作原理。

多层模型的核心概念

多层模型建立在几个基本概念之上,这些概念将其与传统统计方法区分开来。其中一个关键思想是认识到分层数据结构。在许多现实情况中,数据组织在多个级别上。例如,学生嵌套在教室里,患者嵌套在医院里,或员工嵌套在公司里。这些嵌套结构意味着同一组内的观测值比其他组内的观测值更可能相似,从而违反了标准回归模型中独立性的假设。

另一个基本概念是固定效应和随机效应之间的区别。固定效应是假设在所有组中都相同的总体水平效应。例如,固定效应可能代表治疗对所有学校的平均影响。相比之下,随机效应允许某些参数(如截距或斜率)在组之间变化。这意味着不同的学校可以有自己的基线表现水平(随机截距),或者在研究时间等变量的响应中具有自己的变化率(随机斜率)。

第三个核心思想是方差分解的概念,它是将数据中的总变异性分解为属于层次不同级别的分量。这有助于理解结果的变异性在多大程度上是由于组间(例如,学校)的差异,以及在多大程度上是由于组内(例如,学生)的差异。

最后,类内相关系数(ICC)是多层模型中使用的关键统计量。它量化了可归因于组级别差异的总方差的比例。较高的 ICC 表明结果的相当一部分变异发生在组级别,从而证明了采用多层方法的必要性。

总之,这些核心概念使得多层模型在处理复杂的分层数据时能够提供更准确和有意义的统计推断。

多层模型如何工作?它如何做到?

AI 中的多层模型是具有多个级别差异的统计模型。它们也被称为线性混合效应模型、线性多层模型、分层模型和随机变量。它们还指随机因素、随机变量和裂区设计。

不同的数据类型显示了多层或分组结构,尤其是在生物医学和人类研究中的观察性数据。例如,具有相同父母的孩子比从总体人口中随机抽取的人具有更多的生理和心理特征。

个体可以被划分为机构或地理区域,如企业或学校。在纵向研究中,当个体随时间的行为相关时,会创建分层数据结构。

多层模型,包括分层结构中每个级别的残差,揭示了数据层次结构的存在。两层模型处理学校中儿童结果的关联。例如,它通常包含学校和平均水平的残差。

学校残差,也称为“学校相关效应”,是一组影响儿童结果的学校的未知特征。这些未知效应导致了儿童结果之间的关联。这意味着残差的变异被分为两部分:校际部分和校内部分。

为什么我们要使用多层模型?

多层模型在处理分层或嵌套数据结构时,相比传统统计技术具有明显的优势。忽略这些结构可能导致估计偏差、标准误错误以及误导性结论。以下是多层模型在现代数据分析中至关重要的主要原因,每个原因都将在单独的标题下解释。

1. 考虑数据中的聚类和依赖性

使用多层模型的主要原因之一是它明确考虑了同一组内数据并非独立的这一事实。例如,同一教室内的学生很可能具有相似的学习环境、教学风格或学校政策。标准回归模型假设所有观测值都是独立的,而在这种情况下,这种假设被违反。多层模型通过包含模拟组级别变异的随机效应来纠正这一点,从而产生更准确的估计并降低第一类错误的可能性。

2. 同时分析多个级别

多层模型允许研究人员同时分析层次结构中不同级别上的变量。这意味着它可以在同一模型中包含个体级别(例如,学生动机)和组级别(例如,学校资金)的预测变量。它捕捉了结果不仅如何受到个人特征的影响,还如何受到情境或组织因素的影响,从而对数据中的关系提供更细致的理解。

3. 改进组效应的估计

在使用传统回归时,估计组级别(如学校或医院表现)的效应可能存在问题,尤其是在一些组样本量较小的情况下。多层模型通过随机效应进行部分汇集,该随机效应从整个数据集中借用强度来提高组级别估计的可靠性。这可以产生更稳定和准确的结果,特别是在一些组比其他组大得多的不平衡数据中。

4. 处理不平衡和缺失数据

在真实数据集的组中,通常包含不同数量的观测值。例如,一些学校可能有许多学生,而另一些学校可能只有少数学生。传统方法通常需要平衡数据或删除案例以简化分析。多层模型可以自然地处理不平衡数据而不丢失信息,使其成为复杂数据集的理想选择。此外,它在存在缺失数据时,尤其是在较低级别的情况下,更加稳健。

5. 支持对复杂结构的建模

多层模型具有高度灵活性,可以适应建模各种复杂的数据结构,例如重复测量(纵向数据)、交叉分类数据(单位属于多个分组)和嵌套时间序列数据。这使其适用于教育、医疗保健、心理学和社会科学等广泛的学科。

6. 提供准确的标准误

由于传统模型忽略了组级别的变异性,它们通常低估了系数的标准误,导致虚假显著的结果。多层模型调整了标准误以反映数据的真实结构,从而产生更可靠的显著性检验和置信区间。

做出恰当的推断

在分解相同实体的标准回归方法中,它们被视为独立变量。由于许多多元回归未能区分分层模式,因此回归系数的标准误将被忽略,导致对统计显著性的高估。群集的缺乏主要影响了具有更高层次的指标变量的预测精度。

组效应的重要关注点

特定分组效应的程度以及“异常”分组的存在是多样本研究中的一个重要领域。例如,在学校绩效审核方面,重点是识别对学生表现的“增值”学校相关效应。这些效应在多层框架内与学校残差相关,代表了先前的成就。

组效应的评估

为了考虑组效应,可以通过添加虚拟变量来扩展普通(普通最小二乘)回归模型以表示组效应。这通常被称为方差分析(也称为固定效应结构)。在大多数情况下,像学校类型这样的指标在组级别(混合制或单一性别与单一性别模型)被识别。

在固定效应模型中,组级别指标的效应与组虚拟变量的结果混合在一起,也就是说,很难将由观测值和组的未知特征引起的影响区分开来。分层(随机效应)模型是一种确定这两种类型的变量对结果的方法。

对组的推断

在多层方法中,构成数据集的组被视为从群体中抽取的随机样本。固定效应模型无法做出超出数据集内单元之外的任何推断。

多层模型的扩展

多层模型(MLM)是一个高度灵活的框架,可以扩展以处理基本两层线性模型之外的各种复杂数据结构和建模需求。这些扩展允许研究人员对涉及不同结果类型、多个分组结构和纵向数据的更现实场景进行建模。以下是多层模型的主要扩展,将详细介绍。

1. 随机斜率模型

在基本的多层模型中,截距允许在组之间变化,而斜率(预测变量的影响)是固定的。随机斜率模型通过允许一个或多个预测变量的斜率在组之间变化来扩展这一点。这意味着不同组不仅有不同的起点(截距),而且预测变量与结果之间的关系也不同。例如,学习时间对考试成绩的影响在某些学校可能比在其他学校更强。

2. 交叉分类多层模型

在许多情况下,数据结构并非严格分层。例如,学生可能嵌套在学校和社区中,但这两个分组并不彼此嵌套。交叉分类多层模型允许这种非嵌套分组结构,其中个体可以属于多个不分层关联的更高层次单元。此扩展确保可以对所有相关组的变异性进行适当建模。

3. 多层广义线性模型(GLMMs)

当因变量不是连续变量而是二元变量(例如,通过/失败)、计数变量(例如,访问次数)或分类变量(例如,治疗选择)时,传统的多层线性模型不适用。广义线性混合模型(GLMMs)通过结合适当的链接函数(例如,二元结果的 logit 或计数 log),扩展了 MLM 以处理不同类型的因变量。这使得 MLM 适用于更广泛的数据类型和研究问题。

4. 纵向或增长曲线模型

另一个强大的扩展是纵向多层建模,其中重复测量嵌套在个体之内。这允许研究人员对随时间的变化和个体增长轨迹进行建模。例如,每月测量的患者健康分数可以使用以时间为 Level 1、个体为 Level 2 的多层结构进行建模。这些模型可以包含随机截距和斜率,以捕捉个体在基线水平和变化率上的差异。

5. 多元多层模型

当每个单元有多个因变量时,可以使用多元多层模型。这些模型允许对可能相互关联的因变量进行联合建模,同时仍然考虑数据的多层结构。例如,可以对学校内学生的阅读和数学成绩进行联合建模,以探索学生和学校级别共享和不同的影响。

6. 贝叶斯多层模型

多层模型的贝叶斯方法提供了通常使用的频率派方法的一种替代方案。贝叶斯多层模型允许纳入先验信息,提供参数估计的完整概率分布,并且在小样本情况下通常更稳健。当模型变得复杂或涉及需要明确量化的不确定性时,它们特别有用。

7. 多层结构方程模型(SEM)

此扩展将多层模型与结构方程模型(SEM)相结合。它允许在多个级别上分析潜变量(未观察到的)和观测变量之间的复杂关系。例如,它可以用于研究学校氛围(潜变量)如何影响学生成绩,同时考虑学校级别和学生级别的因素。

常见问题解答

Q1:多层模型与常规回归有什么区别?

答:常规回归假定所有数据点彼此独立。而多层模型则考虑了分层或嵌套的数据结构(例如,学校中的学生),其中同一组内的观测值很可能相关。这使得多层模型对于此类数据更加准确和适用。

Q2:我什么时候应该使用多层模型?

答:当您的数据以有意义的方式进行分组或嵌套时,例如组织内的个体、随时间重复的测量或医院内的患者。如果分组会影响因变量,那么 MLM 比标准回归更好。

Q3:多层模型中的固定效应和随机效应是什么?

答:固定效应在所有组中都是恒定的,并估计预测变量与结果之间的平均关系。随机效应允许某些参数(如截距或斜率)在组之间变化,从而捕捉每个组的独特性。

Q4:类内相关系数(ICC)告诉我们什么?

答:ICC 衡量了结果中总变异性有多少是由组间差异引起的。较高的 ICC 意味着分组结构(例如,不同的学校)解释了数据中更大比例的变异性。

Q5:我可以使用多层模型处理不平衡数据吗?

答:是的。多层模型非常适合不平衡数据,其中组可能具有不等数量的观测值。与传统方法不同,它不需要每个组具有相同数量的观测值。

Q6:多层模型与混合效应模型相同吗?

答:是的,术语多层模型、分层线性模型(HLM)和混合效应模型通常可以互换使用。它们都指的是包含固定效应和随机效应以考虑分组数据的统计技术。

Q7:我可以使用什么软件来运行多层模型?

答:有几款统计软件支持多层模型,包括 R(如 lme4 或 nlme 包)、Python(statsmodels、PyMC、Bambi)、SPSS、Stata、SAS 和 HLM。

Q8:我可以包含多个级别的预测变量吗?

答:绝对可以。多层模型可以包含个体级别(例如,学生考试成绩)和组级别(例如,学校资金)的预测变量。这使您能够评估不同级别的不同因素如何影响结果。