混合效应模型入门2024 年 11 月 29 日 | 阅读 7 分钟 什么是线性混合模型?线性混合模型 (LMM) 是一种统计模型,它能够同时考虑数据中的固定效应和随机效应,从而更灵活地分析具有层次结构或聚类系统的数据。通过纳入随机效应,模型能够捕捉来自多个来源的变异性,并识别分组数据点之间的联系,从而对传统线性模型进行了扩展。 在线性混合模型中,随机效应反映了组内的变异性(例如,不同受试者之间或同一受试者的重复测量),而固定效应则表示了总体水平的、一致的效果(例如,治疗的总效应)。这在生物学、心理学和教育学等领域非常有用,因为在这些领域,观测值经常来自分组的受试者(例如,医院里的病人、教室里的学生)。 线性混合模型之所以能够分析复杂的数据集,是因为它们允许研究人员同时考虑预测变量的主要效应以及组内的依赖性或相关性。这使得它们非常适合多层次研究设计、纵向数据和重复测量。 线性混合模型类型包括:
在这些模型中,截距包含随机效应,因此结果的基线水平可能因组而异。当您期望结果存在组级别差异,但认为预测变量与结果之间的相关性在各组之间是一致的时,这些模型效果很好。例如,在研究学生考试成绩时,可以使用学校的随机截距来解释学校级别的整体表现差异。
除了截距之外,随机斜率方法还允许预测变量和结果之间的关系(斜率)在各组之间有所不同。当某个预测变量的影响在各组之间变化时,这一点很有用。例如,如果您正在分析收入和消费行为之间的关系,您可能会发现这种关系因地区而异。这可以通过随机斜率来表示。
通过结合随机截距和随机斜率,这些模型允许组在基线结果以及预测变量效应方面存在差异。当数据集包含复杂的层次结构以及组级别关系和结果的异质性时,这些模型效果最好。例如,在分析医院之间的患者康复率时,基线康复水平和治疗效果可能因医院而异。
对于具有层次结构的数据,例如嵌套在班级中的学生,而班级又嵌套在学校中,我们会开发嵌套模型。这些模型考虑了多层随机效应。例如,在评估教学过程如何影响学生满意度时,分层模型可以包含课堂和学校层面的异质性,从而更准确地描述起作用的因素。
当随机效应是“交叉”而不是分层堆叠时,它们被称为交叉随机效应模型。当观测值同时属于多个组时,就会发生这种情况。例如,由多位评分者评分的论文,在评估论文质量时,会受到论文本身和评分者属性的影响。通过捕捉这两种交叉随机效应的影响,这些模型可以增进我们对数据的理解。
生长曲线模型是线性混合模型的一个子集,用于跟踪随时间的变化,通常用于纵向数据。这些模型使用随机效应来描述个体独特的轨迹。例如,在跟踪儿童多年体重增长时,生长曲线模型可以解释人群水平的趋势和个体增长模式的差异。 模型选择和评估为混合模型选择模型在混合模型中选择最佳的固定效应和随机效应组合至关重要,以在简洁性和解释力之间取得平衡。关键步骤包括:
首先确定感兴趣的主要效应以及应作为随机效应表示的潜在变异来源。
从一个基本模型开始,然后逐渐增加其复杂性(例如,随机斜率、随机截距或交互项)。
使用似然比检验等统计标准来评估包含随机效应是否显著地改善了模型拟合。
为了确定保留哪些固定效应,请采用调整 R² 或逐步选择(前向、后向或两者兼有)等标准。
力求建立一个能够准确描述数据但又不至于过于复杂的模型。 模型比较方法当考虑多个模型时,以下方法有助于确定最佳拟合模型:
在比较嵌套模型(其中一个模型是另一个模型的简化版本)时,检查更复杂的模型是否提供了显著更好的拟合。
通过权衡模型复杂性和拟合优度之间的权衡来评估模型的质量。AIC 值越低表示模型越好。
与 AIC 类似,但对于大样本量更适用,因为它对复杂性进行了更严格的惩罚。BIC 值越低越好。
计算固定效应(边际 R²)和固定效应与随机效应的组合(条件 R²)解释的变异性百分比。
为了评估模型的泛化能力,请在假设数据上测试其预测能力。 选择模型的最佳方法
从一个简单的模型开始,然后逐渐构建更复杂的模型。仅保留显著的效应以防止过度拟合。
纳入理论知识来指导模型构建,避免仅基于数据做出决策。
验证所选模型是否满足同方差性、残差正态性等假设。
为了确保模型拟合数据,请进行诊断检验,例如查看残差图。 何时应用混合线性模型
当观测值组织在组中时,例如来自多个地点的测量值、医院里的病人或学校里的学生。LMM 会考虑每组内观测值之间的相关性。
当对同一个人在不同时间或不同环境下进行多次测量时。例如,在不同时间或治疗前后对受试者进行测试时,LMM 可以处理同一受试者重复观测值之间的依赖性。
线性混合模型可以通过考虑个体差异并将它们与组间差异分开,来适应受试者随时间跟踪的研究中随时间变化的关联。
当使用 LMM 来表示单元(例如,不同组或受试者的随机截距或斜率)之间的随机变化时,可以提高结果的准确性。
当具有固有差异的组或受试者接受不同的治疗条件或干预时,LMM 可以区分这些治疗的效果与归因于组别成员身份的随机变异性。 混合模型的优缺点混合模型的优点
为了考虑组内或跨时间的相关性,混合模型非常适合分析具有重复测量或分层结构的数据集。
它们通过允许随机截距、随机斜率或两者兼有来捕捉组别变异性并提高模型拟合度。
特别是对于纵向研究,混合模型可以在不删除整个观测值的情况下处理缺失数据和不均匀的数据集。
混合模型通过同时考虑固定效应和随机效应,可以获得更准确和可解释的参数估计。
由于随机效应考虑了单元(例如,个人、组或地点)之间的变异性,因此它们有助于将结果外推到更广泛的人群。 混合模型的缺点
与标准线性模型相比,混合模型更复杂,需要特定的固定效应和随机效应定义。如果这些因素没有正确指定,结果可能会产生误导。
它们依赖于残差正态性以及随机效应正态性等假设,如果这些假设被违反,可能会削弱模型的可靠性。
最大似然和其他混合模型估计方法可能计算量很大,尤其是对于大型数据集或具有多个随机效应的模型。
与更简单的模型相比,随机效应的引入使模型参数的解释更加复杂。
过度复杂的随机效应结构可能导致过度拟合,尤其是在各组样本量较少的情况下。 线性混合模型应用
在纵向研究中,线性混合模型通常用于分析跨时间的重复测量。它们允许个体特定的随机效应,并考虑个体内的相关性。例如,在临床试验中,LMM 可以跟踪血压随时间的变化,同时考虑个体对治疗的反应差异。
在教育环境中,LMM 有助于评估学生表现和学习成果,同时考虑嵌套结构,例如班级内的学生或学校内的班级。例如,它们可用于研究教学策略在多大程度上影响标准化考试成绩,同时考虑教师和学校的差异。
LMM 经常用于健康研究,以研究组织和个体变量如何影响患者结果。例如,通过考虑多个层面的变异性并模拟患者随时间推移和医院之间反应的变化,它们可以评估一种新药的疗效。
LMM 用于实验心理学,以研究多层次的实验设计或重复测量。它们处理嵌套在实验条件或个体中的响应数据。例如,LMM 可用于在考虑个体差异的同时,分析在不同实验条件下反应时间的改变情况。
LMM 是一个很好的工具,因为生态学研究通常包含嵌套数据,例如区域内的观测值或不同时间段的观测值。例如,LMM 可以模拟环境条件如何影响物种多样性,同时考虑时间变化和地点层面的变异性。 |
我们请求您订阅我们的新闻通讯以获取最新更新。