45+个最常被问到的统计学面试题及答案2025年3月17日 | 阅读18分钟 1) 什么是统计学?统计学是一门涉及数据收集、组织、分析、解释和呈现的学科。统计学研究通常用于科学、工业和社会问题,以了解统计总体或相关数据的统计模型。例如,为了获得人口统计数据,我们可以将其分解为人群或对象组,如“居住在国家中的所有人”。 统计学是关于数据的各个方面的研究,包括在调查和实验设计方面的数据收集规划。 2) 统计学有哪些不同类型?统计学主要有两种类型
描述性统计 描述性统计是一种通过给定观测值来总结数据的统计学类型。总结是从人口样本中使用均值或标准差等参数进行的。描述性统计提供了一种使用表格、图形和汇总度量来组织、表示和描述数据集合的方法。例如,城市中某个特定服务(如互联网或电视频道)的使用人群集合。 描述性统计可分为以下四类
推断性统计 推断性统计是一种用于解释描述性统计含义的统计学类型。这些统计数据用于根据随机变化(如观察误差、抽样变异等)来得出关于数据的结论。一旦我们收集、分析和总结了数据,我们就使用这些统计数据来解释收集到的数据的含义。 在这种方法中,我们使用从样本中收集的信息来对总体做出决策、预测或推断。它还使我们能够做出超出可用数据或信息的陈述。 3) 数据和统计学之间的关键区别是什么?一般来说,人们经常互换使用“数据”和“统计学”这两个术语,但它们之间存在关键区别。数据可以指定为记录并用于分析的个人事实信息。换句话说,数据是创建统计数据的原始信息。另一方面,统计学是数据分析、解释和呈现的结果。 换句话说,我们可以说统计学是一个计算过程,用于提供对数据含义的理解。统计数据通常以表格、图表或图形的形式呈现。出于研究目的,我们经常需要统计数据和数据。政府机构经常报告和使用统计数据。例如,失业统计、教育识字率统计等。这些类型的统计数据称为“统计数据”。 4) 在学习数据分析之前,你应该知道的四个主要内容是什么?以下是在学习数据分析之前你应该了解的四个主要内容。这些内容是
5) 统计学中有四种不同类型的数据?数据统计学可分为两大类
之后,这些可以进一步细分为四种数据类型,其中名义数据和有序数据属于定性数据,而区间数据和比率数据属于定量数据。 定性数据:定性数据是一组无法用数字衡量的信息。它也称为分类数据。它通常包含我们用名称标记的词语、叙述等。它主要关注数据中事物的质量,在定性数据分析之后,结果将体现在关键词、数据提取和想法阐述方面。 例如,一个人的发色,如黑色、棕色、红色、金色等。定性数据可分为两个子类别:名义和有序。
6) 什么是中心极限定理?它有什么用途?中心极限定理是统计学中最重要的一部分。它规定,来自具有大样本量的总体的样本分布将具有正态分布的均值。换句话说,我们可以说,即使样本量增大,也不会影响原始总体分布,而不管总体的分布如何。通常,如果样本量等于或大于 30,则认为 CLT 成立。 中心极限定理或 CLT 主要用于计算置信区间和假设检验。它还使我们能够准确计算置信区间。例如,如果您想计算世界人口的平均身高,您必须从普通人群中抽取一些样本,这些样本构成数据集。在这里,要获取世界上的每个人身高的确切数据非常困难,几乎不可能,所以您必须计算样本数据的均值。 通过多次乘以获得的数据集,您将获得均值及其频率,您可以在图表上绘制它们并创建正态分布曲线。在这里,您将得到一个钟形曲线,该曲线与原始数据集非常相似。 7) 在统计学中,您如何理解观察数据和实验数据?观察数据是从观察研究中获得的数据类型。在观察数据中,我们观察变量是否之间存在任何相关性。另一方面,实验数据是从实验研究中收集的数据类型。在这里,我们保持某些变量不变,以查看工作中的任何差异。 8) 如何评估一个见解的统计显著性?我们可以使用假设检验来确定一个见解的统计显著性。在这里,我们陈述零假设和备择假设,然后计算 p 值。一旦计算出 p 值,就假定零假设为真,然后确定值。为了确保值的正确性,我们将其与 alpha 值进行比较,alpha 值表示显著性,可以进行调整。如果 p 值小于 alpha 值,则拒绝零假设,否则予以考虑。这用于确保获得的结果在统计上是显著的。 9) 数据分析和机器学习有什么区别?以下是数据分析和机器学习之间关键区别的列表
10) 推断统计学和描述性统计学有什么区别?推断统计学提供关于样本的信息。它需要对总体做出结论。另一方面,描述性统计学提供准确的信息。 11) 统计学中的常态是什么?在统计学中,常态是指符合一个人通常行为方式的行为。它是被社会标准所接受的思考和行为方式,与大多数人相似,通常在这种情况下被视为一种好方式。根据情况,它也可以被指定为预期和适当的行为。 在心理统计学的情况下,它也可以仅仅是平均水平。它规定了您如何适应周围环境、管理或控制情绪、令人满意地工作以及建立令人满意、充实或至少可接受的人际关系。 12) 常态的标准是什么?对于任何特定的行为或特征,常态的标准是平均或接近平均。这意味着分数落在均值之上或之下一个标准差的范围内是正常的。最平均的 68.3% 的人口被认为是正常的。 13) 常态的假设是什么?从技术角度来看,常态的假设规定均值的抽样分布是正态的,或者均值在样本之间的分布是正态的。换句话说,常态的假设规定均值在样本之间的分布是正态的。这对于独立样本也同样适用。 14) 长尾分布的主要用途是什么?它们主要用于哪里?长尾分布是指尾部逐渐下降到曲线末端的分布类型。它们最广泛地用于分类和回归问题。帕累托原则和产品销售分布是使用长尾分布的良好示例。 15) 您如何理解假设检验?在统计学中,假设检验主要用于查看某个实验是否产生有意义的结果。它通过找到结果偶然发生的几率来帮助评估见解的统计显著性。在假设检验中,第一件事是了解零假设,然后指定它。之后,计算 p 值,如果零假设为真,那么其他值也确定。alpha 值指定了显著性,您可以相应地进行调整。 如果 p 值小于 alpha 值,则拒绝零假设,但如果 p 值大于 alpha 值,则接受零假设。如果拒绝零假设,则表明获得的结果在统计上是显著的。 16) 在统计学中,如何处理缺失数据?在统计学中,有几种方法可以处理缺失数据
17) 您如何理解缺失数据的均值插补?为什么它被认为不好?均值插补是一种将数据集中空值直接替换为相应数据均值的方法。如今,这是一种很少使用的方法。均值插补被认为是糟糕的做法,因为它完全消除了特征相关性的责任。这也意味着数据将具有低方差和增加的偏差,这可能导致模型准确性下降,以及更窄的置信区间。 18) 在统计学中,您如何理解六西格玛?在统计学中,六西格玛是一种质量控制方法,用于生成无错误或无缺陷的数据集。在此方法中,标准差称为西格玛或 σ。标准差越大,该过程执行的准确性就越低,并导致缺陷的可能性就越大。六西格玛模型比 1σ、2σ、3σ、4σ、5σ 工艺效果更好,并且足够可靠,可以提供无缺陷的工作。如果您获得 99.99966% 无错误的工艺结果,则认为它是六西格玛。 19) 统计学中的探索性数据分析是什么?在统计学中,探索性数据分析是通过对数据进行调查以更好地理解数据来执行的过程。在此过程中,进行初步调查以确定模式、发现异常、检验假设以及检查假设是否正确。 20) 您如何理解选择偏差?在统计学中,选择偏差是一种现象,涉及以非随机方式选择个体或分组数据。随机化在执行分析和更好地理解模型功能方面起着至关重要的作用。如果我们没有实现正确的随机化,则生成的样本将不能准确地代表总体。 21) 统计学中的异常值是什么?如何确定数据集中的异常值?在统计学中,异常值是指与其他数据集中的观测值相比,差异很大的数据点。基于学习过程,异常值会降低模型的准确性并急剧降低其效率。 我们可以通过两种方法确定异常值
22) 在统计学中,您如何理解内值?内值是数据集中的一个数据点,其水平与数据集中其余部分相同。与异常值相比,在数据集中查找内值并不容易,因为它需要外部数据。 与异常值类似,内值也会降低模型准确性。与异常值不同,内值很难找到,通常需要外部数据才能准确识别。因此,它通常是错误,我们需要将其删除以提高模型准确性。这主要是为了始终保持模型准确性。 23) 在统计学中,您如何理解 KPI?KPI 是一个首字母缩略词,代表关键绩效指标。KPI 是一种可量化的衡量标准,用于了解我们是否能够实现目标。KPI 是一种可靠的指标,通常用于衡量组织或个人实现目标的绩效水平。组织中 KPI 的一个例子是费用比率。 24) 统计学中有哪些不同类型的选择偏差?在统计学中,有几种类型的选择偏差
25) 大数定律在统计学中的意义是什么?在统计学中,大数定律用于指定如果我们增加实验的试验次数,我们将获得与预期值更接近的结果的正比增加。例如,如果您掷一个六面骰子三次并检查概率,您会发现获得的预期值与平均值相差甚远。另一方面,如果您掷一个骰子很多次,您将获得接近预期值(在本例中为 3.5)的平均结果。这是统计学中大数定律的一个很好的例子。 26) 统计学中的根本原因分析是什么?您能举例说明吗?顾名思义,根本原因分析是一种用于解决问题的方法,首先确定问题的根本原因。 例如,如果您发现一个城市的高犯罪率直接与黑色衬衫的销量较高相关,这意味着它们具有正相关。但是,这并不意味着一个会导致另一个。相关性始终使用 A/B 测试或假设检验进行测试。 27) 统计学中正态分布的一些重要特性是什么?正态分布用于指定数据,该数据相对于均值对称,远离均值的数据发生的频率较低。在图形形式中,它表现为钟形曲线,该曲线沿轴对称。在统计学中,正态分布也称为高斯分布。在图形形式中,它表现为钟形曲线,该曲线沿轴对称。在统计学中,正态分布也称为高斯分布。 正态分布包含以下特性
28) 在什么情况下,中位数比均值更好?当存在大量可能使数据正面或负面偏斜的异常值时,我们更倾向于使用中位数,因为它在这种确定情况下提供了准确的度量。 29) 统计学中的“p 值”是什么?您将如何描述它?在统计学中,p 值是一个数字,指示数据偶然发生的可能性。它在假设检验期间计算。如果 p 值为 0.5 且小于 alpha,我们可以得出结论,实验结果有 5% 的可能性是偶然发生的。换句话说,我们可以说,有 5% 的时间,我们可以偶然观察到这些结果。 30) 在统计学中,如何使用 MS Excel 计算 p 值?在 Excel 中,p 值称为概率值。它用于理解发现的统计显著性。p 值的主要用途是检验零假设的有效性。如果根据 p 值来看零假设不成立,我们必须相信备择假设可能是真的。P 值使我们能够确定所提供的结果是由偶然引起的,还是我们在检验两个不相关的变量。因此,p 值被认为是调查者而不是法官。 它是 0 到 1 之间的数字,但通常以百分比表示。如果 p 值为 0.05,则表示为 5%。较小的 p 值会导致拒绝零假设。 以下是使用 MS Excel 在统计学中计算 p 值的公式 p 值 = tdist(x,deg_freedom,tails) 在 Excel 中,p 值以小数形式表示。按照以下步骤在 Excel 中计算 p 值
31) 在统计学中,您如何理解 DOE?DOE 是一个首字母缩略词,代表统计学中的实验设计。在此过程中,我们设计一个任务,该任务描述信息及其基于自变量变化的变化。 32) 您如何理解协方差?协方差是一种衡量两个随机变量如何共同变化的度量。它表明两个变量如何同步移动。它还规定了两个变量之间关系的方向。协方差有两种类型:正协方差和负协方差。正协方差表示两个变量倾向于同时高或低。另一方面,负协方差表示当一个变量高时,另一个变量倾向于低。 33) 统计学中使用的帕累托原则是什么?统计学中使用的帕累托原则也称为 80/20 原则或 80/20 规则。该原则规定,在实验中 80% 的结果来自 20% 的原因。 例如,您可能在现实生活中观察到,农场 80% 的小麦来自 20% 的小麦。 34) 哪种类型的数据不具有对数正态或高斯分布?指数分布类型的数据不具有对数正态分布或高斯分布。任何类型的分类数据也不会具有这些分布。 例如,电话通话时长、下一次地震发生前的等待时间等。 35) 统计学中的 IQR 是什么?如何计算 IQR?IQR 是一个首字母缩略词,代表四分位距。它是数据集中“中间五十”的度量。IQR 描述了按从低到高排序的中间 50% 的值。 按照以下步骤在统计学中找到四分位距 (IQR)
IQR = Q3 - Q1 Q3 是第三个四分位数(75 百分位数),Q1 是第一个四分位数(25 百分位数)。 36) 在统计学中,您如何理解五数概括?在统计学中,五数概括用于衡量涵盖整个数据范围的五个实体。它主要用于描述性分析或对大型数据集进行初步调查。 五数概括包含以下五个值
注意:选择这些值是为了总结数据集,因为每个值都描述了数据集的特定部分。这里,中位数指定了数据集的中心,上四分位数和下四分位数跨越了数据集的中间一半,最高和最低的观测值提供了关于数据实际分散情况的额外信息。37) 使用箱线图有什么优点?箱线图以图形方式显示 5 数概括。它主要用于比较一组直方图。 38) 第一个四分位数、第二个四分位数和第三个四分位数有什么区别?在统计学中,四分位数用于通过将数据分成三等份来描述数据分布。在这种数据划分中,这些部分的边界或边缘称为四分位数。 有三种类型的四分位数
39) 您如何理解偏度?偏度可以描述为数据集中偏离对称钟形曲线或正态分布的失真或不对称。您可以将其视为概率分布中观察到的不对称程度。 根据不同的程度,偏度可以分为两种类型,即右偏(正)偏度和左偏(负)偏度。偏度以均值为中心。如果偏度为负,则数据比右侧更分散在均值的左侧。如果偏度为正,则数据更多地向右移动。正态分布(钟形曲线)显示零偏度。 40) 左偏分布和右偏分布有什么区别?左偏分布和右偏分布之间的关键区别在于,在左偏分布中,左尾比右侧长。这里,均值 < 中位数 < 众数。另一方面,在右偏分布中,右尾比右侧长。这里,众数 < 中位数 < 均值。 41) 统计学中有哪些不同类型的数据抽样?在统计学中,主要有四种数据抽样类型
42) 什么是贝塞尔校正?它为什么用于统计学?在统计学中,贝塞尔校正是一种用于从样本估计总体标准差的因子。它导致了偏差较小的标准差,并主要用于提供更准确的结果。 43) 第一类错误与第二类错误有什么区别?第一类错误发生在拒绝零假设时,即使它为真。它也称为假阳性。另一方面,第二类错误发生在未能拒绝零假设时,即使它为假。它也称为假阴性。 44) 统计学中的显著性水平和置信水平之间有什么关系?在统计学中,显著性水平是获得与零假设为真的条件完全不同的结果的概率。另一方面,置信水平被用作总体中相似值的范围。 我们可以通过以下公式指定显著性水平和置信水平之间的相似性 显著性水平 = 1 - 置信水平 45) 您如何理解二项分布公式?以下是二项分布的公式 b(x; n, P) = nCx * Px * (1 - P)n - x 参数解释
46) 统计学中对称分布的例子有哪些?对称分布指定中位线左侧的数据与中位线左侧的数据相同。 以下是三种最广泛使用的对称分布示例
47) 统计学中的经验法则是什么?在统计学中,经验法则也称为 68-95-99.7 规则。它规定正态分布中的每条数据都位于均值三个标准差的范围内。 根据经验法则,
48) 正态分布中均值和中位数之间有什么关系?正态分布中的均值和中位数相等。因此,如果数据集的分布是正态的,则均值和中位数将相同。 |
我们请求您订阅我们的新闻通讯以获取最新更新。