什么是序数数据?

2025年6月21日 | 阅读 4 分钟

有证据表明,统计学家和数据科学家在划分特征及其在测量类型中的应用时也存在分歧。其中一些是序数数据,在名义数据等基本数据类型之间独具特色;然而,后者是分类/区间-比率数据;它的种类由类别决定,而这些类别之间的间隔不等或无法与用于其他类别的测量进行比较。因此,序数数据在社会科学、心理学乃至机器学习应用中都极其重要。

序数数据的定义和特征

序数数据用于可以排序或排名的信息;但是,这些等级或类别之间的差异无法量化。与名义数据(它对数据进行分类,但没有内在顺序,例如,颜色、动物种类)相反,序数数据暗示存在顺序。

序数数据的主要特征。

  • 有序类别:序数数据具有明显且合乎逻辑的顺序。例如,教育水平 — 高中 < 本科 < 研究生。
  • 不相等的间隔:类别之间的差异不相同。例如,“差”和“一般”之间的客户满意度调查差异与“一般”和“好”之间的差异完全不同。
  • 定性有序:尽管定性导向,序数数据在数值上进行编码以表示排名。

序数数据在用于 机器学习统计分析 的预处理过程中需要特别注意。除非进行编码,否则它不能直接用于需要数值输入的模型,但由于其间隔不等,也不能仅仅将其视为纯数值数据。以下是一些处理序数数据的常用技术。

编码

序数编码将分类变量转换为整数,但保留了序数顺序。它很简单,但可能会导致误导性的计算算法,这些算法将数值输入解释为具有相等的测量间隔。

输出

What is Ordinal Data?

可视化

序数数据主要在条形图或基于序数的直方图中表示,这些图表表示和解释类别的分布。

输出

What is Ordinal Data?

集中趋势

对于序数数据,应使用中位数和众数作为集中趋势的度量,而均值则无意义,因为此处不适用等间隔。同样,对于离散度目的,使用范围或 IQR。

输出

What is Ordinal Data?

机器学习中的序数数据

序数数据通常以特征或目标的形式出现在 机器学习数据集 中。它确实需要一些仔细的预处理,模型会学习适当地理解差异,但不是数量。

输出

 
Predictions: 0   

应用

序数数据在现实生活中有很多应用。以下是一些例子:

  • 调查分析:序数数据通常用于客户满意度、员工反馈和通过有序响应量表进行的总体意见的调查测量。例如,当使用李克特量表(从“非常不满意”到“非常满意”)时,它们反映了满意度的排名或程度。企业将分析这些答案以了解趋势、评估服务质量以及改进。
  • 医疗保健:在这里,序数数据也用于对主观的定性患者信息进行分类,例如疼痛水平(“无疼痛”、“轻度疼痛”、“中度疼痛”、“重度疼痛”)或疾病分期。风险评估涉及对与医疗状况相关的重要和严重情况进行分类,这些都是序数量表。排名有助于分诊和优先排序护理,并指示随着时间的推移跟踪治疗效果。
  • 教育:教育机构使用序数数据来对表现或成绩的等级进行排名,例如“A”、“B”、“C”、“D”和“F”。这些等级排名衡量学生的表现,但并未给出分数之间的实际差异。此数据的其他用途包括更多表现分析、课程变更以及学生需要在哪些方面改进。
  • 营销:序数数据用于对企业中的客户偏好、产品质量或忠诚度进行排名。例如,客户可以对产品进行 1 到 5 星的评分,这表示他们的满意度。公司利用这些信息来改进产品,提升客户体验,并细分市场以进行有针对性的促销或忠诚度计划。

结论

它是一种数据,它结合了分类数据的优点和它所提供的顺序的额外丰富性。它经常出现在实际应用中,并且需要了解适当的处理方法才能进行有效的分析或建模。从编码技术、统计分析和可视化到处理序数数据,本文将一步一步地阐述如何理解不同的编码,帮助分析师得出重要的结果,而不会陷入通常会困扰序数数据专家的陷阱。