人类行为识别

2025 年 6 月 19 日 | 阅读 11 分钟

人体活动识别(HAR)是计算机视觉和人机交互领域的一个非常有趣的领域。在人际沟通、人类行为分析和普适计算领域,自动检测人类体育活动已变得至关重要。

HAR的大规模应用可以提高整体福祉和人类安全。可穿戴技术可以通过测量心率、体育活动和睡眠质量来监测健康。基于HAR的智能家居解决方案可以识别何时有人进出房间,并调节温度或照明以节省能源并提供个人舒适度。个人安全设备可以自动通知选定的联系人或紧急服务。此外,这仅仅是开始。

有几个公开可用的数据集,可以轻松找到可用于研究和开发的现成数据。

人体活动识别(HAR):它是什么?

人体活动识别(HAR)的计算科学和工程领域的目标是创建能够从传感器数据中自主识别和分类人类行为的技术和系统。它能够利用传感器来解读运动或身体动作,并识别人的运动或活动。

Human Action Recognition

体育表现、健康、医疗保健、运动和安全只是HAR系统的一些应用。通常,它们要么是无人值守的,要么是在监控下。HAR系统的建模目标是从图像或视频中预测个人的行为标签。这通常通过基于图像和基于视频的活动识别来完成。

姿态估计是使用最广泛的基于视觉的HAR系统之一。随着研究人员发现有关人类行为的重要信息,他们越来越多地使用它。

HAR最艰巨的任务之一是考虑人类的身体特征、文化标记、方向和姿势类型。例如,让我们看一下下面的图像。可能很难确定一个人是在摔倒还是在尝试倒立。在人工智能领域,这种模糊性促使应用更现代的技术。

通过增加更复杂的特征、使用多种数据源以及捕获身体部位之间的空间和时间关系,多模态学习和基于图的学习旨在提高HAR系统的准确性和鲁棒性。

HAR面临着许多挑战,包括考虑人类的站立类型、方向、文化标记和身体特征。区分一个人是摔倒还是在尝试倒立可能很困难。在人工智能的背景下,这种不确定性促使使用更现代的方法。

多模态学习和基于图的学习旨在通过包含更复杂的特征、利用多种数据源以及记录身体部位之间的空间和时间交互来提高HAR系统的准确性和鲁棒性。

HAR面临的其他挑战包括:

  • 由于设备位置不同而导致的传感器数据差异
  • 运动变化
  • 重叠活动之间的干扰
  • 嘈杂且失真的数据
  • 数据收集成本高昂且耗时

什么是人体活动识别过程?

在计算机视觉和机器学习的科学领域,识别他人行为是至关重要的问题之一。以下是任何活动所涉及的基本步骤。

1. 数据采集

佩戴在用户身上或固定在用户身上的传感器通常会收集HAR数据。标准的HAR传感器包括GPS传感器、磁力计、陀螺仪和加速度计。

加速度计通过测量x、y和z轴上的速度来检测方向和运动的变化。磁力计识别磁场和方向,而陀螺仪测量旋转和角速度。虽然GPS传感器可以帮助跟踪用户的位置和运动,但其高能耗和室内精度不足使其在HAR中的使用较少。由于每个样本都反映了特定时间点的传感器读数(例如,每秒一次),因此传感器数据通常被记录为时间序列数据。

2. 数据预处理

由于数据预处理会清理、转换和准备原始传感器数据以供进一步分析和建模,因此它是人体活动识别(HAR)中的关键步骤。典型的预处理程序包括:

  • 过滤
  • 特征提取
  • 特征选择
  • 细分
  • 规范化
  • 降维
  • 缺失值插补

3. 模型选择

多种机器学习算法可以对人体活动进行分类。选择必须取决于性能要求、资源和数据复杂性。以下是一些著名的HAR机器学习模型:

决策树:决策树算法是一种简单的模型,可以处理标签和特征之间的非线性关系。该技术可用于使用传感器数据(如加速度计或陀螺仪测量值)的人体活动识别分类问题。决策树易于理解,并且可以处理连续和分类数据的复杂性,因此也有助于理解特定分类问题的显著组成部分。然而,在输入数据非常复杂或嘈杂的情况下,它们可能会过拟合并表现不佳。

随机森林:这个决策树集合可以应用于嘈杂和高维数据。它可以处理缺失值,并且不易过拟合。另一方面,与决策树相比,随机森林可能需要更优化的操作,并且需要更多的处理能力。

SVM:SVM是支持线性和非线性数据的可靠模型。它们可以处理高维数据,并且过拟合的风险较低。但是,对于大型数据集,它们可能在计算上成本高昂,并且需要仔细调整超参数。

隐马尔可夫模型:HMM作为一种统计模型,用于通过HAR识别传感器数据中的顺序模式。HMM对于时间序列数据非常有用,并且可以很好地处理多步、困难的任务。

卷积神经网络(CNN):这些深度学习方法在处理图像和时间序列数据(包括陀螺仪和加速度计的数据)方面表现出色。尽管这些算法可以有效地处理复杂的数据模式和来自原始数据的分层特征,但它们可能需要比其他模型更多的处理能力,并且更容易过拟合。

循环神经网络(RNN):深度学习模型和循环神经网络(RNN)用于处理时间序列和其他顺序数据。它们可以学习数据中的时间依赖性,并且还可以处理可变长度的序列。但是,它们确实需要适当的初始化和正则化,并且可能会受到梯度消失问题的影响。

4. 实现

HAR系统可以通过两种方式实现:

部署外部传感器:此方法在环境中存在摄像头或运动探测器等外部传感器时收集有关人类活动的信息。另一台计算机将使用HAR模型来处理传感器数据。该技术对于观察公共场所的行为或当受试者无法携带设备时非常有效。

设备上感知部署:这将包括将传感器固定在观察对象身上,该对象穿着传感器,例如手腕上的加速度计,以捕获有关其动作的数据。然后,可能部署在智能手表上的HAR模型或远程部署在计算机系统上的HAR模型将对传感器数据进行后处理。此技术适用于私人环境或受试者可以穿戴设备的场景。

用于识别人类活动的深度神经网络模型

人类活动是计算机视觉中最棘手的研究课题之一。该领域的长期研究人员一直在努力设计一个几乎无错误的识别系统。

例如,J. Gao等人将支持向量机和随机森林等传统机器学习方法与卷积神经网络和循环神经网络等深度学习算法在HAR任务上的有效性进行了比较。

与传感器数据变异的效率和鲁棒性相比,深度学习算法由于能够从原始数据中自动提取复杂特征,因此在准确性方面平均要好得多。此外,在这篇论文中还应注意到,深度学习的实时算法可以有效地应用于低功耗实现。

DL模型在现实场景中更强大,因为它们可以解释传感器位置、方向和其他改变传感器输入值的环境条件的变化。此外,DL模型可以处理数百万个观测值的大型数据集,并且可以进行扩展,这对于具有众多用户和多个传感器的HAR系统非常有用。

此外,深度学习算法在利用局部依赖性从时间序列数据中分类和提取特征方面表现出色。研究人员越来越有兴趣应用卷积神经网络(CNN)、长短期记忆(LSTM)和混合模型等复杂的深度学习方法来更准确地检测人类活动。

此外,使用DL模型可以创建将传感器数据直接映射到活动标签的端到端模型,从而无需进行特征提取和分割等中间步骤。

循环神经网络

当传感器的时间序列数据被用作人体活动识别的输入时,循环神经网络在这种深度学习模型顺序输入(称为神经网络)中表现得非常好。

首先,RNN应用于HAR,将输入数据转换为一系列固定长度的设施向量。每个特征向量传感器是数据的一个短期窗口。然后,特征向量序列被馈送到RNN。该网络分析每个输入向量,同时跟踪一个隐藏位置,该位置保留了输入向量之间的临时关系。

RNN在HAR中的最大优势在于其长期的时序能力。它可以捕获这些时间序列数据的潜在优势;作为本次人体活动识别任务的输入,特别可以看出循环神经网络对于它们的顺序输入类型效果很好。

在HAR中,RNN首先应用于将输入数据转换为一系列固定长度的特征向量,每个特征向量代表传感器数据的时域窗口。特征向量序列被馈送到RNN。网络逐一分析输入向量,并在内存中保留一个隐藏状态,该隐藏状态保留了输入向量之间的时序关系。

RNN在HAR方面的主要优势在于其能够获得输入中的长期时序关系。这是通过RNN隐藏状态之间的循环连接实现的。由于这些循环连接,RNN可以在一个以上的时间帧中处理复杂的活动模式,同时保持对它已消耗内容的内部记忆。

RNN在HAR方面也表现出很有前途的性能。它们在识别复杂任务(如跌倒检测、家庭活动和体育运动)方面非常稳健且准确。它们还可以处理可变长度的输入序列,这使其适用于活动持续时间不同的现实应用。缺点是存在可能影响训练过程的梯度消失和爆炸问题。

卷积神经网络

卷积神经网络(CNN)是一种特别擅长处理图像和视频数据的深度学习架构。在人体活动识别(HAR)的背景下,CNN已被用于从传感器数据中自动可靠地识别和分类人类行为。

传感器时间序列数据通常用作基于CNN的HAR的输入数据。时间序列数据首先被转换为类似2D图像的表示,使用时间作为x轴,传感器数据作为y轴。

Human Action Recognition

然后,CNN接收创建的数据矩阵,并使用它来提取和分类特征。CNN的卷积层使用滑动窗口技术将滤波器应用于传入数据。每个滤波器在输入数据的特定位置提取特定特征,例如角落或边缘。

池化层在接收到卷积层的输出后,对返回的特征进行下采样,同时保留它们重要的空间相关性。平滑处理后,池化层的输出被馈送到全连接层,全连接层将提取的特征分类为各种人类活动。然后使用全连接层的输出来生成通过softmax函数的各种活动上的概率分布。

CNN的基本结构如图所示,该图摘自本研究。

人体活动识别的应用

人体活动识别已经并在许多领域得到应用,并且还在不断发展新的应用。让我们看一下几个标杆。

运动表现分析

HAR还可以用于各种形式的运动表现分析。它可以用于在训练和比赛期间监测和分析运动员的运动,预测新的受伤风险,评估不同训练方法的有效性,跟踪个人运动员的发展,以及研究团队运动的战术和战略元素。

例如,HAR可用于跟踪跑步者的运动并检测可能的过度使用损伤,分析羽毛球运动员在扣杀时的动作,跟踪网球运动员在比赛中的动作并找出需要改进步法和跑动的地方,或分析篮球运动员在比赛中的动作以寻找提高球的传递和团队防守的机会。

自动驾驶汽车

HAR在自动驾驶汽车领域有着广泛的应用。例如,自动驾驶汽车可以使用HAR来识别道路上的其他车辆,因此它们在使用中高效且安全。通过使用HAR,这项技术可以分析和检测自动驾驶汽车周围的行人、自行车和其他运动,从而能够预测和清除可能导致交通拥堵的道路障碍。

HAR还可以识别驾驶员的行为,包括手势和头部动作,以便于自动驾驶汽车与人类驾驶员之间进行交流。

人机交互

人体活动识别可以利用系统识别和分类的人类手势和动作来提高计算机系统的可访问性和可用性。

通过允许控制智能手机或智能电视等电子设备,Har可以创造出直观且自然的体验。HAR还可以提供基于语音的计算机系统自动化,包括聊天机器人和虚拟个人助理,以实现更有效的计算机到计算机的通信。

此外,通过识别和分类计算机用户的身体动作和行为,HAR可以监测他们的健康状况,并有助于避免和减轻长时间使用计算机的负面影响,如背痛、眼疲劳和其他问题。

智能监控

HAR正成为智能监控中越来越重要的技术,因为它能够自动分析和解释视频。它可以增强公共场所和关键基础设施的安全和保护。

HAR可以识别和分类步行、跑步、游荡,甚至携带武器或物品等可疑行为。当系统检测到不寻常或重复的行为模式时,例如在限制区域游荡或留下无人看管的物品,安全人员可以收到警报。

此外,即使一个人的脸被遮挡或遮盖,HAR仍然可以通过评估他们的姿势、步态和其他身体特征来实时识别他们,尤其是在拥挤的区域。由于该系统能够跟踪监控区域内的个人,因此安全人员可以定位和跟踪潜在的嫌疑人。然而,这确实会引发隐私问题,需要适当的法律和保障措施。

玩电子游戏

游戏行业在许多方面都利用人体活动识别。HAR能够识别和分类各种用户手势和活动,从而实现了更具吸引力和互动性的游戏体验。

例如,HAR可以实现体感游戏,将玩家的手势和动作转化为游戏内动作,如扔球或挥剑。此外,HAR还可用于通过手势来操作游戏内面板和设置,从而使游戏导航更轻松、更自然。

HAR还可以监测玩家在玩游戏过程中的动作和体育活动。例如,如果玩家达到特定的步数或完成特定的锻炼,游戏可以奖励玩家。