机器学习中的竞技跑者伤病预测

2025年3月17日 | 阅读 12 分钟

Injury Prediction in Competitive Runners Using Machine Learning

跑步是一项世界范围内流行的运动，有大量的人参与诸如慢跑、跑步或越野跑等活动。仅在美国，2017 年就有约 6000 万人参与这些活动。然而，令人担忧的统计数据表明，大约一半的跑步者每年都会遭受伤病。处理这些伤病可能是一个困难且耗时的过程，促使跑者采取各种策略来尽量减少受伤的可能性。其中一些预防措施包括使用泡沫轴、按摩以及寻求专业教练的指导。不幸的是，并非每个人都能负担得起这些资源，这使得伤病预防成为许多跑者面临的一个重大问题。

为了应对这一担忧，专家和数据科学家正日益拥抱机器学习的能力，以预测和避免竞技跑者的伤病。通过利用复杂的算法和广泛的数据集，机器学习模型能够彻底改变伤病预防方法，最终提升运动员的整体福祉。

利用机器学习预测竞技跑者的伤病的好处

机器学习可以分析广泛的数据集，包括伤病记录、训练模式、生物特征和环境因素，以发现隐藏的模式和相关性，从而帮助教练和运动员做出更明智的决策。
这些模型可以从新数据中持续学习，随着时间的推移提高其准确性和有效性，并随着运动员职业生涯的进展而适应不断变化的伤病风险因素。
机器学习提供实时伤病风险评估，允许即时调整训练负荷和练习，从而降低高强度训练或比赛期间受伤的可能性。

利用机器学习预测竞技跑者的伤病的挑战

虽然机器学习在伤病预测方面具有潜力，但仍存在一些重大挑战需要解决。

获取高质量、多样化且可靠的数据是一个重大挑战，因为机器学习模型严重依赖数据进行训练。有偏差、不完整或不具代表性的数据可能导致预测不准确。
人类生理学的复杂性以及伤病的多种因素性，给创建能够全面涵盖所有促成因素的模型带来了挑战。识别和考虑各种风险因素之间的相互作用对于模型的有效性至关重要。
解释机器学习模型的输出是困难的。虽然它们可以提供准确的预测，但理解这些预测的根本原因可能很困难。透明且可解释的模型对于获得教练、运动员和运动医学专业人士的信任和接受至关重要。

使用 Python 进行机器学习伤病预测

关于数据集

该数据集包含来自一个著名的荷兰高水平跑步队七年（2012-2019）的综合训练日志。它涵盖了参加 800 米到马拉松比赛的中长跑运动员。选择这些运动员是因为他们具有可比的耐力型训练方案。值得注意的是，在数据收集期间，该队的主教练保持一致。

数据集中有 74 名跑步者的记录，其中 27 名女性和 47 名男性。平均而言，这些运动员在队里约有 3.7 年。大多数跑步者参加国家级比赛，其中一些参加国际比赛。本研究严格遵守赫尔辛基宣言的指导方针，并获得了第二作者所在机构伦理委员会的批准。

在这里，我们将尝试预测竞争对手的伤病，并寻找最佳的伤病预测模型。

导入库

import numpy as np # linear algebra
import pandas as pd # data processing, .csv file I/O 
import sklearn as sk
import seaborn as sns 
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn import datasets, metrics

读取数据集

dataframe = pd.read_csv("/kaggle/input/injury-prediction-for-competitive-runners/week_approach_maskedID_timeseries.csv")
np.random.seed(0)

探索性数据分析 (EDA)

我们将从基本的数据探索开始，以确定数据集是否包含任何异常或不一致之处。

missing_Values = dataframe.isnull().sum()
missing_Values 

输出

我们拥有的数据集维度非常高，这使得数据分析难以开始。为了简化流程，我们决定根据经验分析删除某些属性。具体来说，我们移除了与个人感觉有关的属性，因为我们希望仅根据量化的跑步质量来预测数据。尽管与恢复有关的属性可能提供有价值的见解，但仅依赖调查问题来评估跑步者的身体状况是具有挑战性的，并且可能无法产生准确的结果。为了保持客观并采取数据驱动的方法进行分析，我们选择排除主观属性，并侧重于更具体和可衡量的因素。

dataframe.info()
dataframe = dataframe.drop(['avg training success.2', 'max training success.2', 'min training success.2', 'avg exertion', 'min exertion', 'max exertion'], axis = 1)
dataframe = dataframe.drop(['avg exertion.1', 'min exertion.1', 'max exertion.1', 'avg exertion.2', 'min exertion.2', 'max exertion.2', 'max km one day'], axis = 1)
dataframe = dataframe.drop(['avg recovery', 'min recovery', 'max recovery', 'avg recovery.1', 'min recovery.1', 'max recovery.1', 'avg recovery.2', 'min recovery.2', 'max recovery.2'], axis = 1)
dataframe = dataframe.drop(['avg training success', 'min training success', 'max training success', 'avg training success.1', 'max training success.1', 'min training success.1'], axis = 1)
dataframe = dataframe.drop(['rel total kms week 0_1', 'rel total kms week 0_2', 'rel total kms week 1_2'], axis = 1)
dataframe.info()

输出

经过仔细分析，我们已成功将数据集中的属性数量从 72 个减少到 41 个。虽然这一进展前景喜人，但数据集的维度仍然很高，给进一步的分析和建模带来了挑战。

输出

总共有 74 名运动员在该数据集中。现在，让我们专注于检查第一名运动员的训练数据，以了解他们的训练模式。

def indexIndividualData(id):
  df_0 = dataframe[dataframe['Athlete ID'] == id]
  index1 = df_0.index[0]
  indexLast = df_0.index[-1]
  y = indexLast - len(df_0[df_0['injury']==0]) - len(df_0[df_0['injury']==1])
  df_0 = df_0.rename(index = lambda x: x - y - 1 if x > indexLast - len(df_0[df_0['injury']==1]) else x - index1)
  df_0 = df_0.sort_values(by = 'Date')
  return df_0
def plotIndividualData(id, column):
  df_0 = indexIndividualData(id)
  plt.figure(figsize = (14,6))
  sns.lineplot(data=df_0[column])


plotIndividualData(1, "total kms")

输出

这张图提出了一些有趣的问题。我们想知道为什么这位特定运动员的训练会持续这么长时间显著下降。如果每个数据点代表一周，受伤超过一百周似乎不寻常。或者，如果数据点表示天数，受伤一百天仍然相当多，值得进一步调查。

数据集中带有 '.1'、'.2' 和 '.3' 的属性令人困惑。即使参考了元数据文件，我们也难以理解它们与日期属性的相关性。这些属性的含义和相关性仍然不清楚，需要进一步澄清。

def dateInjurySubset(id, column1, column2, column3): 
  df_0 = indexIndividualData(id)
  return df_0[[column1,column2,column3]]



def plotIndividualDataDuoColumn(id, column1, column2, column3):
  df_0 = dateInjurySubset(id,column1,column2,column3)
  plt.figure(figsize = (14,6))
  sns.lineplot(data=df_0) 

print(dateInjurySubset(1,"total kms", "total kms.1","total kms.2").mean())
plotIndividualDataDuoColumn(1,"total kms", "total kms.1", "total kms.2")
print(dateInjurySubset(1,"nr. sessions", "nr. sessions.1","nr. sessions.2").mean())
plotIndividualDataDuoColumn(1,"nr. sessions", "nr. sessions.1","nr. sessions.2")
print(dateInjurySubset(2,"total kms", "total kms.1","total kms.2").mean())
plotIndividualDataDuoColumn(2,"total kms", "total kms.1", "total kms.2")
print(dateInjurySubset(2,"nr. sessions", "nr. sessions.1","nr. sessions.2").mean())
plotIndividualDataDuoColumn(2,"nr. sessions", "nr. sessions.1","nr. sessions.2") 

输出

dfQ2 = dataframe[['Athlete ID', 'total km Z3-Z4-Z5-T1-T2', 'total km Z3-Z4-Z5-T1-T2.1', 'total km Z3-Z4-Z5-T1-T2.2', 'injury', 'nr. tough sessions (effort in Z5, T1 or T2)', 'nr. tough sessions (effort in Z5, T1 or T2).1', 'nr. tough sessions (effort in Z5, T1 or T2).2', 'total km Z5-T1-T2', 'total km Z5-T1-T2.1', 'total km Z5-T1-T2.2', 'total km Z3-4', 'total km Z3-4.1', 'total km Z3-4.2']]
dfArray = []
for i in dataframe['Athlete ID'].unique():
  dfArray.append(indexIndividualData(i))

此数据集中“日期”属性也令人费解。为了更清楚地理解其重要性，我们将尝试将其可视化并探索其模式。

df_0 = dfArray[1]
injury = df_0[df_0['injury'] == 1]
notInjured = df_0[df_0['injury'] == 0]
print("INJURED DATES ID 1")
for i in injury['Date']:
  print(i)
print("NOT INJURED DATES ID 1:\n")
for i in notInjured['Date']:
  print(i)

输出

运动员的“日期”属性从 400 突然跳到 700 令人困惑并引发疑问。为了进行准确的预测和有效分析数据，我们需要连续且顺序的日期。尽管存在一些不确定性和潜在的见解缺失，我们仍将尝试对跑步数据进行分类。此外，我们的数据探索揭示了数据集中非受伤数据点存在显著偏差。这种不平衡可能会影响模型的性能和预测。

plt.figure(figsize=(8, 8))
sns.countplot(x=dataframe["injury"])
plt.title('Unbalanced Classes')
plt.show()

输出

在此可视化中，我们可以清楚地看到数据集在非受伤情况上的倾斜程度。

df_1 = df_0.sort_values(by = 'Athlete ID');

shuffled_df_1 = dataframe.sample(frac=1,random_state=4)

# Put all the fraud class in a separate dataset.
injury_df_1 = shuffled_df_1.loc[shuffled_df_1['injury'] == 1]

#Randomly select 492 observations from the non-fraud (majority class)
non_injured_df_1 = shuffled_df_1.loc[shuffled_df_1['injury'] == 0].sample(n=575)

# Concatenate both dataframes again
normalized_df = pd.concat([injury_df_1, non_injured_df_1])

#plot the dataset after the undersampling
plt.figure(figsize=(8, 8))
sns.countplot(x=normalized_df['injury'])
plt.title('Balanced Classes')
plt.show()

输出

为了防止我们的预测模型过拟合，我们已经使用抽样技术平衡了数据集。这确保了受伤和未受伤的病例在训练数据中都有同等的代表性。

建模

在这里，我们将采用各种机器学习算法以及它们的准确性和混淆矩阵。

让我们首先演示偏斜数据集的影响。在不平衡的数据集中，分类器的准确性似乎非常高，因为它只是将所有数据点识别为未受伤。然而，这种方法对于本项目お目标无益，因为它未能准确预测受伤病例。

y = df_0['injury']
X = df_0.drop('injury', axis=1)
X = df_0.drop('Athlete ID', axis=1)
X_train, X_test, y_train, y_test = train_test_split(
             X, y, test_size = 0.3, random_state = 0)

K = []
training = []
test = []
scores = {}
  
for k in range(2, 21):
    clf = KNeighborsClassifier(n_neighbors = k)
    clf.fit(X_train, y_train)
  
    training_score = clf.score(X_train, y_train)
    test_score = clf.score(X_test, y_test)
    K.append(k)
  
    training.append(training_score)
    test.append(test_score)
    scores[k] = [training_score, test_score]
    
for keys, values in scores.items():
    print(keys, ':', values)

输出

from sklearn.metrics import classification_report, plot_confusion_matrix 
clf.fit(X_train, y_train)
plot_confusion_matrix(clf, X_test, y_test)
metrics.plot_roc_curve(clf, X_test, y_test)
plt.show()

输出

在上图的混淆矩阵中，所有数据点都被分类为未受伤。为了解决这个问题，我们将继续使用平衡数据集。

y = normalized_df['injury']
X = normalized_df.drop('injury', axis=1)
X = normalized_df.drop('Athlete ID', axis=1)
X_train, X_test, y_train, y_test = train_test_split(
             X, y, test_size = 0.3, random_state = 0)

K = []
training = []
test = []
scores = {}
  
for k in range(2, 21):
    clf = KNeighborsClassifier(n_neighbors = k)
    clf.fit(X_train, y_train)
  
    training_score = clf.score(X_train, y_train)
    test_score = clf.score(X_test, y_test)
    K.append(k)
  
    training.append(training_score)
    test.append(test_score)
    scores[k] = [training_score, test_score]
    
for keys, values in scores.items():
    print(keys, ':', values)

输出

在此分析中，我们观察到随着 k 参数的增加，训练准确性明显下降（从约 80% 降至 65%），而测试准确性略有提高（从约 58% 升至 60%）。为了评估模型在处理未受伤和受伤数据方面的性能，我们将使用混淆矩阵。

clf = KNeighborsClassifier(n_neighbors = 2)
 clf.fit(X_train, y_train)
  
 training_score = clf.score(X_train, y_train)
 test_score = clf.score(X_test, y_test)
 K.append(k)
  
 training.append(training_score)
 test.append(test_score)
 scores[k] = [training_score, test_score]
clf.fit(X_train, y_train)
plot_confusion_matrix(clf, X_test, y_test)
metrics.plot_roc_curve(clf, X_test, y_test)
plt.show()

输出

当 k 值为 2 时，分类器在预测未受伤数据方面表现出更高的准确性。

clf = KNeighborsClassifier(n_neighbors = 12)
 clf.fit(X_train, y_train)
  
 training_score = clf.score(X_train, y_train)
 test_score = clf.score(X_test, y_test)
 K.append(k)
  
 training.append(training_score)
 test.append(test_score)
 scores[k] = [training_score, test_score]

clf.fit(X_train, y_train)
print("Accuracy:",accuracy_score(Y_test, Y_pred))
plot_confusion_matrix(clf, X_test, y_test)
metrics.plot_roc_curve(clf, X_test, y_test)
plt.show()

输出

当使用 k 值为 21 的高值时，伤病预测变得更准确。然而，这也导致了对未受伤数据的误报显著增加，这意味着分类器错误地将更多未受伤的人识别为受伤。

经过对各种参数值的广泛实验，我们确定了 k 值为 12 的最佳平衡点。该分类器实现了 60% 的整体准确率，其中预测未受伤数据点的准确率为 52%，预测受伤数据点的准确率为 68%。考虑到数据集固有的偏差，这个准确性水平是值得称赞的。尽管如此，我们仍在探索替代的二元分类器和不同的平衡方法，以进一步提高我们预测的准确性。

下面的代码演示了使用**支持向量机分类器**对数据点进行伤病预测。为了处理数据集不平衡的性质，我们采用了欠采样技术。通过平衡受伤和未受伤病例的代表性，我们旨在提高分类器在预测这两个类别方面的准确性。

#SVM classifier using undersampling
from imblearn.under_sampling import RandomUnderSampler
X = dataframe.drop('injury', axis = 1)
Y = dataframe['injury']
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.25, stratify = Y)
rus = RandomUnderSampler(random_state=0)
X_train, Y_train =rus.fit_resample(X_train,Y_train)
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)
classifier = SVC(kernel = 'rbf', random_state = 0)
classifier.fit(X_train, Y_train)
Y_pred = classifier.predict(X_test)
print("Accuracy:",accuracy_score(Y_test, Y_pred))
print(confusion_matrix(Y_test, Y_pred))


metrics.plot_roc_curve(clf, X_test, Y_pred)
plt.show()

输出

在下面的代码中，我们使用支持向量机分类器来预测一个数据点是否对应于伤病。为了解决我们不平衡数据集的问题，我们采用了过采样技术。这种方法通过复制或生成少数类（受伤数据）的额外实例来创建更平衡的数据表示，从而使分类器能够更准确地预测受伤和未受伤的病例。

#SVM Classifier using oversampling
from imblearn.over_sampling import SMOTE
X = dataframe.drop('injury', axis = 1)
Y = dataframe['injury']
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.25, stratify = Y)
sm = SMOTE(random_state = 0)
X_train, Y_train = sm.fit_resample(X_train,Y_train)
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)
classifier = SVC(kernel = 'rbf', random_state = 0)
classifier.fit(X_train, Y_train)
Y_pred = classifier.predict(X_test)
print("Accuracy:",accuracy_score(Y_test, Y_pred))


print(confusion_matrix(Y_test, Y_pred))
metrics.plot_roc_curve(clf, X_test, Y_pred)
plt.show()

输出

在下面的代码中，我们实现了一个带欠采样的 Bagging 分类器来预测一个数据点是否对应于伤病。

#Bagging Classifier With Undersampling
import sklearn.ensemble
X = dataframe.drop('injury', axis = 1)
Y = dataframe['injury']
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.25, stratify = Y)
rus = RandomUnderSampler(random_state=0)
X_train, Y_train =rus.fit_resample(X_train,Y_train)
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)
bag = sklearn.ensemble.BaggingClassifier(n_estimators = 35)
bag.fit(X_train, Y_train)
Y_pred = bag.predict(X_test)
print("Accuracy:",accuracy_score(Y_test, Y_pred))


print(confusion_matrix(Y_test, Y_pred))
metrics.plot_roc_curve(clf, X_test, Y_test)
plt.show()

输出

在下面的代码中，我们实现了一个带过采样的 Bagging 分类器来预测一个数据点是否对应于伤病。

#Bagging Classifier With Oversampling
import sklearn.ensemble
X = dataframe.drop('injury', axis = 1)
Y = dataframe['injury']
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.25, stratify = Y)
sm = SMOTE(random_state = 0)
X_train, Y_train = sm.fit_resample(X_train,Y_train)
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)
bag = sklearn.ensemble.BaggingClassifier(n_estimators = 30)
bag.fit(X_train, Y_train)
Y_pred = bag.predict(X_test)
print("Accuracy:",accuracy_score(Y_test, Y_pred))

print(confusion_matrix(Y_test, Y_pred))
metrics.plot_roc_curve(clf, X_test, Y_test)
plt.show()

输出

在这里，我们使用 Bagging 分类器来预测一个数据点是否受伤，并使用欠采样技术来应对我们不平衡的数据集。

#XGBooster model with undersampling
from xgboost import XGBClassifier
X = dataframe.drop('injury', axis = 1)
Y = dataframe['injury']
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.25, stratify = Y)
rus = RandomUnderSampler(random_state=0)
X_train, Y_train =rus.fit_resample(X_train,Y_train)
boost = XGBClassifier(max_depth = 3, n_estimators = 30)
boost.fit(X_train, Y_train)
Y_pred = boost.predict(X_test)
print("Accuracy:",accuracy_score(Y_test, Y_pred))

print(confusion_matrix(Y_test, Y_pred))
metrics.plot_roc_curve(clf, X_test, Y_test)
plt.show()

输出

我们采用**Bagging 分类器**来确定一个数据点是否对应于伤病，通过使用过采样技术来解决数据集的不平衡。

#XGBooster model with Oversampling
from xgboost import XGBClassifier
X = dataframe.drop('injury', axis = 1)
Y = dataframe['injury']
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.25, stratify = Y)
sm = SMOTE(random_state = 0)
X_train, Y_train = sm.fit_resample(X_train,Y_train)
boost = XGBClassifier(max_depth = 2, n_estimators = 30)
boost.fit(X_train, Y_train)
Y_pred = boost.predict(X_test)
print("Accuracy:",accuracy_score(Y_test, Y_pred))

print(confusion_matrix(Y_test, Y_pred))
metrics.plot_roc_curve(clf, X_test, Y_test)
plt.show()

输出

模型准确性主要受所使用的采样方法的影响。过采样方法在对未受伤数据点进行分类方面表现更好，而欠采样方法在准确识别受伤数据点方面表现出色。

为了平衡数据集，我们应用了**采样、过采样和欠采样**等各种策略。之后，我们使用 KNN、SVM、Bagging 和 XGBooster 等多种二元分类器评估了不同的平衡数据集。**XGBooster 和 Bagging** 取得了最佳性能，准确率高达约 99%。

利用机器学习预测竞技跑者伤病的未来展望

机器学习在运动医学和运动员护理方面具有巨大的潜力。随着可穿戴技术和数据收集方法的进步，机器学习模型可以分析全面的数据集，提供对运动员表现、生物力学和生理参数的更深入的见解。整合多模式数据，如遗传学和环境条件，可能会揭示导致伤病风险的新模式。纵向研究对于通过长期监测运动员来构建准确的预测模型至关重要。

此外，机器学习可以根据个体特征提供个性化的伤病预防计划。通过接受这些进步，伤病预测可以优化运动员的表现，并培养一个更健康、更成功的运动社区。

结论

利用机器学习预测竞技跑者的伤病，为革新运动医学和改善运动员福祉带来了巨大希望。借助先进的算法和广泛的数据集，机器学习模型提供了实时的伤病风险评估、个性化的训练指导以及数据驱动的伤病预防策略。

然而，通过解决数据质量、模型可解释性以及考虑复杂的风险因素相互作用等挑战，可以充分实现机器学习在伤病预测中的全部优势。数据科学家、运动医学专家、教练和运动员之间的合作将是克服这些障碍并充分发挥机器学习在竞技跑步中的潜力的关键。

随着研究人员和从业者探索各种可能性，通过机器学习进行伤病预测可以彻底改变竞技跑者进行训练、恢复和伤病预防的方式，最终带来一个更健康、更成功的运动社区。

下一个主题利用机器学习进行蛋白质折叠

机器学习中的竞技跑者伤病预测

利用机器学习预测竞技跑者的伤病的好处

利用机器学习预测竞技跑者的伤病的挑战

使用 Python 进行机器学习伤病预测

关于数据集

利用机器学习预测竞技跑者伤病的未来展望

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

机器学习中的竞技跑者伤病预测

利用机器学习预测竞技跑者的伤病的好处

利用机器学习预测竞技跑者的伤病的挑战

使用 Python 进行机器学习伤病预测

关于数据集

利用机器学习预测竞技跑者伤病的未来展望

结论

相关帖子

深度学习中的图像字幕生成

机器学习中的训练集和测试集

机器学习中的信息论

机器学习中的偏差与方差

卷积神经网络中的步幅

分类变量与连续变量之间的相关性

BERT 应用

Softmax 激活函数如何工作

时间序列 - 指数平滑

逻辑回归的假设

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器