使用机器学习预测薪资2025年3月17日 | 阅读13分钟 使用 Python 构建机器学习模型来预测 NBAA 的薪资并分析最重要的因素 NBAA 是最富有、竞争最激烈的体育联盟之一。在过去的几年里,NBAA 球员的收入一直在增长,但这些薪资是由复杂的因素网络决定的,这些因素隐藏在每一次令人瞠目结舌的扣篮和三分球背后。 众多因素在起作用,包括市场需求、球员表现、球队成功以及赞助协议。谁没有想过为什么他们的球队会花这么多钱给一个表现不佳的球员,或者钦佩一个特别精明的商业交易背后的思考过程? 在这篇文章中,我们将使用 Python 的机器学习技能来预测 NBAA 的薪资,并找出对球员薪资影响最大的关键因素。 理解问题在深入探讨这个问题之前,了解联盟的薪资体系的基础至关重要。当一名球员可以与任何球队签约时,他被认为是自由球员(FA),这个词将在本项目中频繁使用。 为了在球队之间保持竞争平衡,NBAA 受一套复杂的规则和法规管辖。薪资上限和奢侈税是该系统的两个基本概念。 球队在特定赛季中花费球员薪资的能力受到薪资上限的限制。薪资上限基于联盟收入,每年都会进行调整,以确保球队能够管理其预算。此外,它旨在通过防止大市场球队花费远远超过小市场球队来促进球队之间的公平。 薪资上限可以以不同的方式分配给球员,顶级球员获得最高薪水,新秀和老将获得最低薪水。 然而,希望组建能够争夺总冠军的阵容的球队经常会超出薪资上限。当球队的薪资总额超过薪资上限时,球队就会进入奢侈税区域。奢侈税会导致球队支付罚款。中级例外(MLE)和交易例外等规定允许球队进行战术性阵容调整,这些只是众多规定中的两种例外,但对于本项目而言,理解薪资上限和奢侈税就足够了。 ![]() 所选策略将采用薪资上限的百分比作为目标,而不是实际薪资金额,因为薪资上限持续不断地增长。此选择旨在考虑薪资上限的变化,确保结果不受时间变化的影响,并且在分析过去赛季时也适用。应强调的是,这仅仅是一个估计,并非完美表示。 数据本研究的目标是仅使用当前赛季的数据来预测将在下个赛季签订新合同的球员的收入。 使用的具体统计数据包括:• 每场平均数据 • 总数据 • 高级数据 • 个人数据:年龄、位置 • 与薪资相关的数据:上一赛季薪资、上一赛季和本赛季的最高薪资上限以及该薪资占薪资上限的百分比。 ![]() 由于我们不知道球员会签哪支球队,因此只添加了个人特征。 本研究共包含 78 个目标特征和每个球员的特征。 BRScraper 是我最近开发的一个 Python 程序,可以轻松访问 Hoops Reference 的篮球数据,包括 NBAA、G League 和其他外国联赛。已遵守所有关于破坏网站或损害其功能的说明。 数据处理选择用于模型训练的球员是一个有趣的因素。最初,我选择了所有可用的球员,但由于大多数球员已经签约,薪资金额并未显着改变。 考虑一名球员签订了为期四年的 2000 万美元合同。他每年赚取约 500 万美元(很少有年份的金额完全相同;通常薪资会围绕 500 万美元有一些增长)。然而,当一名自由球员签订新合同时,价值可能会发生更大的变化。 在仅评估自由球员时,表现会明显较差,尽管用所有球员训练模型可能会取得更好的总体结果(毕竟,大多数球员的薪资将与上一赛季相当!)。 由于目标是估算签订新合同的球员的薪资,因此数据应仅包含此类球员。这将有助于模型更好地理解这些球员的趋势。 2023-24 赛季是重点,但将使用 2020-21 赛季及之后的数据来增加样本的多样性,这由于目标选择而成为可能。 建模在创建训练-测试集时,保持了大约 70/30 的比例,同时仅将 2023-24 赛季的所有自由球员包含在测试集中。 起初,应用了多种回归模型 AdaBoost、Gradient Boosting、支持向量机(SVM)、Elastic Net, 随机森林, 梯度提升机(LGBM)等 使用均方根误差(RMSE)和决定系数(R2)来评估它们各自的表现。 结果考虑了所有赛季的所有数据后,发现了以下结果 ![]() 总的来说,模型表现良好;AdaBoost 在所用模型中的指标最差,而随机森林和梯度提升获得了最低的 RMSE 和最高的 R2。 变量分析通过 SHAP 值,这是一种提供每个特征如何影响模型预测的逻辑解释的方法,可以可视化影响模型预测的重要因素。 再次,使用机器学习预测 NBAA MVP 提供了关于 SHAP 及其图表阅读的更深入描述。 ![]() 可以从该图表中得出几个重要推论
考虑到现代统计数据大多是为了特定目的而创建的,以改进球员表现评估,这一点令人意外。在排名前 20 的数据中,球员效率评分(PER)缺席,排在第 43 位,这是一个显著的疏漏。 这表明总经理在协商薪资时可能遵循相对简单的策略,有时会忽略更广泛的表现评级指标。 也许问题并没有最初想象的那么复杂!简单来说,得分最多的球员赢了! 其他结果专注于今年的自由球员并将其预期薪资与实际薪资进行比较 ![]() 2023-2024 赛季随机森林模型的主要发现(单位:百万)。
应用程序源代码(使用机器学习预测薪资)输出 ![]() 下一主题微调大型语言模型 |
我们请求您订阅我们的新闻通讯以获取最新更新。