基于人口统计学的推荐系统2025 年 2 月 3 日 | 阅读 9 分钟 一种称为“基于人口统计的推荐系统”的推荐引擎,通过用户的人口统计数据来提供产品建议。为了预测偏好和行为,这些系统根据年龄、性别、就业、教育水平和地理位置等变量对用户进行分类。通过了解人口统计因素,这些系统能够定制建议,以更好地满足不同用户群体的需求和偏好。 一种称为“基于人口统计的推荐系统”的推荐引擎,通过用户的人口统计数据来提供产品建议。为了预测偏好和行为,这些系统根据年龄、性别、就业、教育水平和地理位置等变量对用户进行分类。通过了解人口统计因素,这些系统能够定制建议,以更好地满足不同用户群体的需求和偏好。 代码 现在,我们将创建一个基于人口统计的推荐系统,用于向用户推荐服务。 导入库读取数据集输出 ![]() 数据清洗与处理输出 ![]() 输出 ![]() ![]() 输出 ![]() 据我们所知,数据库中关于用户的信息仅有服务选择数据。我们需要服务选择数据而不是用户数据,因此我们可以使用这些数据来构建协同过滤推荐系统,但不能用于我们的人口统计推荐系统。 正如我们所见,有些记录没有选择任何服务,但 `ind_nomina_ult1` 和 `ind_nom_pens_ult1` 字段的值为 null。其他记录选择了服务,但这两个字段的值为 null。当转换为标签格式时,我们将删除没有选择任何服务选项的记录。 输出 ![]() 编码目标为了提供建议,我们必须将独热编码向量(目标)转换为标签编码。编码后,我们可以通过使用 `sklearn` 的 `label encoder` 对象来快速获取服务名称。 输出 ![]() 输出 ![]() 我们希望包含在数据集中的三个列是 `user_id`、`item_id` 和 `rating`。我们有 `user_id` 和 `item_id`,因为我们正在推荐一项银行服务,但我们不确定 `rating`。因此,我们将使用服务选择率(衡量客户满意度的指标)来代替评分。 首先,我们将计算一个用户选择一项服务的次数。然后,我们将用户在银行服务期间选择的总服务次数除以每个用户选择的服务数量。其范围从 0 到 1。 输出 ![]() 输出 ![]() 合并成单个文件输出 ![]() 我们将正确地表示数据。 输出 ![]() 基于人口统计的推荐系统通过向量化数据,我们将利用这些特征来向相似或具有相似特征的用户推荐服务。 正如我们在空值处理部分之前所涵盖的那样,我们将首先删除没有任何用户信息的条目。 输出 ![]() 输出 ![]() 我们需要将列从分类格式转换为数值格式,以便我们能够计算相似度。 输出 ![]() 在此,我们注意到
输出 ![]() 输出 ![]() 输出 ![]() 假设我们有 'N' 个用户。我们将选择每个用户最近的一次交易。在最近一次交易日期之前,我们将计算每项服务完成的交易次数,并将其记录在数据集中。 输出 ![]() 输出 ![]() 我们将用户 ID 和选择的服务作为索引,并对索引进行排序,以便能够极快地完成过滤,因为我们将检索与 `user_data` 数据框中的条目相关的先前记录。 输出 ![]() 输出 ![]() 输出 ![]() 现在我们将对数据集进行缩放。 现在我们将进行降维 输出 ![]() 检查推荐让我们看看基于年龄的推荐。 输出 ![]() 输出 ![]() 输出 ![]() 下一主题机器学习工程师与研究员的差异 |
特征缩放是机器学习中的一种过程,它将数值数据进行适当的分布,以便模型的有效学习成为可能。许多算法在具有适当归一化特征的情况下效果最好,尤其是那些基于距离测量的算法,例如 K-近邻、支持向量...
7 分钟阅读
在当前数据驱动的时代,企业和机构渴望从海量数据集中发掘有价值的见解。数据分析和机器学习是用于从这些丰富信息中提取意义的突出方法。尽管它们有共同之处,但这些方法也具有重要的区别。这个……
阅读 4 分钟
在本教程中,我们将构建一个二元分类模型,该模型将根据客户的年龄、性别、收入和城市来预测客户是否会购买汽车。我们将展示如何使用 ColumnTransformer 和 OneHotEncoder 来处理数值和……
11 分钟阅读
在机器学习中,特别是在分类问题中,Softmax 分类器在将模型的原始输出转换为概率方面起着重要作用。它经常用于多类分类问题。在本文中,我们将探讨 softmax 分类器及其工作原理...
阅读 6 分钟
简介:在本教程中,我们将学习如何使用 LangChain 构建 Chatbot Webapp。LangChain 是一个 Python 模块。LangChain 用于使用标准语言构建应用程序。它为其他文档提供了通信标准框架,并与各种 API 交互。LangChain 设计用于...
阅读 12 分钟
在广阔而多样的森林世界中,每种植被类型都具有其独特的生态重要性。能够预测这些植被类型对于生态保护、自然资源管理和加深我们对自然世界的理解至关重要。这就是……
阅读 28 分钟
高斯过程是一种非常强大的非参数机器学习方法,最初应用于回归,但最近已成功应用于分类任务以及时间序列分析等更多高级应用。其对复杂数据关系的建模灵活性使其在...
14 分钟阅读
VGG 的全称是 Visual Geometry Group,隶属于牛津大学科学工程系。它开发了一系列卷积网络模型,从 VGG 开始,并发展到 VGG16 和 VGG19,这些模型可用于人脸识别和……
阅读 6 分钟
独立成分分析(ICA)是一种常用于盲源分离的方法。ICA 已在多种环境中得到应用。ICA 通常以不透明的方式使用,对其内部工作知之甚少。因此,为了提供一个全面的资源...
7 分钟阅读
反向传播是训练人工神经网络的关键算法,使其能够学习数据中复杂的模式和关系。该系统从一个前向传递开始,其中输入数据穿过网络,在每个层经历加权求和和激活函数……
14 分钟阅读
我们请求您订阅我们的新闻通讯以获取最新更新。
我们提供所有技术(如 Java 教程、Android、Java 框架)的教程和面试问题
G-13, 2nd Floor, Sec-3, Noida, UP, 201301, India