推荐系统 - 机器学习

2025年6月24日 | 阅读16分钟

推荐系统是一种机器学习算法，它结合了用户和产品的信息来预测用户潜在的兴趣。这些系统广泛应用于电子商务、社交媒体和娱乐等领域，为用户提供个性化推荐。

推荐系统有多种类型，包括

基于内容的过滤： 这种类型的系统利用用户过去喜欢的物品的特征来推荐类似的物品。
协同过滤： 这种类型的系统利用用户过去的喜好行为来推荐类似用户喜欢的物品。
混合： 为了生成建议，这种系统结合了基于内容的过滤和协同过滤技术。
矩阵分解： 使用这种方法，用户-物品矩阵被分解成两个低维矩阵，然后用于生成预测。
深度学习： 这些模型利用神经网络来训练用户和物品表示，然后用于生成推荐。

选择哪种类型的推荐系统取决于具体的应用和可用的数据类型。

值得注意的是，推荐系统被广泛使用，并且可能对企业和用户产生重大影响。然而，重要的是要考虑可能引入系统中的道德考量和偏见。

在本文中，我们将利用Kaggle数据集中的数据：CI&T Deskdrop的文章分享和阅读。

为了向客户提供个性化建议，我们将演示如何在Python中开发协同过滤、基于内容的过滤和混合技术。

数据集详情

来自CI&T内部通信平台的Deskdrop数据集，它是为期12个月（2016年3月至2017年2月）日志的实际样本。（DeskDrop）。在超过3k篇公开发布的文章中，记录了大约7.3万次用户互动。该文件由两个CSV文件组成

shared_articles.csv
Users_interactions.csv

现在，我们将尝试在代码中实现它。

导入库

import sklearn
import scipy
import numpy as np
import random
import pandas as pd
from nltk.corpus import stopwords
from scipy.sparse import csr_matrix
from sklearn.model_selection import train_test_split
from sklearn.metrics.pairwise import cosine_similarity
from scipy.sparse.linalg import svds
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler
import matplotlib.pyplot as plt
import math

加载数据集

在这里，我们必须加载数据集以执行机器学习操作。

我们已经知道数据集有两个CSV文件。

1. shared_articles.csv

它包括平台上发布的文章数据。每篇文章都包含共享时间戳、原始URL、标题、纯文本内容、共享语言（葡萄牙语：pt或英语：en）以及共享文章的个人（作者）信息。

共享内容： 用户可以访问平台上共享的文章。
内容已删除： 文章已从网站上删除，不再可用于推荐。

为简单起见，我们在此仅分析“内容共享”事件类型，错误地假设所有文章在整个一年期间都可访问。对于更准确的审查，只应推荐在特定时间可用的出版物，但无论如何我们都会为您进行此练习。

dataframe_articles = pd.read_csv('shared_articles.csv')
dataframe_articles = dataframe_articles[dataframe_articles['eventType'] == 'CONTENT SHARED']
dataframe_articles.head(5)

输出

Recommendation System - Machine Learning

2. users_interactions.csv

它包含共享内容的用户交互记录。通过使用contentId字段，它可以与shared_articles.csv连接。

eventType 的值是

查看： 用户已阅读文章。
喜欢： 用户喜欢了这篇文章。
用户创建评论： 用户向文章添加了评论。
关注： 当文章中出现新评论时，用户被选中接收电子邮件。
书签： 用户已保存页面，以便日后轻松访问。

dataframe_interactions = pd.read_csv('users_interactions.csv')
dataframe_interactions.head(10)

输出

数据处理

在这里，我们为每种交互分配一个权重或强度，因为有多种类型。例如，我们认为文章中的评论表示用户对该物品的兴趣比点赞或简单查看更重要。

strength_of_event_type = {
   'VIEW': 1.0,
   'LIKE': 2.0,
   'BOOKMARK': 2.5,
   'FOLLOW': 3.0,
   'COMMENT CREATED': 4.0,  
}

dataframe_interactions['eventStrength'] = dataframe_interactions['eventType'].apply(lambda x: strength_of_event_type[x])

注意：用户冷启动是推荐系统的一个问题，它使得难以向消费历史很少或没有消费历史的用户提供个性化推荐，因为没有足够的数据来模拟他们的偏好。

因此，我们只保留数据集中至少有五次交互的用户。

dataframe_user_interaction_count = dataframe_interactions.groupby(['personId', 'contentId']).size().groupby('personId').size()
print(' Total Number of users: %d' % len(dataframe_user_interaction_count))
dataframe_user_with_enough_interaction = dataframe_user_interaction_count[dataframe_user_interaction_count >= 5].reset_index()[['personId']]
print('Total Number of users with minimum 5 interactions: %d' % len(dataframe_user_with_enough_interaction))

输出

print('Total Number of interactions: %d' % len(dataframe_interactions))
dataframe_interaction_from_selected_users = dataframe_interactions.merge(dataframe_user_with_enough_interaction,
               how = 'right',
               left_on = 'personId',
               right_on = 'personId')
print('Total Number of interactions from users with at least 5 interactions: %d' % len(dataframe_interaction_from_selected_users))

输出

Desk drop 允许用户多次浏览文章并以各种方式（例如点赞或评论）与文章互动。因此，我们通过交互类型强度的加权总和来组合用户与某个物品的所有交互，然后应用对数变换来平滑分布，并利用此信息来建模用户对特定文章的兴趣。

def preference_of_smooth_users(x):
    return math.log(1+x, 2)
   
dataframe_interaction_full = dataframe_interaction_from_selected_users \
                    .groupby(['personId', 'contentId'])['eventStrength'].sum() \
                    .apply(preference_of_smooth_users).reset_index()
print('Total Number of unique user/item interactions: %d' % len(dataframe_interaction_full))
dataframe_interaction_full.head(10)

输出

求值

评估对于机器学习项目至关重要，因为它能够客观地比较各种方法和模型超参数选择。

确保训练模型泛化到未使用交叉验证程序训练的数据是评估的关键组成部分。在这里，我们采用一种简单的交叉验证技术，称为留出法，其中随机数据样本（在本例中为20%）在训练过程中被保留，仅用于评估。本文的评估指标都使用测试集计算。

一种更可靠的评估策略涉及根据参考日期划分训练集和测试集，训练集由该日期之前发生的所有交互组成，测试集由该日期之后发生的交互组成。为简单起见，我们决定在此笔记本中使用第一个随机策略，但您可能希望尝试第二种方法，以更准确地模拟rec sys在生产中预测“未来”用户的交互时的行为。

dataframe_interaction_train, dataframe_interaction_text = train_test_split(dataframe_interaction_full,
                                   stratify=dataframe_interaction_full['personId'],
                                   test_size=0.20,
                                   random_state=42)

print('Total Number interactions on Train set: %d' % len(dataframe_interaction_train))
print('Total Number interactions on Test set: %d' % len(dataframe_interaction_text))

输出

推荐系统中经常使用一些评估指标。我们决定采用Top-N准确率指标，它评估向用户提供的顶级推荐与用户实际交互的测试集项目相比的准确性。

根据此评估过程的运作方式

对于每个用户
- 对于用户在测试集中参与的每个项目
  - 用户尚未与100个其他对象交互。因此选择100个。在这里，我们天真地假设用户不关心未交互的对象，但这个假设可能不准确，因为用户可能只是不知道它们。尽管如此，我们还是坚持这个前提。
  - 应将包含一个已交互项目和100个未交互（“不相关！”）项目的集合发送到推荐模型，以生成建议项目的排名列表。
  - 计算此人及其从排名推荐列表中交互的项目的Top-N准确率指标。
全局汇总Top-N准确率指标。

Recall@N 被选为 Top-N 准确度指标，它评估交互项目是否是用户 101 个建议优先列表中的前 N 个项目之一（命中）。

NDCG@N 和 MAP@N 是另外两个广受欢迎的排名指标，它们的得分计算考虑了相关项目在排名列表中的位置（如果相关项目在第一个位置，则为最大值）。

# Indexing by personId to facilitate evaluation search performance
dataframe_interaction_full_indexed = dataframe_interaction_full.set_index('personId')
dataframe_interaction_train_indexed = dataframe_interaction_train.set_index('personId')
dataframe_interaction_text_indexed = dataframe_interaction_text.set_index('personId')

def getting_items_interacted(person_id, interaction_dataframe):
    # Gather user information and include movie details.
    items_interacted = interaction_dataframe.loc[person_id]['contentId']
    return set(items_interacted if type(items_interacted) == pd.Series else [items_interacted])

现在我们将创建一个名为“ModelEvaluator”的类，它将用于我们创建的推荐模型的评估。

#Top-N accuracy metrics consts
EVAL_RANDOM_SAMPLE_NON_INTERACTED_ITEMS = 100

class ModelEvaluator:


    def getting_not_interacted_samples(self, person_id, sample_size, seed=42):
        items_interacted = getting_items_interacted(person_id, dataframe_interaction_full_indexed)
        items_all = set(dataframe_articles['contentId'])
        items_not_interacted = items_all - items_interacted

        random.seed(seed)
        sample_non_interacted_items = random.sample(items_not_interacted, sample_size)
        return set(sample_non_interacted_items)

    def _to_verify_hit_top_n(self, item_id, items_recommended, topn):        
            try:
                index = next(i for i, c in enumerate(items_recommended) if c == item_id)
            except:
                index = -1
            hit = int(index in range(0, topn))
            return hit, index

    def model_evaluation_for_users(self, model, person_id):
        # Adding the test set's items.
        interacted_testset_values = dataframe_interaction_text_indexed.loc[person_id]
        if type(interacted_testset_values['contentId']) == pd.Series:
            person_interacted_testset_items = set(interacted_testset_values['contentId'])
        else:
            person_interacted_testset_items = set([int(interacted_testset_values['contentId'])])  
        interated_testset_items_count = len(person_interacted_testset_items)

        # Obtaining a model's rated suggestion list for a certain user.
        dataframe_person_recs = model.recommending_items(person_id,
                                               items_to_ignore=getting_items_interacted(person_id,
                                                                                    dataframe_interaction_train_indexed
),
                                               topn=10000000000)

        hits_at_5_count = 0
        hits_at_10_count = 0
        # For each item with which the user engaged in the test set
        for item_id in person_interacted_testset_items:
            # Selecting 100 random things with which the user hasn't interacted
            # (to indicate items that are deemed to be no relevant to the user) (to represent items that are assumed to be not relevant to the user)
            sample_non_interacted_items = self.getting_not_interacted_samples(person_id,
                                                                          sample_size=EVAL_RANDOM_SAMPLE_NON_INTERACTED_ITEMS,
                                                                          seed=item_id%(2**32))

            # Combining the 100 random objects with the currently interacted item
            items_to_filter_recs = sample_non_interacted_items.union(set([item_id]))

            # Recommendations are only filtered if they come from the interacted item or a random sample of 100 non-interacted items.
            dataframe_valid_recs = dataframe_person_recs[dataframe_person_recs['contentId'].isin(items_to_filter_recs)]                    
            valid_recs_ = dataframe_valid_recs['contentId'].values
            # Checking whether the currently interacted-with item is one of the Top-N suggested things.
            hit_at_5, index_at_5 = self._to_verify_hit_top_n(item_id, valid_recs_, 5)
            hits_at_5_count += hit_at_5
            hit_at_10, index_at_10 = self._to_verify_hit_top_n(item_id, valid_recs_, 10)
            hits_at_10_count += hit_at_10

        # Recall is the percentage of things that have been engaged with and are included among the Top-N suggested items.
        # when combined with a group of unrelated objects
        recall_at_5 = hits_at_5_count / float(interated_testset_items_count)
        recall_at_10 = hits_at_10_count / float(interated_testset_items_count)

        person_metrics = {'hits@5_count':hits_at_5_count,
                          'hits@10_count':hits_at_10_count,
                          'interacted_count': interated_testset_items_count,
                          'recall@5': recall_at_5,
                          'recall@10': recall_at_10}
        return person_metrics

    def model_evaluation(self, model):
        #print('Running evaluation for users')
        people_metrics = []
        for idx, person_id in enumerate(list(dataframe_interaction_text_indexed.index.unique().values)):
            #if idx % 100 == 0 and idx > 0:
            #    print('%d users processed' % idx)
            person_metrics = self.model_evaluation_for_users(model, person_id)  
            person_metrics['_person_id'] = person_id
            people_metrics.append(person_metrics)
        print('%d users processed' % idx)

        detailed_results_df = pd.DataFrame(people_metrics) \
                            .sort_values('interacted_count', ascending=False)
       
        global_recall_at_5 = detailed_results_df['hits@5_count'].sum() / float(detailed_results_df['interacted_count'].sum())
        global_recall_at_10 = detailed_results_df['hits@10_count'].sum() / float(detailed_results_df['interacted_count'].sum())
       
        global_metrics = {'modelName': model.getting_model_name(),
                          'recall@5': global_recall_at_5,
                          'recall@10': global_recall_at_10}    
        return global_metrics, detailed_results_df
   
model_evaluator = ModelEvaluator()    

流行度模型

流行度模型是一种典型的基线策略，通常很难超越。此策略仅向用户推荐客户尚未消费过的最受欢迎的产品；它不是个性化定制的。由于流行度考虑了“大众智慧”，因此它通常提供对大多数人来说普遍有吸引力的可靠建议。

推荐系统的主要目标远远超出了这种简单方法，即向具有非常特定兴趣的用户应用长尾产品。

# computes the bestselling things
dataframe_item_popularity = dataframe_interaction_full.groupby('contentId')['eventStrength'].sum().sort_values(ascending=False).reset_index()
dataframe_item_popularity.head(10)

输出

class PopularityRecommender:
   
    MODEL_NAME = 'Popularity'
   
    def __init__(self, dataframe_popularity, dataframe_items=None):
        self.dataframe_popularity = dataframe_popularity
        self.dataframe_items = dataframe_items
       
    def getting_model_name(self):
        return self.MODEL_NAME
       
    def recommending_items(self, user_id, items_to_ignore=[], topn=10, verbose=False):
        # Suggest the most well-liked products that the consumer hasn't yet viewed.
        dataframe_recommendation = self.dataframe_popularity[~self.dataframe_popularity['contentId'].isin(items_to_ignore)] \
                               .sort_values('eventStrength', ascending = False) \
                               .head(topn)

        if verbose:
            if self.dataframe_items is None:
                raise Exception('"dataframe_items" is required in verbose mode')

            dataframe_recommendation = dataframe_recommendation.merge(self.dataframe_items, how = 'left',
                                                          left_on = 'contentId',
                                                          right_on = 'contentId')[['eventStrength', 'contentId', 'title', 'url', 'lang']]


        return dataframe_recommendation
   
popularity_model = PopularityRecommender(dataframe_item_popularity, dataframe_articles)

在这里，我们使用上述方法评估流行度模型。

它的 Recall@5 为 0.2417，这表明流行度模型将测试集中大约 24% 的交互项目排在前 5 个项目（来自包含 100 个随机项目的列表）中。此外，正如预期的那样，Recall@10 显著更高（37%）。

您可能会惊讶于流行模型通常表现得如此出色。

print('Evaluating Popularity recommendation model...')
metrics_pop_global, dataframe_pop_detailed_results = model_evaluator.model_evaluation(popularity_model)
print('\nGlobal metrics:\n%s' % metrics_pop_global)
dataframe_pop_detailed_results.head(10)

输出

基于内容的过滤模型

基于内容的过滤技术利用用户交互过的对象的描述或特征来推荐相关项目。该解决方案在防止冷启动问题方面可靠，因为它仅依赖于用户先前的决策。对于书籍、文章和新闻报道等基于文本的对象，使用原始文本很容易创建项目配置文件和用户配置文件。

在这种情况下，我们采用TF-IDF，这是一种广受欢迎的信息检索（搜索引擎）方法。

使用这种方法，非结构化文本被转换为向量结构，其中每个单词由向量中的一个位置表示，值表示一个单词对于一篇文章的重要性。所有项目将使用相同的向量空间模型表示，从而可以比较文章。

# Avoiding stopwords (words without sense) in Portuguese and English (as we have a corpus with mixed languages)
stopwords_list = stopwords.words('english') + stopwords.words('portuguese')

# trains a model with 5000 vectors that is made up of the most common bigrams and unigrams in the corpus, excluding stopwords.
vectorizer = TfidfVectorizer(analyzer='word',
                     ngram_range=(1, 2),
                     min_df=0.003,
                     max_df=0.5,
                     max_features=5000,
                     stop_words=stopwords_list)

item_ids = dataframe_articles['contentId'].tolist()
tfidf_matrix = vectorizer.fit_transform(dataframe_articles['title'] + "" + dataframe_articles['text'])
tfidf_feature_names = vectorizer.get_feature_names()
tfidf_matrix

输出

我们通过平均用户交互过的所有项目配置文件来建模用户配置文件。最终的用户配置文件将更侧重于用户互动最多的文章（例如，喜欢或评论），平均值将根据交互强度进行加权。

def getting_item_profiles(item_id):
    idx = item_ids.index(item_id)
    profile_item = tfidf_matrix[idx:idx+1]
    return profile_item

def getting_item_profiless(ids):
    list_profiles_item = [getting_item_profiles(x) for x in ids]
    profile_items = scipy.sparse.vstack(list_profiles_item)
    return profile_items

def building_user_profiles(person_id, dataframe_interaction_indexed):
    dataframe_interactions_person = dataframe_interaction_indexed.loc[person_id]
    profiles_user_items = getting_item_profiless(dataframe_interactions_person['contentId'])
   
    user_item_strengths = np.array(dataframe_interactions_person['eventStrength']).reshape(-1,1)
    # Weighted average of the item profiles by the intensity of the interactions
    user_item_strengths_weighted_avg = np.sum(profiles_user_items.multiply(user_item_strengths), axis=0) / np.sum(user_item_strengths)
    user_profile_norm = sklearn.preprocessing.normalize(user_item_strengths_weighted_avg)
    return user_profile_norm

def build_users_profiles():
    dataframe_interaction_indexed = dataframe_interaction_train[dataframe_interaction_train['contentId'] \
                                                   .isin(dataframe_articles['contentId'])].set_index('personId')
    profiles_user = {}
    for person_id in dataframe_interaction_indexed.index.unique():
        profiles_user[person_id] = building_user_profiles(person_id, dataframe_interaction_indexed)
    return profiles_user

profiles_users = build_users_profiles()
len(profiles_users)

输出

我们先来看看配置文件。它是一个长度为 5000 的单位向量。每个位置的值表示一个标记（二元组或单元组）对我来说有多重要。

根据对下方个人资料的查看，最相关的令牌确实反映了对机器学习、深度学习、人工智能和谷歌云平台专业领域的兴趣！因此，我们可以期待一些可靠的建议！

my_profile = profiles_users[-1479311724257856983]
print(my_profile.shape)
pd.DataFrame(sorted(zip(tfidf_feature_names,
                        profiles_users[-1479311724257856983].flatten().tolist()), key=lambda x: -x[1])[:20],
             columns=['token', 'relevance'])

输出

class ContentBasedRecommender:
   
    MODEL_NAME = 'Content-Based'
   
    def __init__(self, items_df=None):
        self.item_ids = item_ids
        self.items_df = items_df
       
    def getting_model_name(self):
        return self.MODEL_NAME
       
    def _getting_similar_items_to_the_users(self, person_id, topn=1000):
        # The user profile and all object profiles are compared using the cosine similarity formula.
        cosine_similarities = cosine_similarity(profiles_users[person_id], tfidf_matrix)
        # Gets the most comparable products.
        similar_indices = cosine_similarities.argsort().flatten()[-topn:]
        # Sort comparable objects according to similarity.
        similar_items = sorted([(item_ids[i], cosine_similarities[0,i]) for i in similar_indices], key=lambda x: -x[1])
        return similar_items
       
    def recommending_items(self, user_id, items_to_ignore=[], topn=10, verbose=False):
        similar_items = self._getting_similar_items_to_the_users(user_id)
        # Ignores things with which the user has previously behaved
        similar_items_filtered = list(filter(lambda x: x[0] not in items_to_ignore, similar_items))
       
        dataframe_recommendations = pd.DataFrame(similar_items_filtered, columns=['contentId', 'recStrength']) \
                                    .head(topn)

        if verbose:
            if self.items_df is None:
                raise Exception('"items_df" is required in verbose mode')

            dataframe_recommendations = dataframe_recommendations.merge(self.items_df, how = 'left',
                                                          left_on = 'contentId',
                                                          right_on = 'contentId')[['recStrength', 'contentId', 'title', 'url', 'lang']]


        return dataframe_recommendations
   
content_based_recommender_model = ContentBasedRecommender(dataframe_articles)

使用基于内容的过滤模型的个性化推荐，我们的 Recall@5 为 0.162，这表明该模型将测试集中大约 16% 的交互项目列在前 5 个项目（来自包含 100 个随机项目的列表）中。Recall@10 也为 0.261 (52%)。基于信息的模型表现不如流行度模型的事实表明，消费者可能不像阅读他们已经阅读过的高度相似内容那样致力于阅读内容。

print('Evaluating The Content-Based Filtering model...')
metrics_cb_global, dataframe_cb_result_detailed = model_evaluator.model_evaluation(content_based_recommender_model)
print('\nGlobal metrics:\n%s' % metrics_cb_global)
dataframe_cb_result_detailed.head(10)

输出

协同过滤模型

它有主要的实现方法。

基于内存： 此方法根据用户交互过的项目计算用户相似度（基于用户的方法），或者根据与项目交互过的用户计算项目相似度（基于项目的方法）。

基于用户邻域的协同过滤是这种策略的一个常见示例，其中为用户选择前 N 个具有相似兴趣的用户（通常使用皮尔逊相关性确定），并用于推荐这些具有兴趣的用户喜欢但当前用户尚未交互过的产品。尽管此策略相对容易实现，但它通常无法有效地扩展到大量人员。Crab 提供了此策略的优秀 Python 实现。

基于模型： 在此方法中，通过利用各种机器学习算法创建模型，向客户提供产品推荐。存在许多基于模型的协同过滤技术，包括概率潜在语义分析、神经网络、贝叶斯网络、聚类模型和潜在分量模型，如奇异值分解（SVD）。

矩阵分解

用户-项目矩阵使用潜在分量模型压缩成低维形式。这种方法的优点在于，它在一个低维空间中使用一个非常小的矩阵，而不是一个具有大量缺失值的高维矩阵。

上一节中描述的基于用户和基于项目的邻域算法都可以与简化的表示一起使用。这种范式具有许多优点。与基于内存的算法相比，它更好地处理原始矩阵的稀疏性。此外，在生成的矩阵中比较相似性要容易得多，尤其是在处理大型稀疏数据集时。

在这里，我们采用奇异值分解（SVD），这是一种著名的潜在分量模型。您还可以使用其他更特定于协同过滤的矩阵分解框架，例如 surprise、mrec 或 python-recsys。我们选择 SciPy 实现的 SVD，因为 Kaggle 内核支持它。

在用户-项目矩阵中分解多少个元素的选择至关重要。原始矩阵重构中的分解越精确，因子越多。因此，如果模型被允许保留原始矩阵的太多细节，它可能难以推广到未用于训练的数据。减少组件的数量会增加模型的通用性。

# Make a sparse pivot table with columns for the products and rows for the users
dataframe_users_items_pivot_matrix = dataframe_interaction_train.pivot(index='personId',
                                                          columns='contentId',
                                                          values='eventStrength').fillna(0)

dataframe_users_items_pivot_matrix.head(10)

输出

pivot_matrix_users_items = dataframe_users_items_pivot_matrix.to_numpy()
pivot_matrix_users_items[:10]

输出

users_ids = list(dataframe_users_items_pivot_matrix.index)
users_ids[:10]

输出

pivot_sparse_matrix_users_items = csr_matrix(pivot_matrix_users_items)
pivot_sparse_matrix_users_items

输出

# The number of factors to be applied to the user-item matrix
Number_of_factor = 15
# matrix factorization of the initial user-item matrix is carried out
# U, sigma, Vt = svds(users_items_pivot_matrix, k = Number_of_factor)
U, sigma, Vt = svds(pivot_sparse_matrix_users_items, k = Number_of_factor)

U.shape

输出

sigma = np.diag(sigma)
sigma.shape

输出

我们尝试通过将元素分解后相乘来重建原始矩阵。因此，矩阵不再稀疏。我们将利用对用户尚未交互过的商品的预测来生成推荐。

predicted_ratings_all_users = np.dot(np.dot(U, sigma), Vt)
predicted_ratings_all_users

输出

predicted_ratings_norm_all_users = (predicted_ratings_all_users - predicted_ratings_all_users.min()) / (predicted_ratings_all_users.max() - predicted_ratings_all_users.min())

# the process of returning the rebuilt matrix to a Pandas dataframe.
dataframe_cf_preds = pd.DataFrame(predicted_ratings_norm_all_users, columns = dataframe_users_items_pivot_matrix.columns, index=users_ids).transpose()
dataframe_cf_preds.head(10)

输出

class CFRecommender:
   
    MODEL_NAME = 'Collaborative Filtering'
   
    def __init__(self, dataframe_cf_predictions, items_df=None):
        self.dataframe_cf_predictions = dataframe_cf_predictions
        self.items_df = items_df
       
    def getting_model_name(self):
        return self.MODEL_NAME
       
    def recommending_items(self, user_id, items_to_ignore=[], topn=10, verbose=False):
        # Obtain and arrange user predictions
        predictions_sorted_users = self.dataframe_cf_predictions[user_id].sort_values(ascending=False) \
                                    .reset_index().rename(columns={user_id: 'recStrength'})

        # Send the user the movies with the highest expected rating that they haven't yet viewed.
        dataframe_recommendations = predictions_sorted_users[~predictions_sorted_users['contentId'].isin(items_to_ignore)] \
                               .sort_values('recStrength', ascending = False) \
                               .head(topn)

        if verbose:
            if self.items_df is None:
                raise Exception('"items_df" is required in verbose mode')

            dataframe_recommendations = dataframe_recommendations.merge(self.items_df, how = 'left',
                                                          left_on = 'contentId',
                                                          right_on = 'contentId')[['recStrength', 'contentId', 'title', 'url', 'lang']]


        return dataframe_recommendations
   
cf_recommender_model = CFRecommender(dataframe_cf_preds, dataframe_articles)

在评估协同过滤模型（SVD矩阵分解）时，Recall@5（33%）和Recall@10（46%）的值都远高于流行度模型和基于内容模型。

print('Evaluating Collaborative Filtering (SVD Matrix Factorization) model...')
metrics_cf_global, dataframe_cf_detailed_results = model_evaluator.model_evaluation(cf_recommender_model)
print('\nGlobal metrics:\n%s' % metrics_cf_global)
dataframe_cf_detailed_results.head(10)

输出

混合推荐系统

它是协同过滤和基于内容的过滤方法的组合。实际上，多项研究表明，混合方法优于单一方法，并且学者和从业者都经常采用它们。

让我们创建一个简单的混合技术，该技术根据归一化协同过滤和基于内容分数的加权平均值对项目进行排名。在此示例中，协同过滤和基于内容模型的权重分别为 100.0 和 1.0，因为协同过滤模型比基于内容模型准确得多。

class HybridRecommender:
   
    MODEL_NAME = 'Hybrid'
   
    def __init__(self, model_cb_rec, model_cf_rec, dataframe_items, weight_cb_ensemble=1.0, weight_cf_ensemble=1.0):
        self.model_cb_rec = model_cb_rec
        self.model_cf_rec = model_cf_rec
        self.weight_cb_ensemble = weight_cb_ensemble
        self.weight_cf_ensemble = weight_cf_ensemble
        self.dataframe_items = dataframe_items
       
    def getting_model_name(self):
        return self.MODEL_NAME
       
    def recommending_items(self, user_id, items_to_ignore=[], topn=10, verbose=False):
        # Obtaining the top 1000 suggestions for content-based filtering
        dataframe_cb_recs = self.model_cb_rec.recommending_items(user_id, items_to_ignore=items_to_ignore, verbose=verbose,
                                                           topn=1000).rename(columns={'recStrength': 'recStrengthCB'})
       
        # Obtaining the top 1000 suggestions via collaborative filtering
        dataframe_cf_recs = self.model_cf_rec.recommending_items(user_id, items_to_ignore=items_to_ignore, verbose=verbose,
                                                           topn=1000).rename(columns={'recStrength': 'recStrengthCF'})
       
        # putting the outcomes together by contentId
        dataframe_recs = dataframe_cb_recs.merge(dataframe_cf_recs,
                                   how = 'outer',
                                   left_on = 'contentId',
                                   right_on = 'contentId').fillna(0.0)
       
        # Using the CF and CB scores to create a hybrid recommendation score
        # dataframe_recs['recStrengthHybrid'] = dataframe_recs['recStrengthCB'] * dataframe_recs['recStrengthCF']
        dataframe_recs['recStrengthHybrid'] = (dataframe_recs['recStrengthCB'] * self.weight_cb_ensemble) \
                                     + (dataframe_recs['recStrengthCF'] * self.weight_cf_ensemble)
       
        # Sorting advice based on hybrid score
        recommendations_df = dataframe_recs.sort_values('recStrengthHybrid', ascending=False).head(topn)

        if verbose:
            if self.dataframe_items is None:
                raise Exception('"dataframe_items" is required in verbose mode')

            recommendations_df = recommendations_df.merge(self.dataframe_items, how = 'left',
                                                          left_on = 'contentId',
                                                          right_on = 'contentId')[['recStrengthHybrid', 'contentId', 'title', 'url', 'lang']]


        return recommendations_df
   
hybrid_recommender_model = HybridRecommender(content_based_recommender_model, cf_recommender_model, dataframe_articles,
                                             weight_cb_ensemble=1.0, weight_cf_ensemble=100.0)

print('Evaluating Hybrid model...')
metrics_hybrid_global, dataframe_hybrid_detailed_results = model_evaluator.model_evaluation(hybrid_recommender_model)
print('\nGlobal metrics:\n%s' % metrics_hybrid_global)
dataframe_hybrid_detailed_results.head(10)

输出

方法比较

现在，我们将比较recall@5和recall@10的方法。

dataframe_global_metrics = pd.DataFrame([metrics_cb_global, metrics_pop_global, metrics_cf_global, metrics_hybrid_global]) \
                        .set_index('modelName')
dataframe_global_metrics

输出

新冠军诞生了！

通过结合协同过滤和基于内容的过滤，我们简单的混合技术优于前者。Recall@5 目前为 34.2%，而 Recall@10 为 47.9%。

现在为了更好地理解，我们还可以绘制模型比较图。

%matplotlib inline
ax = dataframe_global_metrics.transpose().plot(kind='bar', figsize=(15,8))
for p in ax.patches:
    ax.annotate("%.3f" % p.get_height(), (p.get_x() + p.get_width() / 2., p.get_height()), ha='center', va='center', xytext=(0, 10), textcoords='offset points')

输出

测试

现在，我们将测试最佳模型，即其他用户的混合模型。

def inspection_interactions(person_id, test_set=True):
    if test_set:
        dataframe_interactions = dataframe_interaction_text_indexed
    else:
        dataframe_interactions = dataframe_interaction_train_indexed
    return dataframe_interactions.loc[person_id].merge(dataframe_articles, how = 'left',
                                                      left_on = 'contentId',
                                                      right_on = 'contentId') \
                          .sort_values('eventStrength', ascending = False)[['eventStrength',
                                                                          'contentId',
                                                                          'title', 'url', 'lang']]

下面显示了一些我在训练集中与 Deskdrop 互动过的文章。很明显，机器学习、深度学习、人工智能和谷歌云平台是主要兴趣领域。

输出

hybrid_recommender_model.recommending_items(-1479311724257856983, topn=20, verbose=True)

输出

当我们比较混合模型的推荐与实际兴趣时，我们发现推荐非常相似。

结论

在本文中，我们研究并比较了 CI&T Deskdrop 数据集上的主要推荐系统方法。结果表明，基于内容的过滤和混合策略在文章推荐方面优于单独的协同过滤。

在这三者中，混合模型在最佳推荐方面具有最高的准确性。

下一个主题Standardscaler-minmaxscaler-and-robustscaler-techniques

推荐系统 - 机器学习

数据集详情

导入库

加载数据集

1. shared_articles.csv

2. users_interactions.csv

数据处理

注意：用户冷启动是推荐系统的一个问题，它使得难以向消费历史很少或没有消费历史的用户提供个性化推荐，因为没有足够的数据来模拟他们的偏好。

求值

流行度模型

基于内容的过滤模型

协同过滤模型

矩阵分解

混合推荐系统

方法比较

测试

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

推荐系统 - 机器学习

数据集详情

导入库

加载数据集

1. shared_articles.csv

2. users_interactions.csv

数据处理

注意：用户冷启动是推荐系统的一个问题，它使得难以向消费历史很少或没有消费历史的用户提供个性化推荐，因为没有足够的数据来模拟他们的偏好。

求值

流行度模型

基于内容的过滤模型

协同过滤模型

矩阵分解

混合推荐系统

方法比较

测试

结论

相关帖子

如何优化机器学习模型

机器学习中的注意力机制

机器学习中的数据泄露

机器人是否是自学的？

序列分类 - 机器学习

机器学习中的概念漂移和模型衰减

精确率-召回率曲线 (PR 曲线) – ML

W-GAN

机器学习中的 t-SNE

联合概率分布

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器