推荐算法--基于用户的协同过滤

本帖最后由喵十八于 2018-9-22 12:15 编辑

问题导读
1. 基于用户的协同过滤算法是什么？
2. 基于用户的协同过滤算法是的步骤是什么？
3. 使用python如何实现基于用户的协同过滤算法？

关注最新经典文章，欢迎关注公众号

综述
在推荐系统众多方法中，基于用户的协同过滤推荐算法是最早诞生的，原理也较为简单。该算法1992年提出并用于邮件过滤系统，两年后1994年被 GroupLens 用于新闻过滤。一直到2000年，该算法都是推荐系统领域最著名的算法。
在一个在线个性化推荐系统中，当一个用户A需要个性化推荐时，可以先找到和他有相似兴趣的其他用户，然后把那些用户喜欢的、而用户A没有听说过的物品推荐给A。
以看电影这个例子来说，如果你喜欢《蝙蝠侠》、《碟中谍》、《星际穿越》、《源代码》等电影，另外有个人也都喜欢这些电影，而且他还喜欢《钢铁侠》，则很有可能你也喜欢《钢铁侠》这部电影。

实现步骤
从上面的描述中可以看到，基于用户的协同过滤算法主要包括两个步骤。
(1) 找到和目标用户兴趣相似的用户集合。
(2) 找到这个集合中的用户喜欢的，且目标用户没有听说过的物品推荐给目标用户。

计算用户兴趣的相似度
这里，协同过滤算法主要利用行为的相似度
计算兴趣的相似度。给定用户u和用户v，令N(u)表示用户u曾经有过正反馈的物品集合，令N(v)
为用户v曾经有过正反馈的物品集合。那么，我们可以通过如下的Jaccard公式简单地计算u和v的
兴趣相似度：

或者通过
余弦相似度计算

相似度计算过程
假设目前共有4个用户： A、B、C、D；共有5个物品：a、b、c、d、e。用户与物品的关系（用户喜欢物品）如下图所示：

如何一下子计算所有用户之间的相似度呢？为计算方便，通常首先需要建立“物品—用户”的倒排表，如下图所示：

然后对于每个物品，喜欢他的用户，两两之间相同物品加1。例如喜欢物品 a 的用户有 A 和 B，那么在矩阵中他们两两加1。如下图所示：

计算用户两两之间的相似度，上面的矩阵仅仅代表的是公式的分子部分。以余弦相似度为例，对上图进行进一步计算：

到此，计算用户相似度就大功告成，可以很直观的找到与目标用户兴趣较相似的用户。

推荐物品
首先需要从矩阵中找出与目标用户 u 最相似的 K 个用户，用集合 S(u, K) 表示，将 S 中用户喜欢的物品全部提取出来，并去除 u 已经喜欢的物品。对于每个候选物品 i ，用户 u 对它感兴趣的程度用如下公式计算：

其中 rvi 表示用户 v 对 i 的喜欢程度，在本例中都是为 1，在一些需要用户给予评分的推荐系统中，则要代入用户评分。

举个例子，假设我们要给 A 推荐物品，选取 K = 3 个相似用户，相似用户则是：B、C、D，那么他们喜欢过并且 A 没有喜欢过的物品有：c、e，那么分别计算 p(A, c) 和 p(A, e)：

python 代码实现
根据《推荐系统实战》中的描述，实现了如下相似度计算
[mw_shl_code=python,true] def calc_user_sim(self):
      ''' calculate user similarity matrix '''
      # build inverse table for item-users
      # key=movieID, value=list of userIDs who have seen this movie
      print ('building movie-users inverse table...', file=sys.stderr)
      movie2users = dict()

      for user, movies in self.trainset.items():
         for movie in movies:
            # inverse table for item-users
            if movie not in movie2users:
                  movie2users[movie] = set()
            movie2users[movie].add(user)
            # count item popularity at the same time
            if movie not in self.movie_popular:
                  self.movie_popular[movie] = 0
            self.movie_popular[movie] += 1
      print ('build movie-users inverse table succ', file=sys.stderr)

      # save the total movie number, which will be used in evaluation
      self.movie_count = len(movie2users)
      print ('total movie number = %d' % self.movie_count, file=sys.stderr)

      # count co-rated items between users
      usersim_mat = self.user_sim_mat
      print ('building user co-rated movies matrix...', file=sys.stderr)

      for movie, users in movie2users.items():
         for u in users:
            for v in users:
                  if u == v:
                     continue
                  usersim_mat.setdefault(u, {})
                  usersim_mat.setdefault(v, 0)
                  usersim_mat[v] += 1
      print ('build user co-rated movies matrix succ', file=sys.stderr)

      # calculate similarity matrix
      print ('calculating user similarity matrix...', file=sys.stderr)
      simfactor_count = 0
      PRINT_STEP = 2000000

      for u, related_users in usersim_mat.items():
         for v, count in related_users.items():
            usersim_mat[v] = count / math.sqrt(
                  len(self.trainset) * len(self.trainset[v]))
            simfactor_count += 1
            if simfactor_count % PRINT_STEP == 0:
                  print ('calculating user similarity factor(%d)' %
                        simfactor_count, file=sys.stderr)

      print ('calculate user similarity matrix(similarity factor) succ',
            file=sys.stderr)
      print ('Total similarity factor number = %d' %
            simfactor_count, file=sys.stderr)[/mw_shl_code]

推荐部分代码如下：
[mw_shl_code=python,true] def recommend(self, user):
      ''' Find K similar users and recommend N movies. '''
      K = self.n_sim_user
      N = self.n_rec_movie
      rank = dict()
      watched_movies = self.trainset[user]

      for similar_user, similarity_factor in sorted(self.user_sim_mat[user].items(),
                                                   key=itemgetter(1), reverse=True)[0:K]:
         for movie in self.trainset[similar_user]:
            if movie in watched_movies:
                  continue
            # predict the user's "interest" for each movie
            rank.setdefault(movie, 0)
            rank[movie] += similarity_factor
      # return the N best movies
      return sorted(rank.items(), key=itemgetter(1), reverse=True)[0:N][/mw_shl_code]

完整版代码请见github

总结
协同过滤的原理，其实可以用一句话总结，物以类聚，人以群分。根据物品的相似性来划分物品，根据人的相似
理论上来说，基于用户的协同过滤能更好地体现用户兴趣，但是在实际生产中，我们发现基于物品的协同过滤，无论是稳定性还是准确率都远远高于基于用户的协同过滤。这可能和数据集的性质有关。
所以各位在实际使用中，需要结合实际数据集的情况，选择算法。

jiangzi · 发表于 2018-9-22 17:41:25

推荐算法--基于用户的协同过滤， godo

图文精华

推荐算法--基于用户的协同过滤

已有(2)人评论

推荐 /2