协同过滤推荐算法测评_Python实现协同过滤推荐算法用的大一些的数据集就报错MemoryError

A. 基于用户的协同过滤推荐算法怎么实现

我手上恰好有这样的一份文档，

B. 协同过滤和基于内容推荐有什么区别

举个简单的小例子，我们已知道
用户u1喜欢的电影是A，B，C
用户u2喜欢的电影是A, C, E, F
用户u3喜欢的电影是B，D
我们需要解决的问题是：决定对u1是不是应该推荐F这部电影
基于内容的做法：要分析F的特征和u1所喜欢的A、B、C的特征，需要知道的信息是A（战争片），B（战争片），C（剧情片），如果F（战争片），那么F很大程度上可以推荐给u1，这是基于内容的做法，你需要对item进行特征建立和建模。
协同过滤的办法：那么你完全可以忽略item的建模，因为这种办法的决策是依赖user和item之间的关系，也就是这里的用户和电影之间的关系。我们不再需要知道ABCF哪些是战争片，哪些是剧情片，我们只需要知道用户u1和u2按照item向量表示，他们的相似度比较高，那么我们可以把u2所喜欢的F这部影片推荐给u1。
根据数据源的不同推荐引擎可以分为三类
1、基于人口的统计学推荐(Demographic-based Recommendation)
2、基于内容的推荐(Content-based Recommendation)
3、基于协同过滤的推荐(Collaborative Filtering-based Recommendation)
基于内容的推荐：
根据物品或内容的元数据，发现物品或内容的相关性，然后基于用户以前的喜好记录推荐给用户相似的物品
基于内容推荐的一个典型的例子，电影推荐系统，首先我们需要对电影的元数据有一个建模，这里只简单的描述了一下电影的类型；然后通过电影的元数据发现电影间的相似度，因为类型都是“爱情，浪漫”电影 A 和 C 被认为是相似的电影（当然，只根据类型是不够的，要得到更好的推荐，我们还可以考虑电影的导演，演员等等）；最后实现推荐，对于用户 A，他喜欢看电影 A，那么系统就可以给他推荐类似的电影 C。

C. 协同过滤推荐算法产生推荐结果要多久

这种抄形式一般可以按袭推荐引擎的算法分，主要有基于协同过滤、基于内容推荐等算法。 “买过此商品的人，百分之多少还买过其他啥啥商品”：协同过滤item-based filtering “和你兴趣相似的人，还买过其他啥啥商品”：协同过滤 user-based filtering “相关商品推荐”：基于内容推荐content-based “猜你喜欢” 一般混合使用推荐算法。

D. 请问下：谁有“基于用户的协同过滤推荐算法”的论文样板呢

为您而做来。的

E. 个性化推荐算法——协同过滤

有三种：协同过滤
用户历史行为
物品相似矩阵

F. 推荐算法的基于协同过滤的推荐

基于协同过滤的推荐算法理论上可以推荐世界上的任何一种东西。图片、音乐、样样可以。协同过滤算法主要是通过对未评分项进行评分预测来实现的。不同的协同过滤之间也有很大的不同。
基于用户的协同过滤算法: 基于一个这样的假设“跟你喜好相似的人喜欢的东西你也很有可能喜欢。”所以基于用户的协同过滤主要的任务就是找出用户的最近邻居，从而根据最近邻居的喜好做出未知项的评分预测。这种算法主要分为3个步骤：
一，用户评分。可以分为显性评分和隐形评分两种。显性评分就是直接给项目评分（例如给网络里的用户评分），隐形评分就是通过评价或是购买的行为给项目评分（例如在有啊购买了什么东西）。
二，寻找最近邻居。这一步就是寻找与你距离最近的用户，测算距离一般采用以下三种算法：1.皮尔森相关系数。2.余弦相似性。3调整余弦相似性。调整余弦相似性似乎效果会好一些。
三，推荐。产生了最近邻居集合后，就根据这个集合对未知项进行评分预测。把评分最高的N个项推荐给用户。这种算法存在性能上的瓶颈，当用户数越来越多的时候，寻找最近邻居的复杂度也会大幅度的增长。
因而这种算法无法满足及时推荐的要求。基于项的协同过滤解决了这个问题。基于项的协同过滤算法根基于用户的算法相似，只不过第二步改为计算项之间的相似度。由于项之间的相似度比较稳定可以在线下进行，所以解决了基于用户的协同过滤算法存在的性能瓶颈。

G. 查找利用协同过滤算法为用户推荐商品的方法有哪些

协同过滤主要是以属性或兴趣相近的用户经验与建议作为提供个性化推荐的基础。回透过协同过滤，有答助于搜集具有类似偏好或属性的用户，并将其意见提供给同一集群中的用户作为参考，以满足人们通常在决策之前参考他人意见的心态。

H. Python实现协同过滤推荐算法，用的大一些的数据集就报错MemoryError

python虽然易用，但是内存占用比较多；所以如果你有C/C++/Java基础，考虑用这些语专言来实现；
CF算法属需要计算大量的相似度，如果能把中间结果存起来，或者简化计算过程（如，你可能会重复计算一个item的均值）可以省下不少内存；（个人试过计算1w个用户Pearson是没问题的）
如果内存实在不够用，那就用时间换空间，把中间计算结果分成小文件存到磁盘上，用的时候再读取。
供参考。

I. 推荐算法如何提前划分制造同类目日志

做推荐算法的质量工作将近一年，这一年尝试了很多东西，踩了不少坑，也对推荐的评测工作稍微有了些自己的心得，现在分享出来，希望能和做这块工作的同学一起交流、探讨，也欢迎多拍砖，多提意见。

推荐系统

目前推荐技术的应用已经非常较普及了，新闻、商品、问答、音乐，几乎都会用到推荐算法来为你呈现内容。下面是淘宝、知乎、微博三个app的推荐模型，可以看到推荐都在非常重要的位置。

在介绍推荐算法评测之前，我先简单说下推荐系统，这里我以商品为例，简单描述下推流程，让大家更明白一些，一般推荐主要包含以下步骤：
召回->打分排序->透出

召回

召回阶段通常的手段是协同过滤比较场景的i2i,u2i等这种x2x（有兴趣可以看下我写的基于itembase的推荐），也有使用embedding的方式通过向量之间的距离进行召回。以i2i为例，假如现在要针对我推荐一个商品，那么首先要找到我感兴趣的物品，这些数据是通过我的历史行为来进行获取，比如拿到我最近一段时间内的点击、加购、收藏、购买的物品，将这些商品做为trigger进行召回，协同算法的具体就不再这里叙述了，有兴趣可以看下链接，最终我们按照协同过滤算法算出商品之间的相似分值，然后按照一定数量进行截断，因为这里截断也是依靠分数来进行的，所以一般这一步也称粗排。这样召回截断就完成了。

打分

召回完商品后，我们需要对这些商品进行再一次的精排，这里需要用模型来预估ctr，一般情况下LR、GBDT、FM用的比较多，这里深度网络相对用的少，主要为了考虑到性能，尤其是rt，因为绝大部分的精排都是需要实时预测的，所有对耗时有一定的要求。继续说下模型预测的步骤，首先针对召回的商品进行特征的补充，例如该商品的一级类目、叶子类目（一级类目代表比较，叶子类目代表最细分的类目）、被多少用户购买等，然后再加入人的特征，例如性别、年龄、收入、对类目的偏好等，然后将这些信息做为feature，用模型进行预测，然后根据模型预测的结果进行排序，输出。

模型

打分过程中的模型是需要提前训练和部署，训练集的来源就是用户的实时行为加上用户和商品的特征。feature的构成是用户的特征和商品的特征，label则是用户是否点击了该商品。

质量方案

接下来说下如何保证这块的质量。由于推荐系统最终对用户需要提供实时的服务化，因此免不了有工程端的技术需要一起配合。因此我这块主要分为两个维度来开展，一方面是工程端的质量保证，一方面是算法侧的质量保证。

工程端质量

这一块可以将算法当成一个黑盒子，只把他当成一个有结果返回的接口。针对这方面前人已经有了丰富的经验，我们可以做接口的单元测试和冒烟测试，另外就是压测，在预估的qps下看rt是否满足业务方的要求，load是否过大，超时和错误的比例是否符合一定的预期。这里就不细说了，重点说说第二部分。

算法端质量

这里我再进行细分一下，分为三部分介绍：算法数据、算法模型、算法效果；

算法数据：

大家都知道算法在做训练前数据的处理部分非常的重要，有兴趣可以看下特征工程相关的内容，数据的来源，特征的构造，数据抽取、加工整个的过程都有可能会出现错误，而且数据一般都是存储在分布式系统数据库里，因此需要借助类似hive这样的工具将sql转换成MapRece的任务去进行离线的计算，离线任务的产出通常会耗费不少的时间，而对于一些日更新的模型通过对数据对产出时间有一定的要求。因此数据这块最主要的保证点为：数据本身的质量，和数据的产出时间。数据本身的质量一般可以通过数据大小的整体抖动，以及关键字段是否为空，主键是否重复，做法比较简单可以通过简单sql或者udf来完成，然后借助工程能力做到预警、检查、出报表等。

算法模型：

模型的本身在迭代过程中也是需要关注的，不过通常算法同学的训练优化也是参考这些指标，所以我们也可以把这几个指标做为模型本身好坏的评估。具体为：准确率、召回率、AUC。

算法效果：

那么这个算法推荐出的效果究竟好不好呢，这个是一个非常主观的事情，每个人的感受也不是一样的，但是我们仍然要衡量它的好坏，这里我参考业内学者的推荐书籍以及自己的一些摸索，总结出下面一些方法，供大家参考。

人工评测：

顾名思义，邀请一帮人来对你的推荐系统的结果进行评测。这里想法来自于我在做翻译评测时期的经验，首先这个成本比较高，另外就是参杂了人的主观性非常的高，翻译的好坏我们可以通过制定一些细致的规则来进行约束，但是推荐的好坏我们却不好制定详细的规则，另外就是推荐之前的用户行为如何模拟，如何让评测者进行感知，这些都是比较难的，并且和基准的对比也不是很好做，所以这里不是很推荐用这个方法，但是还是要提一下。

指标评估：

指标化推荐结果，也就是将推荐的结果用不同的指标来进行说明，通过这些指标，你可以更加的了解你的推荐系统，部分指标不一定越高越好，但是你需要让它保持在一定的范围内。说到具体的例子的时候，我会提一下。下面我们看下这些指标。

覆盖率

定义：
推荐系统能够推荐出来的“商品/类目”占“总商品/类目”集合的比例。假设系统的用户集合为U，推荐系统给每个用户推荐一个长度为N的物品列表R(u) ，总物品为N。那么：
覆盖率 = ΣR(u)N
Σ
R
(
u
)
N

意义：
描述推荐结系统对物品长尾发掘能力；
举个例子，淘宝上商品千千万万，推荐系统能否保证让新的一些商品有足够的机会曝光出去呢？还是有些商品永远都无法得到推荐曝光的机会。这个指标反应的就是这个情况，显然物品的覆盖率是达不到100%的，但是我们可以看类目的覆盖率来进行衡量，假设全网所有的一级大类目一共2千个（和全网上亿的物品相比非常的少），那么推荐系统一天之内推荐出去的商品对应的一级类目，这个就是我们要衡量的标准。如果覆盖率

J. 求高手提供matlab基于用户的协同过滤推荐算法的源代码，将不胜感激!!!

自己写吧，我毕论也是做推荐算法的。现在正在写基于用户的协同过滤。已基本完工。
是否可以解决您的问题？

导航:首页 > 净水问答 > 协同过滤推荐算法测评

协同过滤推荐算法测评

与协同过滤推荐算法测评相关的资料