als协同过滤冷启动_冷启动的意思

Ⅰ 推荐系统中——矩阵分解

在推荐系统中，我们经常会拿到一种数据是user—item的表格，然后对应的是每位user对每个item的评分，如下图：

对于这个问题我们通常会选择矩阵分解的方法来解决。

我们常见的推荐系统矩阵分解有BPR、SVD（funkSVD）、ALS、NMF、WRMF。

接下来就来看看推荐系统中常用的几种矩阵分解的区别，主要通过公式、特点和适合哪种数据这几个方面来讲。

对于矩阵进行SVD分解，把矩阵分解为：

其中是矩阵中较大的部分奇异值的个数，一般会远远的小于用户数和物品数。如果我们要预测第个用户对第个物品的评分 ,则只需要计算即可。通过这种方法，我们可以将评分表里面所有没有评分的位置得到一个预测评分。通过找到最高的若干个评分对应的物品推荐给用户。

可以看出这种方法简单直接。但是有一个很大的问题我们忽略了，就是SVD分解要求矩阵是稠密的，也就是说矩阵的所有位置不能有空白。所以传统的SVD实际上在推荐系统中还是比较难用的。

前面说到，传统的SVD要求的矩阵是稠密的。那么我们现在要解决的问题就是避开矩阵稀疏的问题。

FunkSVD是将矩阵分解为两个矩阵，这里采用了线性回归的思想。我们的目标是让用户的评分和用矩阵乘积得到的评分残差尽可能的小，也就是说，可以用均方差作为损失函数，来寻找最终的。

对于某一个用户评分，用FunkSVD分解，则对应的表示为，采用均方差做为损失函数，则我们期望均方差尽可能小：

在实际应用中，我们为了防止过拟合，会加入一个L2的正则化项，因此正式的FunkSVD的优化目标函数：

其中为正则化稀疏，需要调参。对于这个优化问题，我们一般通过梯度下降法来进行优化得到结果。

将上式分别对求导，然后利用梯度下降法迭代，的迭代公式如下：

还有许多基于FunkSVD的方法进行改进的，例如BiasSVD、SVD++等，这里就不细说了。

在很多推荐场景中，我们都是基于现有的用户和商品之间的一些数据，得到用户对所有商品的评分，选择高分的商品推荐给用户，funkSVD算法的做法最基本的做法，使用起来十分有效，而且模型的可扩展性也非常优秀，其基本思想也能广泛运用于各种场景中。并且对于相似度计算方法的选择，有多种相似度计算方法，每种都有对应优缺点，可针对不同场景使用最适合的相似度计算方法。由于funkSVD时间复杂度高，训练速度较慢，可以使用梯度下降等机器学习相关方法来进行近似计算，以减少时间消耗。

参考： https://www.cnblogs.com/pinard/p/6351319.html

https://zhuanlan.hu.com/p/34497989

https://blog.csdn.net/syani/article/details/52297093

在有些推荐场景中，我们是为了在千万级别的商品中推荐个位数的商品给用户，此时，我们更关心的是用户来说，哪些极少数商品在用户心中有更高的优先级，也就是排序更靠前。也就是说，我们需要一个排序算法，这个算法可以把每个用户对应的所有商品按喜好排序。BPR就是这样的一个我们需要的排序算法。

在BPR算法中，我们将任意用户对应的物品进行标记，如果用户在同时有物品和的时候点击了，那么我们就得到了一个三元组，它表示对用户来说，的排序要比靠前

BPR是基于矩阵分解的一种排序算法，但是和funkSVD之类的算法比，它不是做全局的评分优化，而是针对每一个用户自己的商品喜好分贝做排序优化。因此在迭代优化的思路上完全不同。同时对于训练集的要求也是不一样的， funkSVD只需要用户物品对应评分数据二元组做训练集，而BPR则需要用户对商品的喜好排序三元组做训练集。

参考： https://www.cnblogs.com/pinard/p/9128682.html

ALS是交替最小二乘的简称。在机器学习中，ALS特指使用交替最小二乘求解的一个协同推荐算法。如：将用户（user）对商品（item）的评分矩阵分解成2个矩阵：user对item 潜在因素的偏好矩阵(latent factor vector)，item潜在因素的偏好矩阵。

假设有m个user和n个item，所以评分矩阵为R。ALS(alternating least squares)希望找到2个比较低纬度的矩阵（X和Y）来逼近这个评分矩阵R。

ALS的核心就是这样一个假设：打分矩阵是近似低秩的。换句话说，就是一个的打分矩阵可以由分解的两个小矩阵和的乘积来近似。这就是ALS的矩阵分解方法。

为了让X和Y相乘能逼近R，因此我们需要最小化损失函数(loss function)，因此需要最小化损失函数，在此定义为平方误差和(Mean square error, MSE)。

一般损失函数都会需要加入正则化项(Regularization item)来避免过拟合的问题，通常是用L2，所以目标函数会被修改为：

上面介绍了“最小二乘（最小平方误差）”，但是还没有讲清楚“交替”是怎么回事。因为X和Y都是未知的参数矩阵，因此我们需要用“交替固定参数”来对另一个参数求解。

先固定Y, 将loss function对X求偏导，使其导数等于0：

再固定X, 将loss function对Y求偏导，使其导数等于0：

然后进行迭代。

在实际应用中，由于待分解的矩阵常常是非常稀疏的，与SVD相比， ALS能有效的解决过拟合问题。基于ALS的矩阵分解的协同过滤算法的可扩展性也优于SVD。与随机梯度下降的求解方式相比，一般情况下随机梯度下降比ALS速度快；但有两种情况ALS更优于随机梯度下降：（1）当系统能够并行化时，ALS的扩展性优于随机梯度下降法。（2）ALS-WR能够有效的处理用户对商品的隐式反馈的数据。

但是ALS算法是无法准确评估新加入的用户或商品。这个问题也被称为冷启动问题。

参考： https://flashgene.com/archives/46364.html

https://flashgene.com/archives/52522.html

https://lumingdong.cn/recommendation-algorithm-based-on-matrix-decomposition.html#ALS

非负矩阵分解(Non-negative Matrix Factorization，NMF)算法，即NMF是在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法。NMF中要求原始的矩阵V的所有元素的均是非负的，并且矩阵V可以分解出的两个小矩阵也是非负的，

给定一个打分矩阵R，NMF的目标是求解两个非负秩矩阵最小化目标函数如下：

计算的梯度如下：

其中：

采用梯度下降的参数优化方式, 可得W以及H的更新迭代方式见下式：

在矩阵分解基础上，加入了隐向量的非负限制。然后使用非负矩阵分解的优化算法求解。

要用NMF做矩阵分解有一个很大的前提—— 用户item之间的评分矩阵要求是非负并且分解出的小矩阵也要满足非负约束。NMF分解是对原矩阵的近似还原分解，其存在的问题和ALS相像，对于未知的评分预测相当不准确。

参考： https://flashgene.com/archives/52522.html

http://tripleday.cn/2017/01/12/sparse-nmf/

在有些场景下，虽然没有得到用户具体的评分，但是能够得到一些类似于“置信度”的信息（也称为隐式反馈信息），例如用户的游戏时长、观看时长等数据。虽然时长信息不能直接体现用户的喜好，但是能够说明用户喜欢的概率更大。在此场景下，用户-物品记录可以表示为一个置信度和一个0-1指示量（用户-物品是否有交互），如果用户-物品没有交互，那么置信度就为0。

“带权”就是根据置信度计算每条记录对应损失的权重，优化的目标函数如下：

权重通过置信度计算得到，可以使用。由于未发生的交互也存在于损失函数中，因此惯用的随机梯度下降存在性能问题，为此采用ALS来优化模型，因此训练过程如下：

（1）更新每个用户的向量：

（2）更新每个物品的向量：

前面除了BPR以外，我们讲的算法都是针对显式反馈的评分矩阵的，因此当数据集只有隐式反馈时，应用上述矩阵分解直接建模会存在问题。而WRMF就可以解决隐式反馈的问题。

参考： https://sine-x.com/gorse-2/

https://flashgene.com/archives/52522.html

基于现有的用户和商品之间的一些数据，得到用户对所有商品的评分，选择高分的商品推荐给用户，可以根据以往的评分矩阵做全局的评分优化。有多种从SVD的改进算法可选择，如：表示biasSVD、SVD++、TimesSVD等

funkSVD可以解决矩阵稀疏的问题，但是其时间复杂度高，训练速度较慢，可以使用梯度下降等机器学习相关方法来进行近似计算，以减少时间消耗。

ALS算法和SVD的使用场景相似，也是基于用户——商品评分数据得到全局用户对商品的评分。

ALS能有效的解决过拟合问题，但是ALS算法是无法准确评估新加入的用户或商品。这个问题也被称为冷启动问题。

要用NMF做矩阵分解有一个很大的前提—— 用户item之间的评分矩阵要求是非负并且分解出的小矩阵也要满足非负约束。NMF分解是对原矩阵的近似还原分解，NMF用法和SVD、ALS相似。

NMF存在的问题和ALS相像，对于未知的评分预测相当不准确。

BPR是基于矩阵分解的一种排序算法，但是，它不是做全局的评分优化，而是针对每一个用户自己的商品喜好分贝做排序优化。因此在迭代优化的思路上完全不同。 BPR需要用户对商品的喜好排序三元组做训练集。

当没有得到用户具体的评分，但是能够得到一些类似于隐式反馈信息时，就可使用WRMF进行矩阵分解。

Ⅱ 个性化推荐是怎么做的

各种推荐算法不能仅仅是研发涉猎领域，作为PM，也要深入到算法内部，了解算法的设计，以及结合内容对算法不断“调教”，才能让产品的推荐算法不断完善，才能符合用户的口味。

目前比较流行的个性化推荐算法有以下几种：

基于内容的推荐：根据内容本身的属性(特征向量)所作的推荐。

基于关联规则的推荐：“啤酒与尿布”的方式，是一种动态的推荐，能够实时对用户的行为作出推荐。是基于物品之间的特征关联性所做的推荐，在某种情况下会退化为物品协同过滤推荐。

协同过滤推荐：与基于关联规则的推荐相比是一种静态方式的推荐，是根据用户已有的历史行为作分析的基础上做的推荐。可分为物品协同过滤、用户协同过滤、基于模型的协同过滤。其中，基于模型的协同又可以分为以下几种类型：基于距离的协同过滤;基于矩阵分解的协同过滤，即Latent

Factor Model(SVD)或者ALS;基于图模型协同，即Graph，也叫社会网络图模型。

1、产品冷启动通过热度算法进行内容推荐

产品发展初期，由于一方面没有用户行为、用户喜好、用户画像，另外也没有大量的内容样本基础，是很难开展个性化推荐的。所以在产品初期，一般采取“热度算法”，顾名思义就是把热点的内容优先推荐给用户。虽然无法做到基于兴趣和习惯为每一个用户做到精准化的推荐，但能覆盖到大部分的内容需求，而且启动成本比个性化推荐算法低太多。

热度算法基本原理：

新闻热度分 = 初始热度分 + 用户交互产生的热度分 – 随时间衰减的热度分

Score = S0 + S(Users) – S(Time)

1)以新闻或视频较有时效性的内容举例，热度随内容陈旧而分值衰减。

2)初始热度分不要一视同仁。

按照新闻类别给予新闻不同的初始热度，让用户关注度高的类别获得更高的初始热度分，从而获得更多的曝光。军事>娱乐>体育>财经....

对于重大事件的报道，如何让它入库时就有更高的热度，我们采用的是热词匹配的方式。

即对大型新闻站点的头条，Twitter热点，竞品的头条做监控和扒取，并将这批新闻的关键词维护到热词库并保持更新;每条新闻入库的时候，让新闻的关键词去匹配热词库，匹配度越高，就有越高的初始热度分。这样处理后，重大事件发生时，Twitter和门户网站的争相报道会导致热词集中化，所有匹配到这些热词的新闻，即报道同样事件的新闻，会获得很高的初始热度分。

3)用户交互的热度分值比重不一。首先明确用户的的哪些行为会提高新闻的热度值，然后对这些行为赋予一定的得分规则。

例如对于单条新闻，用户可以点击阅读(click)，收藏(favor)，分享(share)，评论(comment)这四种行为，我们为不同的行为赋予分数，就能得到新闻的实时用户行为分为：

S(Users) = 1*click + 5*favor + 10*comment + 20*share

这里对不同行为赋予的分数为1,5,10,20，但这个值不能是一成不变的;当用户规模小的时候，各项事件都小，此时需要提高每个事件的行为分来提升用户行为的影响力;当用户规模变大时，行为分也应该慢慢降低，因此做内容运营时，应该对行为分不断调整。

当然也有偷懒的办法，那就是把用户规模考虑进去，算固定用户数的行为分，即：

S(Users) = (1*click + 5*favor + 10*comment + 20*share)/ DAU * N(固定数)

这样就保证了在不同用户规模下，用户行为产生的行为分基本稳定。

2、基于内容特征与用户特征进行个性化推荐

对于此种推荐，有两个实体：内容和用户，因此需要有一个联系这两者的东西，即为标签。内容转换为标签即为内容特征化，用户则称为用户特征化。对于此种推荐，主要分为以下几个关键部分：

标签库

内容特征化

用户特征化

隐语义推荐

综合上面讲述的各个部分即可实现一个基于内容和用户画像的个性化推荐系统。

标签库

标签是联系用户与物品、内容以及物品、内容之间的纽带，也是反应用户兴趣的重要数据源。标签库的最终用途在于对用户进行行为、属性标记。是将其他实体转换为计算机可以理解的语言关键的一步。

标签库则是对标签进行聚合的系统，包括对标签的管理、更新等。

一般来说，标签是以层级的形式组织的。可以有一级维度、二级维度等。

标签的来源主要有：

已有内容的标签

网络抓取流行标签

对运营的内容进行关键词提取

对于内容的关键词提取，使用结巴分词+TFIDF即可。此外，也可以使用TextRank来提取内容关键词。

这里需要注意的一点是对于关联标签的处理，比如用户的标签是足球，而内容的标签是德甲、英超，那么用户和内容是无法联系在一起的。最简单的方式是人工设置关联标签，此外也可以使用word2vec一类工具对标签做聚类处理，构建主题模型，将德甲、英超聚类到足球下面。

内容特征化

内容特征化即给内容打标签。目前有两种方式：

人工打标签

机器自动打标签

针对机器自动打标签，需要采取机器学习的相关算法来实现，即针对一系列给定的标签，给内容选取其中匹配度最高的几个标签。这不同于通常的分类和聚类算法。可以采取使用分词 +Word2Vec来实现，过程如下：

将文本语料进行分词，以空格,tab隔开都可以，使用结巴分词。

使用word2vec训练词的相似度模型。

使用tfidf提取内容的关键词A,B,C。

遍历每一个标签，计算关键词与此标签的相似度之和。

取出TopN相似度最高的标签即为此内容的标签。

此外，可以使用文本主题挖掘相关技术，对内容进行特征化。这也分为两种情况:

通用情况下，只是为了效果优化的特征提取，那么可以使用非监督学习的主题模型算法。如LSA、PLSI和GaP模型或者LDA模型。

在和业务强相关时，需要在业务特定的标签体系下给内容打上适合的标签。这时候需要使用的是监督学习的主题模型。如sLDA、HSLDA等。

用户特征化

用户特征化即为用户打标签。通过用户的行为日志和一定的模型算法得到用户的每个标签的权重。

用户对内容的行为：点赞、不感兴趣、点击、浏览。对用户的反馈行为如点赞赋予权值1，不感兴趣赋予-1;对于用户的浏览行为，则可使用点击/浏览作为权值。

对内容发生的行为可以认为对此内容所带的标签的行为。

用户的兴趣是时间衰减的，即离当前时间越远的兴趣比重越低。时间衰减函数使用1/[log(t)+1], t为事件发生的时间距离当前时间的大小。

要考虑到热门内容会干预用户的标签，需要对热门内容进行降权。使用click/pv作为用户浏览行为权值即可达到此目的。

此外，还需要考虑噪声的干扰，如标题党等。

另，在非业务强相关的情况下，还可以考虑使用LSA主题模型等矩阵分解的方式对用户进行标签化。

隐语义推荐

有了内容特征和用户特征，可以使用隐语义模型进行推荐。这里可以使用其简化形式，以达到实时计算的目的。

用户对于某一个内容的兴趣度(可以认为是CTR)：

其中i=1…N是内容c具有的标签，m(ci)指的内容c和标签i的关联度(可以简单认为是1),n(ui)指的是用户u的标签i的权重值,当用户不具有此标签时n(ui)=0，q©指的是内容c的质量，可以使用点击率(click/pv)表示。

3、其他运用

除了个性化推荐，基于内容的相关性算法能精准地给出一篇新闻的相关推荐列表，对相关阅读的实现非常有意义。此外，标签系统对新闻分类的实现和提升准确性，也有重要的意义。

4、优缺点

基于内容的推荐算法有几个明显优点：

对用户数量没有要求，无论日活几千或是几百万，均可以采用;因此个性化推荐早期一般采用这种方式。

每个用户的特征都是由自己的行为来决定的，是独立存在的，不会有互相干扰，因此恶意刷阅读等新闻不会影响到推荐算法。

而最主要的缺点就是确定性太强了，所有推荐的内容都是由用户的阅读历史决定，所以没办法挖掘用户的潜在兴趣;也就是由于这一点，基于内容的推荐一般与其他推荐算法同时存在。

基于用户的协同推荐

终于，经过团队的努力，你的产品已经有了大量活跃用户了，这时候你开始不满足于现有的算法。虽然基于内容的推荐已经很精准了，但总是少了那么一点性感。因为你所有给用户的内容都是基于他们的阅读习惯推荐的，没能给用户“不期而遇”的感觉。

于是，你就开始做基于用户的协同过滤了。

基于用户的协同过滤推荐算法，简单来讲就是依据用户A的阅读喜好，为A找到与他兴趣最接近的群体，所谓“人以群分”，然后把这个群体里其他人喜欢的，但是A没有阅读过的内容推荐给A。

举例我是一个足球迷，系统找到与我类似的用户都是足球的重度阅读者，但与此同时，这些“足球群体”中有一部分人有看NBA新闻的习惯，系统就可能会给我推荐NBA内容，很可能我也对NBA也感兴趣，这样我在后台的兴趣图谱就更完善了。

1、用户群体划分

做基于用户的协同过滤，首先就要做用户的划分，可以从三方面着手：

(1)外部数据的借用

这里使用社交平台数据的居多，现在产品的登录体系一般都借用第三方社媒的登录体系，如国外的Facebook、Twitter，国内的微信、微博，借用第三方账户的好处多多，例如降低门槛，方便传播等，还能对个性化推荐起到重要作用。

因为第三方账户都是授权获取部分用户信息的，往往包括性别，年龄，工作甚至社交关系等，这些信息对用户群划分很有意义。

此外还有其他的一些数据也能借用，例如IP地址，手机语种等。

使用这些数据，你很容易就能得到一个用户是北京的还是上海的，是大学生还是创业者，并依据这些属性做准确的大类划分。

比如一篇行业投资分析出来后，“上海创业圈”这个群体80%的用户都看过，那就可以推荐给剩下的20%。

(2)产品内主动询问

常见在产品首次启动的时候，弹框询问用户是男是女，职业等，这样能对内容推荐的冷启动提供一些帮助。但总体来说，性价比偏低，只能询问两三个问题并对用户的推荐内容做非常粗略的划分，同时要避免打扰到用户;这种做法算是基于用户个性化的雏形。

(3)对比用户特征

新闻的特征加用户的阅读数据能得到用户的特征，那就可以通过用户特征的相似性来划分群体。

最后总结，没有一款完美的个性化推荐算法，毕竟用户的心里你别猜别猜别猜，但是产品经理还是要结合自身产品不断打磨算法。

Ⅲ 冷启动什么意思冷启动的意思是什么

1、冷启动，电脑的一种启动方式。就是切断电脑的电源，重新启动，一旦冷启动，内存的东西全部丢失，重新检测硬件，进入CMOS，再依启动操作系统。一般按机箱上POWER按钮启动。

2、另一种也指冷启动问题是协同过滤推荐算法中被广泛关注的一个经典问题。

3、也指一种作战方式。

Ⅳ 07_推荐系统算法详解

基于人口统计学的推荐与用户画像、基于内容的推荐、基于协同过滤的推荐。

1、基于人口统计学的推荐机制( Demographic-based Recommendation)是一种最易于实现的推荐方法，它只是简单的根据系统用户的基本信息发现用户的相关程度，然后将相似用户喜爱的其他物品推荐给当前用户。

2、对于没有明确含义的用户信息(比如登录时间、地域等上下文信息)，可以通过聚类等手段，给用户打上分类标签。

3、对于特定标签的用户，又可以根据预设的规则(知识)或者模型，推荐出对应的物品。

4、用户信息标签化的过程一般又称为用户画像 ( User Profiling）。

（1）用户画像( User Profile)就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后，完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式。

（2）用户画像为企业提供了足够的信息基础，能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。

（3）作为大数据的根基，它完美地抽象出一个用户的信息全貌，为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息，提供了足够的数据基础。

1、 Content- based Recommendations(CB)根据推荐物品或内容的元数据，发现物品的相关性，再基于用户过去的喜好记录，为用户推荐相似的物品。

2、通过抽取物品内在或者外在的特征值,实现相似度计算。比如一个电影,有导演、演员、用户标签UGC、用户评论、时长、风格等等，都可以算是特征。

3、将用户(user)个人信息的特征(基于喜好记录或是预设兴趣标签)，和物品(item)的特征相匹配，就能得到用户对物品感兴趣的程度。在一些电影、音乐、图书的社交网站有很成功的应用,有些网站还请专业的人员对物品进行基因编码/打标签(PGC）。

4、相似度计算：

5、对于物品的特征提取——打标签(tag)

- 专家标签(PGC）

- 用户自定义标签(UGC)

- 降维分析数据,提取隐语义标签(LFM)

对于文本信息的特征提取——关键词

- 分词、语义处理和情感分析(NLP)

- 潜在语义分析(LSA）

6、基于内容推荐系统的高层次结构

7、特征工程

（1）特征( feature)：数据中抽取出来的对结果预测有用的信息。

特征的个数就是数据的观测维度。

特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程。

特征工程一般包括特征清洗(采样、清洗异常样本)，特征处理和特征选择。

特征按照不同的数据类型分类，有不同的特征处理方法：数值型、类别型、时间型、统计型。

（2）数值型特征处理

      用连续数值表示当前维度特征，通常会对数值型特征进行数学上的处理，主要的做法是归一化和离散化。

        * 幅度调整归一化：

        特征与特征之间应该是平等的，区别应该体现在特征内部。

        例如房屋价格和住房面积的幅度是不同的，房屋价格可能在3000000~15000000(万)之间,而住房面积在40-300(平方米)之间，那么明明是平等的两个特征，输入到相同的模型中后由于本身的幅值不同导致产生的效果不同，这是不合理的



* 数值型特征处理——离散化

离散化的两种方式：等步长——简单但不一定有效；等频——min -> 25% -> 75% -> max

两种方法对比：

          等频的离散化方法很精准，但需要每次都对数据分布进行一遍从新计算，因为昨天用户在淘宝上买东西的价格分布和今天不一定相同，因此昨天做等频的切分点可能并不适用，而线上最需要避免的就是不固定，需要现场计算，所以昨天训练出的模型今天不一定能使用。

        等频不固定，但很精准，等步长是固定的，非常简单，因此两者在工业上都有应用。

（3）类别型特征处理

      类别型数据本身没有大小关系，需要将它们编码为数字，但它们之间不能有预先设定的大小关系，因此既要做到公平，又要区分开它们，那么直接开辟多个空间。

    One-Hot编码/哑变量：One-Hot编码/哑变量所做的就是将类别型数据平行地展开，也就是说，经过One-Hot编码哑变量后，这个特征的空间会膨胀。

（4）时间型特征处理

        时间型特征既可以做连续值,又可以看做离散值。

连续值：持续时间(网页浏览时长)；间隔时间(上一次购买/点击离现在的时间间隔)。

        离散值：一天中哪个时间段；一周中的星期几；一年中哪个月/星期；工作日/周末。

（5）统计型特征处理

      加减平均：商品价格高于平均价格多少，用户在某个品类下消费超过多少。

        分位线：商品属于售出商品价格的分位线处。

        次序性：商品处于热门商品第几位。

    比例类：电商中商品的好/中/差评比例。

8、推荐系统常见反馈数据：

9、基于UGC的推荐

用户用标签来描述对物品的看法，所以用户生成标签(UGC)是联系用户和物品的纽带，也是反应用户兴趣的重要数据源。

一个用户标签行为的数据集一般由一个三元组(用户,物品,标签)的集合表示，其中一条记录(u,i,b)表示用户u给物品打上了标签b。

一个最简单的算法：

- 统计每个用户最常用的标签

    - 对于每个标签,统计被打过这个标签次数最多的物品

- 对于一个用户，首先找到他常用的标签，然后找到具有这些标签的最热门的物品，推荐给他

- 所以用户u对物品i的兴趣公式为，其中使用户u打过标签b的次数，是物品i被打过标签b的次数。

简单算法中直接将用户打出标签的次数和物品得到的标签次数相乘，可以简单地表现出用户对物品某个特征的兴趣。

    这种方法倾向于给热门标签(谁都会给的标签,如“大片”、“搞笑”等)、热门物品(打标签人数最多)比较大的权重，如果一个热门物品同时对应着热门标签,那它就会“霸榜”，推荐的个性化、新颖度就会降低。

    类似的问题,出现在新闻内容的关键字提取中。比如以下新闻中,哪个关键字应该获得更高的权重?

10、 TF-IDF：词频逆文档频率 ( Term Frequency- -Inverse Document Frequency,TF-DF)是一种用于资讯检索与文本挖掘的常用加权技术。

      TFDF是一种统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

                  TFIDF=TF IDF

     TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

    TF-DF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

       词频( Term Frequency,TF) ：指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数的归一化，以防止偏向更长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。），其中表示词语 i 在文档 j 中出现的频率，表示 i 在 j 中出现的次数，表示文档 j 的总词数。

         逆向文件频率( Inverse Document Frequency,IDF) ：是一个词语普遍重要性的度量，某一特定词语的IDF，可以由总文档数目除以包含该词语之文档的数目，再将得到的商取对数得到，其中表示词语 i 在文档集中的逆文档频率，N表示文档集中的文档总数，表示文档集中包含了词语 i 的文档数。

（11） TF-IDF对基于UGC推荐的改进：，为了避免热门标签和热门物品获得更多的权重，我们需要对“热门进行惩罚。

借鉴TF-IDF的思想，以一个物品的所有标签作为“文档”，标签作为“词语”，从而计算标签的“词频”(在物品所有标签中的频率)和“逆文档频率”(在其它物品标签中普遍出现的频率）。

由于“物品i的所有标签” 应该对标签权重没有影响，而 “所有标签总数” N 对于所有标签是一定的，所以这两项可以略去。在简单算法的基础上,直接加入对热门标签和热门物品的惩罚项：，其中，记录了标签 b 被多少个不同的用户使用过，记录了物品 i 被多少个不同的用户打过标签。

（一）协同过滤（Collaborative Filtering, CF）

1、基于协同过滤(CF)的推荐：基于内容( Content based,CB)主要利用的是用户评价过的物品的内容特征，而CF方法还可以利用其他用户评分过的物品内容。

CF可以解决CB的一些局限：

- 物品内容不完全或者难以获得时,依然可以通过其他用户的反馈给出推荐。

- CF基于用户之间对物品的评价质量，避免了CB仅依赖内容可能造成的对物品质量判断的干。

- CF推荐不受内容限制，只要其他类似用户给出了对不同物品的兴趣，CF就可以给用户推荐出内容差异很大的物品(但有某种内在联系)

    分为两类：基于近邻和基于模型。

2、基于近邻的推荐系统：根据的是相同“口碑”准则。是否应该给Cary推荐《泰坦尼克号》?

（二）基于近邻的协同过滤

1、基于用户（User-CF）：基于用户的协同过滤推荐的基本原理是，根据所有用户对物品的偏好，发现与当前用户口味和偏好相似的“邻居”用户群，并推荐近邻所偏好的物品。

在一般的应用中是采用计算“K-近邻”的算法；基于这K个邻居的历史偏好信息，为当前用户进行推荐。

User-CF和基于人口统计学的推荐机制：

- 两者都是计算用户的相似度，并基于相似的“邻居”用户群计算推荐。

- 它们所不同的是如何计算用户的相似度：基于人口统计学的机制只考虑用户本身的特征，而基于用户的协同过滤机制可是在用户的历史偏好的数据上计算用户的相似度，它的基本假设是，喜欢类似物品的用户可能有相同或者相似的口味和偏好。

2、基于物品（Item-CF）：基于项目的协同过滤推荐的基本原理与基于用户的类似，只是使用所有用户对物品的偏好，发现物品和物品之间的相似度，然后根据用户的历史偏好信息，将类似的物品推荐给用户。

Item-CF和基于内容(CB)的推荐

- 其实都是基于物品相似度预测推荐，只是相似度计算的方法不一样，前者是从用户历史的偏好推断，而后者是基于物品本身的属性特征信息。

同样是协同过滤，在基于用户和基于项目两个策略中应该如何选择呢?

- 电商、电影、音乐网站,用户数量远大于物品数量。

- 新闻网站，物品(新闻文本)数量可能大于用户数量。

3、 User-CF和Item-CF的比较

同样是协同过滤，在User-CF和ltem-CF两个策略中应该如何选择呢？

Item-CF应用场景

- 基于物品的协同过滤( Item-CF ) 推荐机制是 Amazon在基于用户的机制上改良的一种策略因为在大部分的Web站点中，物品的个数是远远小于用户的数量的，而且物品的个数和相似度相对比较稳定，同时基于物品的机制比基于用户的实时性更好一些，所以 Item-CF 成为了目前推荐策略的主流。

User-CF应用场景

- 设想一下在一些新闻推荐系统中，也许物品一一也就是新闻的个数可能大于用户的个数，而且新闻的更新程度也有很快，所以它的相似度依然不稳定，这时用 User-cf可能效果更好。

所以，推荐策略的选择其实和具体的应用场景有很大的关系。

4、基于协同过滤的推荐优缺点

（1）基于协同过滤的推荐机制的优点：

    它不需要对物品或者用户进行严格的建模，而且不要求对物品特征的描述是机器可理解的，所以这种方法也是领域无关的。

这种方法计算出来的推荐是开放的，可以共用他人的经验，很好的支持用户发现潜在的兴趣偏好。

（2）存在的问题

    方法的核心是基于历史数据，所以对新物品和新用户都有“冷启动”的问题。

        推荐的效果依赖于用户历史好数据的多少和准确性。

    在大部分的实现中，用户历史偏好是用稀疏矩阵进行存储的，而稀疏矩阵上的计算有些明显的问题，包括可能少部分人的错误偏好会对推荐的准确度有很大的影响等等。

    对于一些特殊品味的用户不能给予很好的推荐。

（三）基于模型的协同过滤

1、基本思想

（1）用户具有一定的特征，决定着他的偏好选择

（2）物品具有一定的特征，影响着用户需是否选择它。

（3）用户之所以选择某一个商品，是因为用户特征与物品特征相互匹配。

    基于这种思想，模型的建立相当于从行为数据中提取特征，给用户和物品同时打上“标签”；这和基于人口统计学的用户标签、基于内容方法的物品标签本质是一样的，都是特征的提取和匹配。

有显性特征时(比如用户标签、物品分类标签)我们可以直接匹配做出推荐；没有时，可以根据已有的偏好数据，去发据出隐藏的特征,这需要用到隐语义模型(LFM)。

2、基于模型的协同过滤推荐，就是基于样本的用户偏好信息，训练一个推荐模型,然后根据实时的用户喜好的信息进行预测新物品的得分，计算推荐

    基于近邻的推荐和基于模型的推荐

- 基于近邻的推荐是在预测时直接使用已有的用户偏好数据，通过近邻数据来预测对新物品的偏好(类似分类)

- 而基于模型的方法，是要使用这些偏好数据来训练模型，找到内在规律，再用模型来做预测(类似回归)

训练模型时，可以基于标签内容来提取物品特征，也可以让模型去发据物品的潜在特征；这样的模型被称为隐语义模型 ( Latent Factor Model,LFM)。

（1）隐语义模型(LFM)：用隐语义模型来进行协同过滤的目标：

- 揭示隐藏的特征,这些特征能够解释为什么给出对应的预测评分

    - 这类特征可能是无法直接用语言解释描述的,事实上我们并不需要知道,类似“玄学”

        通过矩阵分解进行降维分析

- 协同过滤算法非常依赖历史数据，而一般的推荐系统中，偏好数据又往往是稀疏的；这就需要对原始数据做降维处理。

- 分解之后的矩阵，就代表了用户和物品的隐藏特征

        隐语义模型的实例：基于概率的隐语义分析(pLSA)、隐式迪利克雷分布模型(LDA)、矩阵因子分解模型(基于奇异值分解的模型,SVD)

（2）LFM降维方法——矩阵因子分解

（3）LFM的进一步理解

    我们可以认为，用户之所以给电影打出这样的分数，是有内在原因的，我们可以挖掘出影响用户打分的隐藏因素，进而根据未评分电影与这些隐藏因素的关联度，决定此未评分电影的预测评分。

应该有一些隐藏的因素，影响用户的打分，比如电影：演员、题材、年代…甚至不定是人直接可以理解的隐藏因子。

找到隐藏因子，可以对user和Iiem进行关联(找到是由于什么使得user喜欢/不喜欢此Item,什么会决定user喜欢/不喜欢此item)，就可以推测用户是否会喜欢某一部未看过的电影。

（4）矩阵因子分解

（5）模型的求解——损失函数

（6）模型的求解算法——ALS

  现在，矩阵因子分解的问题已经转化成了一个标准的优化问题，需要求解P、Q，使目标损失函数取最小值。

最小化过程的求解，一般采用随机梯度下降算法或者交替最小二乘法来实现交替最小二乘法( Alternating Least Squares,ALS)

ALS的思想是，由于两个矩阵P和Q都未知,且通过矩阵乘法耦合在一起，为了使它们解耦，可以先固定Q，把P当作变量，通过损失函数最小化求出P，这就是一个经典的最小二乘问题；再反过来固定求得的P，把Q当作变量，求解出Q：如此交替执行，直到误差满足阅值条件，或者到达迭代上限。

（7）梯度下降算法

Ⅳ 冷启动的意思

冷启动，电脑的一复种启动方制式。就是切断电脑的电源，重新启动，一旦冷启动，内存的东西全部丢失，重新检测硬件，进入CMOS，再依启动操作系统。一般按机箱上POWER按钮启动。
另一种也指冷启动问题是协同过滤推荐算法中被广泛关注的一个经典问题。

Ⅵ 个性化推荐系统的基本框架

个性化推荐系统的基本框架如下：
参考国内最具代表性的百分点推荐系统框架来讲，个性化推荐系统的推荐引擎在个性化算法的框架基础之上，还引入场景引擎、规则引擎和展示引擎，形成全新的百分点推荐引擎的技术框架，系统通过综合并利用用户的兴趣偏好、属性，商品的属性、内容、分类，以及用户之间的社交关系等等，挖掘用户的喜好和需求，主动向用户推荐其感兴趣或者需要的商品。
基于云计算的个性化推荐平台。消除数据孤岛，建立基于用户全网兴趣偏好轨迹的精准云计算分析模型，打通用户在多个网站的兴趣偏好，形成成用户行为偏好大数据中心。
多种智能算法库。基于多维度的数据挖掘、统计分析，进行算法模型的建立和调优。综合利用基于内容、基于用户行为和基于社交关系网络的多种算法，为用户推荐其喜欢的商品、服务或内容。
电子商务推荐系统的主要算法有：
（1）基于关联规则的推荐算法（Association Rule-based Recommendation）
（2）基于内容的推荐算法 (Content-based Recommendation)
内容过滤主要采用自然语言处理、人工智能、概率统计和机器学习等技术进行过滤。
通过相关特征的属性来定义项目或对象,系统基于用户评价对象的特征学习用户的兴趣,依据用户资料与待预测项目的匹配程度进行推荐，努力向客户推荐与其以前喜欢的产品相似的产品。如新闻组过滤系统News Weeder。
基于内容过滤的系统其优点是简单、有效。尤其对于推荐系统常见的冷启动（Cold Start）问题，Content-based方法能够比较好的进行解决。因为该算法不依赖于大量用户的点击日志，只需要使用待推荐对象（item）本身的属性、类目、关键词等特征，因此该方法在待推荐对象数量庞大、变化迅速、积累点击数稀少等应用场景下有较好的效果。但该方法的缺点是对推荐物的描述能力有限，过分细化，推荐结果往往局限与原对象相似的类别中，无法为客户发现新的感兴趣的资源,只能发现和客户已有兴趣相似的资源。这种方法通常被限制在容易分析内容的商品的推荐，而对于一些较难提取出内容的商品，如音乐CD、电影等就不能产生满意的推荐效果。
（3）协同过滤推荐算法（Collaborative Filtering Recommendation）
协同过滤是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同，协同过滤分析用户兴趣，在用户群中找到指定用户的相似（兴趣）用户，综合这些相似用户对某一信息的评价，形成系统对该指定用户对此信息的喜好程度预测。
与传统文本过滤相比，协同过滤有下列优点:
1）能够过滤难以进行机器自动基于内容分析的信息。如艺术品、音乐;
2）能够基于一些复杂的，难以表达的概念（信息质量、品位)进行过滤;
3）推荐的新颖性。正因为如此，协同过滤在商业应用上也取得了不错的成绩。Amazon，CDNow，MovieFinder，都采用了协同过滤的技术来提高服务质量。
协同过滤推荐算法，可进一步细分为基于用户的协同过滤（user-based collaborative filtering）和基于物品的协同过滤（item-based collaborative filtering）。
基于用户的协同过滤的基本思想是：根据所有用户对物品或者信息的偏好，发现与当前用户口味和偏好相似的“邻居”用户群，在一般的应用中是采用计算“K- 邻居”的算法；然后，基于这 K 个邻居的历史偏好信息，为当前用户进行物品的推荐。
基于物品的协同过滤的基本原理也类似，该方法根据用户和物品直接历史点击或购买记录，来计算物品和物品之间的相似度，然后根据用户的历史偏好的物品信息，将挖掘到的类似的物品推荐给用户
基于用户的协同过滤和基于物品的协同过滤各自有其适用场景。总的来看，协同过滤方法的缺点是:
1）稀疏性问题：如果用户对商品的评价非常稀疏，这样基于用户的评价所得到的用户间的相似性可能不准确;
2）可扩展性问题：随着用户和商品的增多，系统的性能会越来越低;
3）冷启动问题：如果从来没有用户对某一商品加以评价，则这个商品就不可能被推荐。
4）长尾问题：对微小市场的推荐。
因此，现在的电子商务推荐系统都采用了几种技术相结合的推荐技术。

Ⅶ 协同过滤与分类

[TOC]

本文是《写给程序员的数据挖掘实践指南》的一周性笔记总结。主要涵盖了以下内容：

所谓推荐系统就是系统根据你的行为操作为你推荐你可能想要的其他物品。这在电商平台、音乐平台、资讯推送平台等多有见到。而协同过滤简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息，个人通过合作的机制给予信息相当程度的回应（如评分）并记录下来以达到过滤的目的进而帮助别人筛选信息。其推荐基础是用户评分。这里可以分为两种用户评分，即显式评分与隐式评分。显式评分即日常见到的为物品打分，如对喜好音乐评级等；隐式评分是通过对用户行为的持续性观察，进而发现用户偏好的一种方法，如新闻网页中的推送你经常阅读过的相关内容等。两种评分方法都有自己的问题。

总体来说，协同过滤其运作机制也可以分为两种：

基于用户的推荐是指通过用户的行为偏好，划分相似用户。在相似用户群体之间互相推送一方喜欢而另一方未有过的物品。核心在于相似用户群体的划分。这种推荐方法有自己的局限：

基于用户的过滤其核心是用户群体的划分，其实也就是分类。

这里的距离函数包括三种：曼哈顿距离和欧氏距离。这里以二维举例，更多维情况下类推即可。

两距离函数可以一般化为：

其中，当r=1时，函数为曼哈顿距离；当r=2时，函数为欧氏距离。

算法实现：

在算出距离函数后，通过比对目标用户与所有用户群体的偏好，找到最近邻的用户并给予推荐。

基于用户距离的推荐有一个明显的问题，就是用户评分体系的差异。比如评分极端的用户给喜欢的评最高分，给不喜欢的评最低分；而有些用户倾向于不出现极端评分。即所谓“分数贬值”( Grade Inflation )问题。这种问题的存在可能让基于距离的评分产生偏差。皮尔逊相关系数可以缓解这种问题。

原皮尔逊相关系数公式在实际运用的时候会出现多次迭代的问题，影响计算效率，这里给出了近似公式：

皮尔逊相关系数的用户判断依据不是单纯的用户距离，而是用户的评分一致性：取值在[-1, 1]之间，越接近1则表示两用户的评分一致性越好；反之则反。
python实现：

基于用户推荐的过程中，另一个存在的问题就是由于大部分人的喜爱物品集合的交集过少，存在大量计算值为0的feature的情况。即所谓 稀疏性 问题。一个较容易理解的例子是对书本内容的挖掘。余弦相似度会忽略这种0-0匹配。
余弦相似度：

python实现：

如此多的评估系数，如何进行抉择呢？根据数据特征：

另外值得考虑的一点是，目前为止的推荐都是基于单用户的。即对一个用户的推荐系统只是基于另一个用户。这会存在一些问题。比如虽然虽然两者相似度很高，但是另外一个人有一些怪癖，怪癖的推荐就是不合理的；又比如，在相似度极高的情况下，你不能确定统一账户下的操作是同一个人做出的或者说操作行为是为了用户自身。比如用户考虑购买某件商品作为礼物送给别人，这就是基于别人喜好的购买行为，这种推荐也是不合适的。
对这种问题的解决可以使用群体划分的方法。原理与单用户类似，但是用户的匹配是k个。在这k位最优匹配的用户之间，以相似度的大小为依据设定权重作为物品推荐的条件。此即协同过滤的k近邻。

正如前面提到的基于用户的推荐有复杂度、稀疏性的问题，而基于物品的过滤则可以缓解这些问题。所谓基于物品的过滤是指，我们事先找到最相似的物品，并结合用户对物品的评级结果来生成推荐。前提是要对物品进行相似度匹配，找到一种算法。

这里的调整是指为了减轻用户评分体系的不一致情况（抵消分数贬值），从每个评级结果中减去该用户所有物品的平均分的评级结果。

其中，U表示所有同时对i， j进行评级过的用户的集合。表示用户u给物品i的评分减去用户u对所有物品的评分的平均值。

在得到所有物品的余弦相似度后，我们就可以通过该指数预测用户对某件物品的偏好程度。方法就是所有相似物品的相似度乘以得分的总和。

其中p（u, i）指的是用户u对物品i评分的预测值。N是用户u的所有评级物品中每个和i得分相似的物品。这里的相似指的是矩阵中存在N和i的一个相似度得分。是i和N之间的相似度得分。是u给N的评级结果。公式较好运行的条件是取值在（-1， 1）之间，这里就要使用归一化概念。

另一种常用的基于物品过滤的算法就是 slope one 算法。它的大概原理是预测用户u对产品j的评分时，预先计算包含所有物品的两物品偏差表；根据u的已评价的所有物品评分与该物品和产品j的偏差（）之和并乘以所有对此两类物品有过评分的用户个数，一一加总，除以所有同时对产品i与u评价过的所有物品有过评分的用户的人数，得到得分。公式如下：

其中，；是利用加权s1算法给出的用户u对物品j的预测值。指的是对所有除j之外u打过分的物品。

python实现：

在前面两节中，基于物品和基于用户的过滤其前提都是用户需要对已有的item进行评分。而实际上，如果一个新的item出现，由于缺乏别人的偏好，他永远不会被推荐。这就是推荐系统中所谓的—— 冷启动 问题。基于用户评价的系统就会出现这种问题。
冷启动 问题的解决方案之一就是 基于物品属性的过滤 来进行推荐：对物品自身的属性进行归纳总结，并以此进行物品推荐。基于物品属性的过滤存在一个问题同样是量纲的不统一。如果量纲不统一极端值将会对推荐系统造成大麻烦。解决方法也很简单：归一化。此章使用的是z-评分。
使用z得分也存在问题，就是极易受到离群值的影响。这里可以使用 改进的标准分数 来缓解这个问题：

什么时候可以进行归一化呢？

这里用曼哈顿距离举例基于物品属性的过滤：

在上一章最后一节对于用户是否喜欢某件item的判别中，实际上包含了分类器的思想：分类器就是利用对象属性判定对象属于哪个组或类别的程序。这里简单用另一个小项目来说明。

简单来说就是根据运动员的某些指标来判断这位运动员属于什么类别的运动员。

准确率有0.8。

Ⅷ 冷启动是什么，有人知道冷启动是做什么的

冷起动有两种情况，不知道你说的是哪一种。
一，电脑的一种启动方式。就是切回断电脑的电源，重新启动，答一旦冷启动，内存的东西全部丢失，重新检测硬件，进入CMOS，再依启动操作系统。一般按机箱上POWER按钮启动。

二，是协同过滤推荐算法中被广泛关注的一个经典问题。

Ⅸ 推荐算法简介

写在最前面：本文内容主要来自于书籍《推荐系统实践》和《推荐系统与深度学习》。

推荐系统是目前互联网世界最常见的智能产品形式。从电子商务、音乐视频网站，到作为互联网经济支柱的在线广告和新颖的在线应用推荐，到处都有推荐系统的身影。推荐算法是推荐系统的核心，其本质是通过一定的方式将用户和物品联系起来，而不同的推荐系统利用了不同的方式。

推荐系统的主要功能是以个性化的方式帮助用户从极大的搜索空间中快速找到感兴趣的对象。因此，目前所用的推荐系统多为个性化推荐系统。个性化推荐的成功应用需要两个条件：

在推荐系统的众多算法中，基于协同的推荐和基于内容的推荐在实践中得到了最广泛的应用。本文也将从这两种算法开始，结合时间、地点上下文环境以及社交环境，对常见的推荐算法做一个简单的介绍。

基于内容的算法的本质是对物品内容进行分析，从中提取特征，然后基于用户对何种特征感兴趣来推荐含有用户感兴趣特征的物品。因此，基于内容的推荐算法有两个最基本的要求：

下面我们以一个简单的电影推荐来介绍基于内容的推荐算法。

现在有两个用户A、B和他们看过的电影以及打分情况如下：

其中问好（?）表示用户未看过。用户A对《银河护卫队》《变形金刚》《星际迷航》三部科幻电影都有评分，平均分为 4 .7 分（ (5+4+5 ) / 3=4.7 ）；对《三生三世》《美人鱼》《北京遇上西雅图》三部爱情电影评分平均分为 2.3 分（ ( 3十2+2 ) /3=2.3 ）。现在需要给A推荐电影，很明显A更倾向于科幻电影，因此推荐系统会给A推荐独立日。而对于用户B，通过简单的计算我们可以知道更喜欢爱情电影，因此给其推荐《三生三世》。当然，在实际推荐系统中，预测打分比这更加复杂些，但是其原理是一样的。

现在，我们可以将基于内容的推荐归纳为以下四个步骤：

通过上面四步就能快速构建一个简单的推荐系统。基于内容的推荐系统通常简单有效，可解释性好，没有物品冷启动问题。但他也有两个明显的缺点：

最后，顺便提一下特征提取方法：对于某些特征较为明确的物品，一般可以直接对其打标签，如电影类别。而对于文本类别的特征，则主要是其主题情感等，则些可以通过tf-idf或LDA等方法得到。

基于协同的算法在很多地方也叫基于邻域的算法，主要可分为两种：基于用户的协同算法和基于物品的协同算法。

啤酒和尿布的故事在数据挖掘领域十分有名，该故事讲述了美国沃尔玛超市统计发现啤酒和尿布一起被购买的次数非常多，因此将啤酒和尿布摆在了一起，最后啤酒和尿布的销量双双增加了。这便是一个典型的物品协同过滤的例子。

基于物品的协同过滤指基于物品的行为相似度（如啤酒尿布被同时购买）来进行物品推荐。该算法认为，物品A和物品B具有很大相似度是因为喜欢物品A的用户大都也喜欢物品B。

基于物品的协同过滤算法主要分为两步：

基于物品的协同过滤算法中计算物品相似度的方法有以下几种：
（1）基于共同喜欢物品的用户列表计算。

此外，John S. Breese再其论文中还提及了IUF（Inverse User Frequence，逆用户活跃度）的参数，其认为活跃用户对物品相似度的贡献应该小于不活跃的用户，应该增加IUF参数来修正物品相似度的公式：

上面的公式只是对活跃用户做了一种软性的惩罚，但对于很多过于活跃的用户，比如某位买了当当网80%图书的用户，为了避免相似度矩阵过于稠密，我们在实际计算中一般直接忽略他的兴趣列表，而不将其纳入到相似度计算的数据集中。

（2）基于余弦相似度计算。

（3）热门物品的惩罚。
从上面（1）的相似度计算公式中，我们可以发现当物品 i 被更多人购买时，分子中的 N(i) ∩ N(j) 和分母中的 N(i) 都会增长。对于热门物品，分子 N(i) ∩ N(j) 的增长速度往往高于 N(i)，这就会使得物品 i 和很多其他的物品相似度都偏高，这就是 ItemCF 中的物品热门问题。推荐结果过于热门，会使得个性化感知下降。以歌曲相似度为例，大部分用户都会收藏《小苹果》这些热门歌曲，从而导致《小苹果》出现在很多的相似歌曲中。为了解决这个问题，我们对于物品 i 进行惩罚，例如下式，当α∈(0, 0.5) 时，N(i) 越小，惩罚得越厉害，从而使热门物品相关性分数下降（博主注：这部分未充分理解）：

此外，Kary pis在研究中发现如果将ItemCF的相似度矩阵按最大值归一化，可以提高推荐的准确率。其研究表明，如果已经得到了物品相似度矩阵w，那么可以用如下公式得到归一化之后的相似度矩阵w'：

归一化的好处不仅仅在于增加推荐的准确度，它还可以提高推荐的覆盖率和多样性。一般来说，物品总是属于很多不同的类，每一类中的物品联系比较紧密。假设物品分为两类——A和B， A类物品之间的相似度为0.5， B类物品之间的相似度为0.6，而A类物品和B类物品之间的相似度是0.2。在这种情况下，如果一个用户喜欢了5个A类物品和5个B类物品，用ItemCF给他进行推荐，推荐的就都是B类物品，因为B类物品之间的相似度大。但如果归一化之后， A类物品之间的相似度变成了1， B类物品之间的相似度也是1，那么这种情况下，用户如果喜欢5个A类物品和5个B类物品，那么他的推荐列表中A类物品和B类物品的数目也应该是大致相等的。从这个例子可以看出，相似度的归一化可以提高推荐的多样性。

那么，对于两个不同的类，什么样的类其类内物品之间的相似度高，什么样的类其类内物品相似度低呢？一般来说，热门的类其类内物品相似度一般比较大。如果不进行归一化，就会推荐比较热门的类里面的物品，而这些物品也是比较热门的。因此，推荐的覆盖率就比较低。相反，如果进行相似度的归一化，则可以提高推荐系统的覆盖率。

最后，利用物品相似度矩阵和用户打过分的物品记录就可以对一个用户进行推荐评分：

基于用户的协同算法与基于物品的协同算法原理类似，只不过基于物品的协同是用户U购买了A物品，会计算经常有哪些物品与A一起购买（也即相似度），然后推荐给用户U这些与A相似的物品。而基于用户的协同则是先计算用户的相似性（通过计算这些用户购买过的相同的物品），然后将这些相似用户购买过的物品推荐给用户U。

基于用户的协同过滤算法主要包括两个步骤：

步骤（1）的关键是计算用户的兴趣相似度，主要是利用用户的行为相似度计算用户相似度。给定用户 u 和 v，N(u) 表示用户u曾经有过正反馈（譬如购买）的物品集合，N(v) 表示用户 v 曾经有过正反馈的物品集合。那么我们可以通过如下的 Jaccard 公式简单的计算 u 和 v 的相似度：

或通过余弦相似度：

得到用户之间的相似度之后，UserCF算法会给用户推荐和他兴趣最相似的K个用户喜欢的物品。如下的公式度量了UserCF算法中用户 u 对物品 i 的感兴趣程度：

首先回顾一下UserCF算法和ItemCF算法的推荐原理：UserCF给用户推荐那些和他有共同兴趣爱好的用户喜欢的物品，而ItemCF给用户推荐那些和他之前喜欢的物品具有类似行为的物品。

（1）从推荐场景考虑
首先从场景来看，如果用户数量远远超过物品数量，如购物网站淘宝，那么可以考虑ItemCF，因为维护一个非常大的用户关系网是不容易的。其次，物品数据一般较为稳定，因此物品相似度矩阵不必频繁更新，维护代价较小。

UserCF的推荐结果着重于反应和用户兴趣相似的小群体的热点，而ItemCF的推荐结果着重于维系用户的历史兴趣。换句话说，UserCF的推荐更社会化，反应了用户所在小型兴趣群体中物品的热门程度，而ItemCF的推荐更加个性化，反应了用户自己的个性传承。因此UserCF更适合新闻、微博或微内容的推荐，而且新闻内容更新频率非常高，想要维护这样一个非常大而且更新频繁的表无疑是非常难的。

在新闻类网站中，用户的兴趣爱好往往比较粗粒度，很少会有用户说只看某个话题的新闻，而且往往某个话题也不是每天都会有新闻。个性化新闻推荐更强调新闻热点，热门程度和时效性是个性化新闻推荐的重点，个性化是补充，所以 UserCF 给用户推荐和他有相同兴趣爱好的人关注的新闻，这样在保证了热点和时效性的同时，兼顾了个性化。

（2）从系统多样性（也称覆盖率，指一个推荐系统能否给用户提供多种选择）方面来看，ItemCF的多样性要远远好于UserCF，因为UserCF更倾向于推荐热门物品。而ItemCF具有较好的新颖性，能够发现长尾物品。所以大多数情况下，ItemCF在精度上较小于UserCF，但其在覆盖率和新颖性上面却比UserCF要好很多。

在介绍本节基于矩阵分解的隐语义模型之前，让我们先来回顾一下传统的矩阵分解方法SVD在推荐系统的应用吧。

基于SVD矩阵分解在推荐中的应用可分为如下几步：

SVD在计算前会先把评分矩阵 A 缺失值补全，补全之后稀疏矩阵 A 表示成稠密矩阵，然后将分解成 A' = U∑V T 。但是这种方法有两个缺点：（1）补成稠密矩阵后需要耗费巨大的储存空间，对这样巨大的稠密矩阵进行储存是不现实的；（2）SVD的计算复杂度很高，对这样大的稠密矩阵中进行计算式不现实的。因此，隐语义模型就被发明了出来。

更详细的SVD在推荐系统的应用可参考奇异值分解SVD简介及其在推荐系统中的简单应用。

隐语义模型（Latent Factor Model）最早在文本挖掘领域被提出，用于找到文本的隐含语义。相关的算法有LSI，pLSA，LDA和Topic Model。本节将对隐语义模型在Top-N推荐中的应用进行详细介绍，并通过实际的数据评测该模型。

隐语义模型的核心思想是通过隐含特征联系用户兴趣和物品。让我们通过一个例子来理解一下这个模型。

现有两个用户，用户A的兴趣涉及侦探小说、科普图书以及一些计算机技术书，而用户B的兴趣比较集中在数学和机器学习方面。那么如何给A和B推荐图书呢？

我们可以对书和物品的兴趣进行分类。对于某个用户，首先得到他的兴趣分类，然后从分类中挑选他可能喜欢的物品。简言之，这个基于兴趣分类的方法大概需要解决3个问题：

对于第一个问题的简单解决方案是找相关专业人员给物品分类。以图书为例，每本书出版时，编辑都会给出一个分类。但是，即使有很系统的分类体系，编辑给出的分类仍然具有以下缺点：（1）编辑的意见不能代表各种用户的意见；（2）编辑很难控制分类的细粒度；（3）编辑很难给一个物品多个分类；（4）编辑很难给一个物品多个分类；（5）编辑很难给出多个维度的分类；（6）编辑很难决定一个物品在某一个类别中的权重。

为了解决上述问题，研究员提出可以从数据出发，自动找到那些分类，然后进行个性化推荐。隐语义模型由于采用基于用户行为统计的自动聚类，较好地解决了上面提出的5个问题。

LFM将矩阵分解成2个而不是3个：

推荐系统中用户和物品的交互数据分为显性反馈和隐性反馈数据。隐式模型中多了一个置信参数，具体涉及到ALS（交替最小二乘法，Alternating Least Squares）中对于隐式反馈模型的处理方式——有的文章称为“加权的正则化矩阵分解”：

一个小细节：在隐性反馈数据集中，只有正样本（正反馈）没有负反馈（负样本），因此如何给用户生成负样本来进行训练是一个重要的问题。Rong Pan在其文章中对此进行了探讨，对比了如下几种方法：

用户行为很容易用二分图表示，因此很多图算法都可以应用到推荐系统中。基于图的模型（graph-based model）是推荐系统中的重要内容。很多研究人员把基于领域的模型也称为基于图的模型，因为可以把基于领域的模型看作基于图的模型的简单形式。

在研究基于图的模型之前，需要将用户行为数据表示成图的形式。本节的数据是由一系列用户物品二元组 (u, i) 组成的，其中 u 表示用户对物品 i 产生过行为。

令 G(V, E) 表示用户物品二分图，其中 V=V U UV I 由用户顶点 V U 和物品节点 V I 组成。对于数据集中每一个二元组 (u, i) ，图中都有一套对应的边 e(v u , v i )，其中 v u ∈V U 是用户对应的顶点，v i ∈V I 是物品i对应的顶点。如下图是一个简单的物品二分图，其中圆形节点代表用户，方形节点代表物品，用户物品的直接连线代表用户对物品产生过行为。比如下图中的用户A对物品a、b、d产生过行为。

度量图中两个顶点之间相关性的方法很多，但一般来说图中顶点的相关性主要取决于下面3个因素：

而相关性高的一对顶点一般具有如下特征：

举个例子，如下图，用户A和物品c、e没有边直连，但A可通过一条长度为3的路径到达c，而Ae之间有两条长度为3的路径。那么A和e的相关性要高于顶点A和c，因而物品e在用户A的推荐列表中应该排在物品c之前，因为Ae之间有两条路径。其中，（A,b,C,e）路径经过的顶点的出度为（3，2，2，2），而 (A,d,D,e) 路径经过了一个出度比较大的顶点D，所以 (A,d,D,e) 对顶点A与e之间相关性的贡献要小于（A,b,C,e）。

基于上面3个主要因素，研究人员设计了很多计算图中顶点相关性的方法，本节将介绍一种基于随机游走的PersonalRank算法。

假设要给用户u进行个性化推荐，可以从用户u对应的节点 v u 开始在用户物品二分图上进行随机游走。游走到任一节点时，首先按照概率α决定是继续游走还是停止这次游走并从 v u 节点重新开始游走。若决定继续游走，则从当前节点指向的节点中按照均匀分布随机选择一个节点作为游走下次经过的节点。这样，经过很多次随机游走后，每个物品被访问到的概率会收敛到一个数。最终的推荐列表中物品的权重就是物品节点的访问概率。

上述算法可以表示成下面的公式：

虽然通过随机游走可以很好地在理论上解释PersonalRank算法，但是该算法在时间复杂度上有明显的缺点。因为在为每个用户进行推荐时，都需要在整个用户物品二分图上进行迭代，知道所有顶点的PR值都收敛。这一过程的时间复杂度非常高，不仅无法在线进行实时推荐，离线计算也是非常耗时的。

有两种方法可以解决上面PersonalRank时间复杂度高的问题：
（1）减少迭代次数，在收敛之前停止迭代。但是这样会影响最终的精度。

（2）从矩阵论出发，重新涉及算法。另M为用户物品二分图的转移概率矩阵，即：

网络社交是当今社会非常重要甚至可以说是必不可少的社交方式，用户在互联网上的时间有相当大的一部分都用在了社交网络上。

当前国外最著名的社交网站是Facebook和Twitter，国内的代表则是微信/QQ和微博。这些社交网站可以分为两类：

需要指出的是，任何一个社交网站都不是单纯的社交图谱或兴趣图谱。如QQ上有些兴趣爱好群可以认识不同的陌生人，而微博中的好友也可以是现实中认识的。

社交网络定义了用户之间的联系，因此可以用图定义社交网络。我们用图 G(V,E,w) 定义一个社交网络，其中V是顶点集合，每个顶点代表一个用户，E是边集合，如果用户va和vb有社交网络关系，那么就有一条边 e(v a , v b ) 连接这两个用户，而 w(v a , v b )定义了边的权重。一般来说，有三种不同的社交网络数据：

和一般购物网站中的用户活跃度分布和物品流行度分布类似，社交网络中用户的入度（in degree，表示有多少人关注）和出度（out degree，表示关注多少人）的分布也是满足长尾分布的。即大部分人关注的人都很少，被关注很多的人也很少。

给定一个社交网络和一份用户行为数据集。其中社交网络定义了用户之间的好友关系，而用户行为数据集定义了不同用户的历史行为和兴趣数据。那么最简单的算法就是给用户推荐好友喜欢的物品集合。即用户u对物品i的兴趣 p ui 可以通过如下公式计算。

用户u和用户v的熟悉程度描述了用户u和用户在现实社会中的熟悉程度。一般来说，用户更加相信自己熟悉的好友的推荐，因此我们需要考虑用户之间的熟悉度。下面介绍3中衡量用户熟悉程度的方法。

（1）对于用户u和用户v，可以使用共同好友比例来计算他们的相似度：

上式中 out(u) 可以理解为用户u关注的用户合集，因此 out(u) ∩ out(v) 定义了用户u、v共同关注的用户集合。

（2）使用被关注的用户数量来计算用户之间的相似度，只要将公式中的 out(u) 修改为 in(u)：

in(u) 是指关注用户u的集合。在无向社交网络中，in(u)和out(u)是相同的，而在微博这种有向社交网络中，这两个集合的含义就不痛了。一般来说，本方法适合用来计算微博大V之间的相似度，因为大v往往被关注的人数比较多；而方法（1）适用于计算普通用户之间的相似度，因为普通用户往往关注行为比较丰富。

（3）除此之外，还可以定义第三种有向的相似度：这个相似度的含义是用户u关注的用户中，有多大比例也关注了用户v：

这个相似度有一个缺点，就是在该相似度下所有人都和大v有很大的相似度，这是因为公式中的分母并没有考虑 in(v) 的大小，所以可以把 in(v) 加入到上面公式的分母，来降低大v与其他用户的相似度：

上面介绍了3种计算用户之间相似度（或称熟悉度）的计算方法。除了熟悉程度，还需要考虑用户之间的兴趣相似度。我们和父母很熟悉，但很多时候我们和父母的兴趣确不相似，因此也不会喜欢他们喜欢的物品。因此，在度量用户相似度时，还需要考虑兴趣相似度，而兴趣相似度可以通过和UserCF类似的方法度量，即如果两个用户喜欢的物品集合重合度很高，两个用户的兴趣相似度很高。

最后，我们可以通过加权的形式将两种权重合并起来，便得到了各个好有用户的权重了。

有了权重，我们便可以针对用户u挑选k个最相似的用户，把他们购买过的物品中，u未购买过的物品推荐给用户u即可。打分公式如下：

其中 w' 是合并后的权重，score是用户v对物品的打分。

node2vec的整体思路分为两个步骤：第一个步骤是随机游走（random walk），即通过一定规则随机抽取一些点的序列；第二个步骤是将点的序列输入至word2vec模型从而得到每个点的embedding向量。

随机游走在前面基于图的模型中已经介绍过，其主要分为两步：（1）选择起始节点；（2）选择下一节点。起始节点选择有两种方法：按一定规则抽取一定量的节点或者以图中所有节点作为起始节点。一般来说会选择后一种方法以保证所有节点都会被选取到。

在选择下一节点方法上，最简单的是按边的权重来选择，但在实际应用中需要通过广度优先还是深度优先的方法来控制游走范围。一般来说，深度优先发现能力更强，广度优先更能使社区内（较相似）的节点出现在一个路径里。

斯坦福大学Jure Leskovec教授给出了一种可以控制广度优先或者深度优先的方法。

以上图为例，假设第一步是从t随机游走到v，这时候我们要确定下一步的邻接节点。本例中，作者定义了p和q两个参数变量来调节游走，首先计算其邻居节点与上一节点t的距离d，根据下面的公式得到α：

一般从每个节点开始游走5~10次，步长则根据点的数量N游走根号N步。如此便可通过random walk生成点的序列样本。

得到序列之后，便可以通过word2vec的方式训练得到各个用户的特征向量，通过余弦相似度便可以计算各个用户的相似度了。有了相似度，便可以使用基于用户的推荐算法了。

推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣，因此大量的用户行为数据就成为推荐系统的重要组成部分和先决条件。如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统，就是冷启动问题。

冷启动问题主要分为三类：

针对用户冷启动，下面给出一些简要的方案：
（1）有效利用账户信息。利用用户注册时提供的年龄、性别等数据做粗粒度的个性化；
（2）利用用户的社交网络账号登录（需要用户授权），导入用户在社交网站上的好友信息，然后给用户推荐其好友喜欢的物品；
（3）要求用户在登录时对一些物品进行反馈，手机用户对这些物品的兴趣信息，然后给用推荐那些和这些物品相似的物品；
（4）提供非个性化推荐。非个性化推荐的最简单例子就是热门排行榜，我们可以给用户推荐热门排行榜，然后等到用户数据收集到一定的时候，在切换为个性化推荐。

对于物品冷启动，可以利用新加入物品的内容信息，将它们推荐给喜欢过和他们相似的物品的用户。

对于系统冷启动，可以引入专家知识，通过一定高效的方式快速建立起物品的相关度表。

在上面介绍了一些推荐系统的基础算法知识，这些算法大都是比较经典且现在还在使用的。但是需要注意的是，在实践中，任何一种推荐算法都不是单独使用的，而是将多种推荐算法结合起来，也就是混合推荐系统，但是在这里并不准备介绍，感兴趣的可以查阅《推荐系统》或《推荐系统与深度学习》等书籍。此外，在推荐中非常重要的点击率模型以及基于矩阵的一些排序算法在这里并没有提及，感兴趣的也可自行学习。

虽然现在用的很多算法都是基于深度学习的，但是这些经典算法能够让我们对推荐系统的发展有一个比较好的理解，同时，更重要的一点——“推陈出新”，只有掌握了这些经典的算法，才能提出或理解现在的一些更好地算法。

Ⅹ 直通车冷启动期有多久

直通车冷启动期大概一个半小时。

直通车本意指从一个城市到另一个城市，车辆在行驶的过程中，如无意外情况发生的情况下原则上不停靠任何中途站点，直接到达车辆前往的目的地，这样便于旅客的出行以及更大限度地节约时间，类似于专车直达。

在现实生活中也有很多的寓意，主要是指节约时间，简洁，方便快捷，便民。协同过滤推荐基于这样的假设: 为用户找到他真正感兴趣的内容的方法是，首先找与他兴趣相似的用户，然后将这些用户感兴趣的东西推荐给该用户。

所以该推荐技术最大的优点是对推荐对象没有特殊的要求，能处理非结构化的复杂对象，如音乐、电影等，并能发现用户潜在的兴趣点。协同过滤推荐算法主要是利用用户对项目的评分数据，通过相似邻居查询，找出与当前用户兴趣最相似的用户群。

根据这些用户的兴趣偏好为当前用户提供最可能感兴趣的项目推荐列表。为更进一步地说明协同过滤推荐算法的推荐原理，本文以用户对电影的推荐为例进行阐述。

以上内容参考：网络-直通车

导航:首页 > 净水问答 > als协同过滤冷启动

als协同过滤冷启动

与als协同过滤冷启动相关的资料