协同过滤相关系数_如何使用Spark ALS实现协同过滤

『壹』 java,我有一个数据库表userid,bookid,score,用这个表用协同过滤算法找到爱好相似的用户

//皮尔逊相关系数分析
//介于-1到1之间。相关系数越接近与1，说明两个人越相似。
//你先参考下这个虽然里面只有Python的代码：

//我用java去做一下试试

importjava.util.*;

publicclassTest{

publicstaticvoidmain(String[]args){
Map<String,HashMap<String,Double>>cri=newHashMap<String,HashMap<String,Double>>();
//模拟数据库中的数据，实际运用时请灵活变动
getData(cri);
System.out.println(cri.get("Gene").get("LadyintheWater"));
//获得评价值
System.out.println(getSim(cri,"Gene","Lisa"));
}

//模拟数据库中的数据
publicstaticvoidgetData(Map<String,HashMap<String,Double>>cri){
HashMap<String,Double>temp=newHashMap<String,Double>();
temp.put("LadyintheWater",2.5);
temp.put("SnakesonaPlane",3.5);
temp.put("JustMyLuck",3.0);
temp.put("SupermanReturns",3.5);
temp.put("You,MeandDupree",2.5);
temp.put("TheNightListener",3.0);
cri.put("Lisa",temp);
HashMap<String,Double>temp1=newHashMap<String,Double>();
temp1.put("LadyintheWater",3.0);
temp1.put("SnakesonaPlane",3.5);
temp1.put("JustMyLuck",1.5);
temp1.put("SupermanReturns",5.0);
temp1.put("You,MeandDupree",3.5);
temp1.put("TheNightListener",3.0);
cri.put("Gene",temp1);
}

publicstaticdoublegetSim(Map<String,HashMap<String,Double>>cri,Stringp1,Stringp2){
HashMap<String,Double>p1m=cri.get(p1);
HashMap<String,Double>p2m=cri.get(p2);

List<String>simBook=newArrayList<String>();
for(Map.Entry<String,Double>entry:p1m.entrySet()){
if(p2m.containsKey(entry.getKey())){
simBook.add(entry.getKey());
}
}
//判断相同元素的个数
if(simBook.size()==0){
return1;
}
//对所有偏好求和
doublesum1=0d,sum2=0d;
//求平方和
doublesum1Sq=0d,sum2Sq=0d;
//求乘积和
doublepSum=0d;
for(Strings:simBook){
sum1+=p1m.get(s);
sum2+=p2m.get(s);

sum1Sq+=Math.pow(p1m.get(s),2);
sum2Sq+=Math.pow(p2m.get(s),2);

pSum+=p1m.get(s)*p2m.get(s);
}

//计算皮尔逊评价值
doublenum=pSum-(sum1*sum2/simBook.size());
doubleden=Math.sqrt((sum1Sq-Math.pow(sum1,2)/simBook.size())*(sum2Sq-Math.pow(sum2,2)/simBook.size()));

if(den==0){
return0;
}

returnnum/den;
}

}

『贰』数据分析有什么思路

常见的分析方法有：分类分析，矩阵分析，漏斗分析，相关分析，逻辑树分析，趋势分析，行为轨迹分析，等等。我用HR的工作来举例，说明上面这些分析要怎么做，才能得出洞见。

01）分类分析
比如分成不同部门、不同岗位层级、不同年龄段，来分析人才流失率。比如发现某个部门流失率特别高，那么就可以去分析。

02）矩阵分析
比如公司有价值观和能力的考核，那么可以把考核结果做出矩阵图，能力强价值匹配的员工、能力强价值不匹配的员工、能力弱价值匹配的员工、能力弱价值不匹配的员工各占多少比例，从而发现公司的人才健康度。

03）漏斗分析
比如记录招聘数据，投递简历、通过初筛、通过一面、通过二面、通过终面、接下Offer、成功入职、通过试用期，这就是一个完整的招聘漏斗，从数据中，可以看到哪个环节还可以优化。

04）相关分析
比如公司各个分店的人才流失率差异较大，那么可以把各个分店的员工流失率，跟分店的一些特性（地理位置、薪酬水平、福利水平、员工年龄、管理人员年龄等）要素进行相关性分析，找到最能够挽留员工的关键因素。

05）逻辑树分析
比如近期发现员工的满意度有所降低，那么就进行拆解，满意度跟薪酬、福利、职业发展、工作氛围有关，然后薪酬分为基本薪资和奖金，这样层层拆解，找出满意度各个影响因素里面的变化因素，从而得出洞见。

06）趋势分析
比如人才流失率过去12个月的变化趋势。

07）行为轨迹分析
比如跟踪一个销售人员的行为轨迹，从入职、到开始产生业绩、到业绩快速增长、到疲惫期、到逐渐稳定。

『叁』协同过滤

协同过滤（Collaborative Filtering，CF）——经典/老牌
只用户行为数据得到。对于个用户，个物品，则有共现矩阵 :
对于有正负反馈的情况，如“赞”是1和“踩”是-1，无操作是0：

对于只有显示反馈，如点击是1，无操作是0：

算法步骤：
1）得到共现矩阵；
2）计算 任意两行 用户相似度，得到用户相似度矩阵；
3）针对某个用户选出与其最相似的个用户，是超参数；——召回阶段
4）基于这个用户，计算对每个物品的得分；
5）按照用户的物品得分进行排序，过滤已推荐的物品，推荐剩下得分最高的个。——排序阶段

第2步中，怎么计算用户相似度？——使用共现矩阵的行
以余弦相似度为标准，计算和之间的相似度：

第4步中，怎么每个用户对每个物品的得分？
假如和用户最相似的2个为和 :

对物品的评分为1，用户对物品的评分也为1，那么用户对的评分为：

也就是说：利用用户相似度对用户评分进行加权平均：

其中，为用户和用户之间的相似度，为用户和物品之间的相似度。

UserCF的缺点
1、现实中用户数远远大于物品数，所以维护用户相似度矩阵代价很大；
2、共现矩阵是很稀疏的，那么计算计算用户相似度的准确度很低。

算法步骤：
1）得到共现矩阵；
2）计算 任意两列 物品相似度，得到物品相似度矩阵；
3）对于有正负反馈的，获得用户正反馈的物品；
4）找出用户正反馈的物品最相似的个物品，组成相似物品集合；——召回阶段
5）利用相似度分值对相似物品集合进行排序，生产推荐列表。——排序阶段
最简单情况下一个物品（用户未接触的）只出现在另一个物品（用户已反馈的）的最相似集合中，那么每个用户对每个物品的得分就是相似度。如果一个物品和多个物品最相似怎么办？
如用户正反馈的是和，对于物品其最相似的是，相似度为0.7，对于物品其最相似的也是，相似度为0.6，那么相似度为：

也就是说：如果一个物品出现在多个物品的个最相似的物品集合中，那么该物品的相似度为多个相似度乘以对应评分的累加。

其中，是物品p与物品h的相似度，是用户u对物品p的评分。

第2步中，怎么计算物品相似度？——使用共现矩阵的列
以余弦相似度为标准，计算和之间的相似度：

余弦相似度
皮尔逊相关系数
基于皮尔逊相关系数的改进

UserCF适用于用户兴趣比较分散变换较快的场景，如新闻推荐。
IteamCF适用于用户情趣不叫稳定的场景，如电商推荐。

优点：直观，可解释性强。
缺点：

『肆』如何使用Spark ALS实现协同过滤

1.背景
协同过滤（collaborative filtering）是推荐系统常用的一种方法。cf的主要思想就是找出物品相似度高的归为一类进行推荐。cf又分为icf和ucf。icf指的是item collaborative filtering，是将商品进行分析推荐。同理ucf的u指的是user，他是找出知趣相似的人，进行推荐。通常来讲icf的准确率可能会高一些，通过这次参加天猫大数据比赛，我觉得只有在数据量非常庞大的时候才适合用cf，如果数据量很小，cf的准确率会非常可怜。博主在比赛s1阶段，大概只有几万条数据的时候，尝试了icf，准确率不到百分之一。。。。。
2.常用方法
cf的常用方法有三种，分别是欧式距离法、皮尔逊相关系数法、余弦相似度法。
测试矩阵,行表示三名用户，列表示三个品牌，对品牌的喜爱度按照1~5增加。
（1）欧氏距离法
就是计算每两个点的距离，比如Nike和Sony的相似度。数值越小，表示相似的越高。
[python] view plain print?在CODE上查看代码片派生到我的代码片
def OsDistance(vector1, vector2):
sqDiffVector = vector1-vector2
sqDiffVector=sqDiffVector**2
sqDistances = sqDiffVector.sum()
distance = sqDistances**0.5
return distance
（2）皮尔逊相关系数
两个变量之间的相关系数越高，从一个变量去预测另一个变量的精确度就越高，这是因为相关系数越高，就意味着这两个变量的共变部分越多，所以从其中一个变量的变化就可越多地获知另一个变量的变化。如果两个变量之间的相关系数为1或-1，那么你完全可由变量X去获知变量Y的值。
· 当相关系数为0时，X和Y两变量无关系。
· 当X的值增大，Y也增大，正相关关系，相关系数在0.00与1.00之间
· 当X的值减小，Y也减小，正相关关系，相关系数在0.00与1.00之间
· 当X的值增大，Y减小，负相关关系，相关系数在-1.00与0.00之间
当X的值减小，Y增大，负相关关系，相关系数在-1.00与0.00之间
相关系数的绝对值越大，相关性越强，相关系数越接近于1和-1，相关度越强，相关系数越接近于0，相关度越弱。
clip_image003
在Python中用函数corrcoef实现，具体方法见http//infosec.pku.e.cn/~lz/doc/Numpy_Example_List.htm
（3）余弦相似度
通过测量两个向量内积空间的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1，而其他任何角度的
余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两
个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相
反的方向时，余弦相似度的值为-1。在比较过程中，向量的规模大小不予考虑，仅仅考虑到向量的指向方向。余弦相
似度通常用于两个向量的夹角小于90°之内，因此余弦相似度的值为0到1之间。
\mathbf{a}\cdot\mathbf{b}=\left\|\mathbf{a}\right\|\left\|\mathbf{b}\right\|\cos\theta
[python] view plain print?在CODE上查看代码片派生到我的代码片
def cosSim(inA,inB):
num = float(inA.T*inB)
denom = la.norm(inA)*la.norm(inB)
return 0.5+0.5*(num/denom)

『伍』推荐算法综述

推荐系统的目的是通过推荐计算帮助用户从海量的数据对象中选择出用户最有可能感兴趣的对象。涉及三个基本内容:目标用户、待推荐项目以及推荐算法，基本流程为：描述为用户模型构建、项目模型建立以及推荐算法处理三个基本流程；

为了能够为用户提供准确的推荐服务，推荐系统需要为用户构建用户模型，该模型能够反映用户动态变化的多层次兴趣偏好，有助于推荐系统更好的理解用户的特征和需求。构建用户模型通常需要经历三个流程:用户数据收集，用户模型表示以及用户模型更新。

（1）用户数据收集：用户数据是用户模型构建的基础，用户数据收集的方式一般有显示方式获取和隐式方式获取两种。
显示方式获取的数据是用户特征属性和兴趣偏好的直接反映，所获得的信息数据是较为客观全面的，比如用户在注册时包含的性别、年龄等信息可以直接表示出用户的基本人口学信息和兴趣信息，用户对项目的评分可以反映出用户的偏好。但显示获取的方式最大的缺陷是其实时性较差，并且具有很强的侵袭性。
隐式方式获取用户数据是在不干扰用户的前提下，采集用户的操作行为数据，并从中挖掘出用户的兴趣偏好。用户的很多操作行为都能反映出用户的喜好，比如用户浏览网页的速度、用户查询的关键字等，推荐系统在不影响用户使用系统的情况下，通过行为日志挖掘出用户的偏好。隐式获取方式由于具有较好的实时性和灵活性和较弱的侵袭性，己经成为推荐系统中主要的用户数据采集方式。

（2）用户模型表示：用户模型是从用户数据中归纳出的推荐系统所理解的用户兴趣偏好的结构化形式。
a 基于内容关键词表示；
b 基于评分矩阵表示；
（3）用户模型更新：推荐系统面临的问题之一是兴趣漂移，兴趣漂移的根本原因在于用户的兴趣会随时间发生改变。为了使用户模型够准确的代表用户的兴趣，推荐系统需要根据最新的用户数据对用户模型进行更新。

目前项目模型主要通过基于内容和基于分类这两类方式来建立。基于内容的方式是以项目本身内容为基础，向量空间模型表示是目前御用最为广泛的基于内容的方式。

基于分类的方式是根据项目的内容或者属性，将项目划分到一个或者几个类别中，利用类别信息来表示项目，这种方法可以很方便地将项目推荐给对某一类别感兴趣的用户。常见的分类算法有朴素贝叶斯算法和KNN分类算法等。

推荐系统实现的核心是其使用的推荐算法。针对不同的使用环境及其系统的数据特征，选取不同的推荐算法，可以在本质上提高推荐系统的推荐效果。根据不同的分类标准，推荐算法出现了有很多不同的分类方法，本文采用了比较普遍的分类方法。

推荐系统通常被分为基于内容的推荐算法、协同过滤推荐算法以及混合模型推荐算法三大类。

基于内容的推荐算法，其本质是对物品或用户的内容进行分析建立属性特征。系统根据其属性特征，为用户推荐与其感兴趣的属性特征相似的信息。算法的主要思想是将与用户之前感兴趣的项目的内容相似的其他项目推荐给用户。

CBF（Content-based Filter Recommendations）算法的主要思想是将与用户之前感兴趣的项目的内容相似的其他项目推荐给用户，比如用户喜欢Java开发的书籍，则基于内容过滤算法将用户尚未看过的其他Java开发方面的书籍推荐给用户。因此，该推荐算法的关键部分是计算用户模型和项目模型之间的内容相似度，相似度的计算通常采用余弦相似性度量。

基于内容的推荐过程一般分为以下三个模块:
（1）特征提取模块:由于大多数物品信息是非结构化的，需要为每个物品(如产品、网页、新闻、文档等)抽取出一些特征属性，用某一恰当的格式表示，以便下一阶段的处理。如将新闻信息表示成关键词向量，此种表示形式将作为下一模块(属性特征学习模块)的输入。

（2）特征学习模块:通过用户的历史行为数据特征，机器学习出用户的兴趣特征模型。本模块负责收集代表用户喜好的数据信息，并泛化这些数据，用于构建用户特征模型。通常使用机器学习的泛化策略，来将用户喜好表示为兴趣模型。

（3）推荐模块:该模块利用上一阶段得到的用户特征模型，通过对比用户兴趣模型与带推荐物品的特征相似度，为用户推荐与其兴趣相似度较高的物品，从而达到个性化推荐的目的。该模块一般采用计算用户兴趣向量与待推荐物品特征向量的相似度来进行排序，将相似度较高的物品推荐给相应用户。计算相似度有多种方法，如皮尔逊相关系数法、夹角余弦法、Jaccard相关系数法等。

协同过滤算法（Collaborative Filtering）是于内容无关的，即不需要额外获取分析用户或物品的内容属性特征。是基于用户历史行为数据进行推荐的算法。其通过分析用户与物品间的联系来寻找新的用户与物品间的相关性。

该算法算法通常有两个过程，一个过程是预测，另一个过程是推荐。主流的协同过滤算法包括三种:基于用户的协同过滤(User-Based Collaborative Filtering,UBCF)、基于项目的协同过滤(Item-Based Collaborative Filtering, IBCF)和基于模型的协同过滤(Model-Based Collaborative Filtering, MBCF)

（1）基于用户的协同过滤算法
基于用户的协同过滤推荐算法，先通过用户历史行为数据找到和用户u相似的用户，将这些用户感兴趣的且u没有点击过的物品推荐给用户。
算法主要包括以下两个步骤:
(1)找到与目标用户喜好相似的邻居用户集合。
(2)在邻居用户集合中，为用户推荐其感兴趣的物品。

UBCF的基本思想是将与当前用户有相同偏好的其他用户所喜欢的项目推荐给当前用户。一个最典型的例子就是电影推荐，当我们不知道哪一部电影是我们比较喜欢的时候，通常会询问身边的朋友是否有好的电影推荐，询问的时候我们习惯于寻找和我们品味相同或相似的朋友。

（2）基于物品的协同过滤算法
基于物品的协同过滤算法(Item-based Collaborative Filtering)其主要思想是，为用户推荐那些与他们之前喜欢或点击过的物品相似的物品。不过基于物品的协同过滤算法并不是利用物品的内容属性特征来计算物品之间的相似度的。该类算法是利用用户的历史行为数据计算待推荐物品之间的相似度。在该类算法中，如果喜欢物品A的用户大都也喜欢物品B，那么就可以认为物品A和物品B之间的相似度很高。
算法分为以下两个步骤:
(1)根据用户历史行为数据，计算物品间的相似度。
(2)利用用户行为和物品间的相似度为用户生成推荐列表。

IBCF算法是亚马逊在2003年发表的论文中首次提出，该算法的基本思想是根据所有用户的历史偏好数据计算项目之间的相似性，然后把和用户喜欢的项目相类似的并且用户还未选择的其他项目推荐给用户，例如，假设用户喜欢项目a，则用户喜欢与项目a高度相似且还未被用户选择的项目b的可能性非常大，因此将项目b推荐给用户。

UBCF和IBCF都属于基于内存的协同过滤算法，这类算法由于充分发挥了用户的评分数据，形成全局推荐，因此具有较高的推荐质量。但随着用户和项目的规模增长，这类算法的计算时间大幅上升，使得系统的性能下降。针对该问题，研究人员提出将数据挖掘中的模型和CF算法结合，提出了基于模型的协同过滤算法(MBCF) 。

MBCF算法利用用户历史评分数据建立模型，模型建立的算法通常有奇异值分解、聚类算法、贝叶斯网络、关联规则挖掘等，且通常是离线完成。由于MBCF通常会对原始评分值做近似计算，通过牺牲一定的准确性来换取系统性能，因此MBCF的推荐质量略差于UBCF和IBCF。

由于基于内容的推荐算法和协同过滤推荐算法都有其各自的局限性，混合推荐算法应运而生。混合推荐算法根据不同的应用场景，有多
种不同的结合方式，如加权、分层和分区等。

目前使用的混合推荐算法的思想主要可以分成以下几类:
（1）多个推荐算法独立运行，获取的多个推荐结果以一定的策略进行混合，例如为每一个推荐结果都赋予一个权值的加权型混合推荐算法和将各个推荐结果取TOP-N的交叉混合推荐算法。

（2）将前一个推荐方法产出的中间结果或者最终结果输出给后一个推荐方法，层层递进，推荐结果在此过程中会被逐步优选，最终得到一个精确度比较高的结果。

（3）使用多种推荐算法，将每种推荐算法计算过程中产生的相似度值通过权重相加，调整每个推荐算法相似度值的权重，以该混合相似度值为基础，选择出邻域集合，并结合邻域集合中的评估信息，得出最优的推荐结果。

BP (Back Propagation)神经网络是目前应用最广泛的神经网络模型之一，是一种按误差逆传播算法训练的多层前馈网络。

BP神经网络模型包括输入层、隐藏层和输出层，每一层由一个或多个神经元组成，其结构图如图2-3所示。BP神经网络拥有很强的非线性映射能力和自学习、自适应能力，网络本身结构的可变性，也使其十分灵活，一个三层的BP神经网络能够实现对任意非线性函数进行逼近。

BP神经网络的训练过程通常分为3个过程，依次分别为数据初始化过程、正向推演计算过程以及反向权重调整过程。数据初始化是BP神经网络能够进行有效训练的前提，该过程通常包括输入数据进行归一化处理和初始权重的设置；正向推演计算是数据沿着网络方向进行推演计算;反向权重调整则是将期望输出和网络的实际输出进行对比，从输出层开始，向着输入层的方向逐层计算各层中各神经元的校正差值，调整神经元的权重。正向推演计算和反向权重调整为对单个训练样本一次完整的网络训练过程，经过不断的训练调整，网络的实际输出越来越趋近于期望输出，当网络输出到达预期目标，整个训练过程结束。

TF-IDF(Term Frequency-Inverse Document Frequency，词频一逆文档)是文本处理中常用的加权技术，广泛应用于信息检索、搜索引擎等领域。
TF-IDF的主要思想是:如果一个关键词在文档中出现的频率很高，而在其他文档中出现次数较少，则该关键词被认为具有较强的代表性，即该关键词通过TF-IDF计算后有较高的权重。

TextRank算法，是一种用于文本关键词排序的算法，页排序算法PageRank。
PageRank基本思想是将每个网页看成一个节点，网页中的链接指向看成一条有向边，一个网页节点的重要程度取决于链接指向该网页节点的其他节点的数量和重要权值，该过程描述如下:让每一个网页对其所包含的链接指向的网页进行迭代投票，每次迭代投票过程中票的权重取决于网页当前拥有的票数，当投票结果收敛或者达到指定的迭代次数时，每个网页所获得票数即为网页重要程度权值。

TextRank算法相比于TF-IDF最大的优点是TextRank是一种无监督的学习，因此不会受限于文本的主题，并且无需大规模的训练集，可以针对单一文本进行快速的关键词的权重计算。

『陆』相似度的计算用哪个算法协同过滤算法

SIM = Structural SIMilarity（结构相似性），这是一种用来评测图像质量的一种方法。由于人类视觉很容易从图像中抽取出结构信息,因此计算两幅图像结构信息的相似性就可以用来作为一种检测图像质量的好坏.

首先结构信息不应该受到照明的影响,因此在计算结构信息时需要去掉亮度信息,即需要减掉图像的均值;其次结构信息不应该受到图像对比度的影响,因此计算结构信息时需要归一化图像的方差;最后我们就可以对图像求取结构信息了,通常我们可以简单地计算一下这两幅处理后的图像的相关系数.

然而图像质量的好坏也受到亮度信息和对比度信息的制约,因此在计算图像质量好坏时,在考虑结构信息的同时也需要考虑这两者的影响.通常使用的计算方法如下,其中C1,C2,C3用来增加计算结果的稳定性:
2u(x)u(y) + C1
L(X,Y) = ------------------------ ,u(x), u(y)为图像的均值
u(x)^2 + u(y)^2 + C1

2d(x)d(y) + C2
C(X,Y) = ------------------------,d(x),d(y)为图像的方差
d(x)^2 + d(y)^2 + C2

d(x,y) + C3
S(X,Y) = ----------------------,d(x,y)为图像x,y的协方差
d(x)d(y) + C3

而图像质量Q = [L(X,Y)^a] x [C(X,Y)^b] x [S(X,Y)^c]，其中a，b，c分别用来控制三个要素的重要性，为了计算方便可以均选择为1，C1，C2，C3为比较小的数值，通常C1=(K1 x L)^2, C2=(K2 xL)^2, C3 = C2/2, K1

『柒』基于协同过滤的推荐算法

协同过滤推荐算法是最经典的推荐算法，它的算法思想为 物以类聚，人以群分 ，基本的协同过滤算法基于以下的假设：

实现协同过滤的步骤：
1). 找到相似的Top-N个人或者物品 ：计算两两的相似度并进行排序
2). 根据相似的人或物品产生推荐结果 ：利用Top-N生成初始推荐结果，然后过滤掉用户已经有过记录或者明确表示不喜欢的物品

那么，如何计算相似度呢？

根据数据类型的不同，相似度的计算方式也不同，数据类型有：

一般的，相似度计算有 杰卡德相似度、余弦相似度、皮尔逊相关系数

在协同过滤推荐算法中，我们更多的是利用用户对物品的评分数据集，预测用户对没有评分过的物品的评分结果。

用户-物品的评分矩阵，根据评分矩阵的稀疏程度会有不同的解决方案。

目的：预测用户1对于物品E的评分

步骤分析：

实现过程

用户之间的两两相似度：

物品之间的两两相似度：

『捌』推荐算法的基于协同过滤的推荐

基于协同过滤的推荐算法理论上可以推荐世界上的任何一种东西。图片、音乐、样样可以。协同过滤算法主要是通过对未评分项进行评分预测来实现的。不同的协同过滤之间也有很大的不同。
基于用户的协同过滤算法: 基于一个这样的假设“跟你喜好相似的人喜欢的东西你也很有可能喜欢。”所以基于用户的协同过滤主要的任务就是找出用户的最近邻居，从而根据最近邻居的喜好做出未知项的评分预测。这种算法主要分为3个步骤：
一，用户评分。可以分为显性评分和隐形评分两种。显性评分就是直接给项目评分（例如给网络里的用户评分），隐形评分就是通过评价或是购买的行为给项目评分（例如在有啊购买了什么东西）。
二，寻找最近邻居。这一步就是寻找与你距离最近的用户，测算距离一般采用以下三种算法：1.皮尔森相关系数。2.余弦相似性。3调整余弦相似性。调整余弦相似性似乎效果会好一些。
三，推荐。产生了最近邻居集合后，就根据这个集合对未知项进行评分预测。把评分最高的N个项推荐给用户。这种算法存在性能上的瓶颈，当用户数越来越多的时候，寻找最近邻居的复杂度也会大幅度的增长。
因而这种算法无法满足及时推荐的要求。基于项的协同过滤解决了这个问题。基于项的协同过滤算法根基于用户的算法相似，只不过第二步改为计算项之间的相似度。由于项之间的相似度比较稳定可以在线下进行，所以解决了基于用户的协同过滤算法存在的性能瓶颈。

『玖』协同过滤与分类

[TOC]

本文是《写给程序员的数据挖掘实践指南》的一周性笔记总结。主要涵盖了以下内容：

所谓推荐系统就是系统根据你的行为操作为你推荐你可能想要的其他物品。这在电商平台、音乐平台、资讯推送平台等多有见到。而协同过滤简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息，个人通过合作的机制给予信息相当程度的回应（如评分）并记录下来以达到过滤的目的进而帮助别人筛选信息。其推荐基础是用户评分。这里可以分为两种用户评分，即显式评分与隐式评分。显式评分即日常见到的为物品打分，如对喜好音乐评级等；隐式评分是通过对用户行为的持续性观察，进而发现用户偏好的一种方法，如新闻网页中的推送你经常阅读过的相关内容等。两种评分方法都有自己的问题。

总体来说，协同过滤其运作机制也可以分为两种：

基于用户的推荐是指通过用户的行为偏好，划分相似用户。在相似用户群体之间互相推送一方喜欢而另一方未有过的物品。核心在于相似用户群体的划分。这种推荐方法有自己的局限：

基于用户的过滤其核心是用户群体的划分，其实也就是分类。

这里的距离函数包括三种：曼哈顿距离和欧氏距离。这里以二维举例，更多维情况下类推即可。

两距离函数可以一般化为：

其中，当r=1时，函数为曼哈顿距离；当r=2时，函数为欧氏距离。

算法实现：

在算出距离函数后，通过比对目标用户与所有用户群体的偏好，找到最近邻的用户并给予推荐。

基于用户距离的推荐有一个明显的问题，就是用户评分体系的差异。比如评分极端的用户给喜欢的评最高分，给不喜欢的评最低分；而有些用户倾向于不出现极端评分。即所谓“分数贬值”( Grade Inflation )问题。这种问题的存在可能让基于距离的评分产生偏差。皮尔逊相关系数可以缓解这种问题。

原皮尔逊相关系数公式在实际运用的时候会出现多次迭代的问题，影响计算效率，这里给出了近似公式：

皮尔逊相关系数的用户判断依据不是单纯的用户距离，而是用户的评分一致性：取值在[-1, 1]之间，越接近1则表示两用户的评分一致性越好；反之则反。
python实现：

基于用户推荐的过程中，另一个存在的问题就是由于大部分人的喜爱物品集合的交集过少，存在大量计算值为0的feature的情况。即所谓 稀疏性 问题。一个较容易理解的例子是对书本内容的挖掘。余弦相似度会忽略这种0-0匹配。
余弦相似度：

python实现：

如此多的评估系数，如何进行抉择呢？根据数据特征：

另外值得考虑的一点是，目前为止的推荐都是基于单用户的。即对一个用户的推荐系统只是基于另一个用户。这会存在一些问题。比如虽然虽然两者相似度很高，但是另外一个人有一些怪癖，怪癖的推荐就是不合理的；又比如，在相似度极高的情况下，你不能确定统一账户下的操作是同一个人做出的或者说操作行为是为了用户自身。比如用户考虑购买某件商品作为礼物送给别人，这就是基于别人喜好的购买行为，这种推荐也是不合适的。
对这种问题的解决可以使用群体划分的方法。原理与单用户类似，但是用户的匹配是k个。在这k位最优匹配的用户之间，以相似度的大小为依据设定权重作为物品推荐的条件。此即协同过滤的k近邻。

正如前面提到的基于用户的推荐有复杂度、稀疏性的问题，而基于物品的过滤则可以缓解这些问题。所谓基于物品的过滤是指，我们事先找到最相似的物品，并结合用户对物品的评级结果来生成推荐。前提是要对物品进行相似度匹配，找到一种算法。

这里的调整是指为了减轻用户评分体系的不一致情况（抵消分数贬值），从每个评级结果中减去该用户所有物品的平均分的评级结果。

其中，U表示所有同时对i， j进行评级过的用户的集合。表示用户u给物品i的评分减去用户u对所有物品的评分的平均值。

在得到所有物品的余弦相似度后，我们就可以通过该指数预测用户对某件物品的偏好程度。方法就是所有相似物品的相似度乘以得分的总和。

其中p（u, i）指的是用户u对物品i评分的预测值。N是用户u的所有评级物品中每个和i得分相似的物品。这里的相似指的是矩阵中存在N和i的一个相似度得分。是i和N之间的相似度得分。是u给N的评级结果。公式较好运行的条件是取值在（-1， 1）之间，这里就要使用归一化概念。

另一种常用的基于物品过滤的算法就是 slope one 算法。它的大概原理是预测用户u对产品j的评分时，预先计算包含所有物品的两物品偏差表；根据u的已评价的所有物品评分与该物品和产品j的偏差（）之和并乘以所有对此两类物品有过评分的用户个数，一一加总，除以所有同时对产品i与u评价过的所有物品有过评分的用户的人数，得到得分。公式如下：

其中，；是利用加权s1算法给出的用户u对物品j的预测值。指的是对所有除j之外u打过分的物品。

python实现：

在前面两节中，基于物品和基于用户的过滤其前提都是用户需要对已有的item进行评分。而实际上，如果一个新的item出现，由于缺乏别人的偏好，他永远不会被推荐。这就是推荐系统中所谓的—— 冷启动 问题。基于用户评价的系统就会出现这种问题。
冷启动 问题的解决方案之一就是 基于物品属性的过滤 来进行推荐：对物品自身的属性进行归纳总结，并以此进行物品推荐。基于物品属性的过滤存在一个问题同样是量纲的不统一。如果量纲不统一极端值将会对推荐系统造成大麻烦。解决方法也很简单：归一化。此章使用的是z-评分。
使用z得分也存在问题，就是极易受到离群值的影响。这里可以使用 改进的标准分数 来缓解这个问题：

什么时候可以进行归一化呢？

这里用曼哈顿距离举例基于物品属性的过滤：

在上一章最后一节对于用户是否喜欢某件item的判别中，实际上包含了分类器的思想：分类器就是利用对象属性判定对象属于哪个组或类别的程序。这里简单用另一个小项目来说明。

简单来说就是根据运动员的某些指标来判断这位运动员属于什么类别的运动员。

准确率有0.8。

『拾』基于用户、基于项目和SVD的协同过滤Python代码

目前主要有三种度量用户间相似性的方法，分别是:余弦相似性、相关相专似性以及修正的属余弦相似性。①余弦相似性(Cosine)：用户一项目评分矩阵可以看作是n维空间上的向量，对于没有评分的项目将评分值设为0，余弦相似性度量方法是通过计算向量间的余弦夹角来度量用户间相似性的。设向量i和j分别表示用户i和用户j在n维空间上的评分，则用基于协同过滤的电子商务个性化推荐算法研究户i和用户j之间的相似性为:②修正的余弦相似性 (AdjustedCosine)：余弦相似度未考虑到用户评分尺度问题，如在评分区间[1一5]的情况下，对用户甲来说评分3以上就是自己喜欢的，而对于用户乙，评分4以上才是自己喜欢的。通过减去用户对项的平均评分，修正的余弦相似性度量方法改善了以上问题。用几表示用户i和用户j共同评分过的项集合，Ii和寿分别表示用户i和用户j评分过的项集合，则用户i和用户j之间的相似性为：③相关相似性(Correlation)此方法是采用皮尔森(Pearson)相关系数来进行度量。设Iij表示用户i和用户j共同评分过的项目集合，则用户i和用户j之间相似性为:

导航:首页 > 净水问答 > 协同过滤相关系数

协同过滤相关系数

与协同过滤相关系数相关的资料