kmeans协同过滤_协同过滤与分类

⑴ 利用 SVD 实现协同过滤推荐算法

奇异值分解(Singular Value Decomposition，以下简称SVD)
是在机器学习领域广泛应用的算法，它不光可以用于 降维算法中的特征分解 ，还可以用于 推荐系统 ，以及自然语言处理等领域。

优点： 简化数据，去除噪声，提高算法的结果。
缺点： 数据的转换可能难以理解。

应用领域： 推荐引擎（协同过滤、相似度计算）、图像压缩等。

SVD定义： 如果我们求出了矩阵A的n个特征值λ1≤λ2≤...≤λn，以及这n个特征值所对应的特征向量{w1,w2,...wn}，如果这n个特征向量线性无关，那么矩阵A就可以用下式的特征分解表示：A=WΣW−1，其中W是这n个特征向量所张成的n×n维矩阵，而Σ为这n个特征值为主对角线的n×n维矩阵。一般我们会把W的这n个特征向量标准化，即满足||wi||2=1, 或者wiTwi=1，此时W的n个特征向量为标准正交基，满WTW=I，即WT=W−1, 也就是说W为酉矩阵。要进行特征分解，矩阵A必须为方阵。那么如果A不是方阵，则用到SVD。

矩阵A的SVD为：A=UΣVT，其中U是一个m×m的矩阵，Σ是一个m×n的矩阵，除了主对角线上的元素以外全为0，主对角线上的每个元素都称为奇异值，V是一个n×n的矩阵。U和V都是酉矩阵，即满足UTU=I,VTV=I。

对于奇异值,它跟我们特征分解中的特征值类似，在奇异值矩阵中也是按照从大到小排列，而且奇异值的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上的比例。也就是说，我们也可以用最大的k个的奇异值和对应的左右奇异向量来近似描述矩阵。

因此SVD 也是一种强大的降维工具 ，可以利用 SVD 来逼近矩阵并从中获得主要的特征。通过保留矩阵的 80%~90% 的能量，就可以得到重用的特征并去除噪声。

推荐系统 是利用电子商务网站向客户提供商品信息和建议，帮助用户决定应该购买什么产品，模拟销售人员帮助客户完成购买过程。
主要有以下几种推荐算法：
基于内容的推荐（用到自然语言处理）， 协同过滤（主流） ，基于规则推荐（基于最多用户点击，最多用户浏览等），混合推荐（类似集成算法，投票决定），基于人口统计信息的推荐（根据用户基本信息）

协同过滤推荐分为三种类型。 第一种是基于用户(user-based)的协同过滤（需要在线找用户和用户之间的相似度关系），第二种是基于项目(item-based)的协同过滤（基于项目的协同过滤可以离线找物品和物品之间的相似度关系）， 第三种是基于模型(model based)的协同过滤（用户和物品，主流）。

一般在推荐系统中，数据往往是使用用户-物品矩阵来表示的。 用户对其接触过的物品进行评分，评分表示了用户对于物品的喜爱程度，分数越高，表示用户越喜欢这个物品。而这个矩阵往往是稀疏的，空白项是用户还未接触到的物品，推荐系统的任务则是选择其中的部分物品推荐给用户。

对于这个用户-物品矩阵，用已有的部分稀疏数据来预测那些空白的物品和数据之间的评分关系，找到最高评分的物品推荐给用户。

具体基于模型的方法有：
用关联算法做协同过滤（Apriori算法、FP Tree算法）
用聚类算法做协同过滤（针对基于用户或者基于模型，Kmeans，DBSCAN）
用分类算法做协同过滤（设定评分阈值，高于推荐，低于不推荐，逻辑回归和朴素贝叶斯，解释性很强）
用回归算法做协同过滤（Ridge回归，回归树）
用矩阵分解做协同过滤（由于传统的奇异值分解SVD要求矩阵不能有缺失数据，必须是稠密的，而用户物品评分矩阵是一个典型的稀疏矩阵，主要是SVD的一些变种，比如FunkSVD，BiasSVD和SVD++。这些算法和传统SVD的最大区别是不再要求将矩阵分解为UΣVT的形式，而变是两个低秩矩阵PTQ的乘积形式。）
用神经网络做协同过滤（限制玻尔兹曼机RBM）

在 Python 的 numpy 中，linalg已经实现了SVD

⑵ k近邻协同过滤和协同过滤算法的区别

协同过滤算法

协同过滤(Collaborative filtering, CF)算法是目前个性化推荐系统比较流行的算法之一。

协同算法分为两个基本算法：基于用户的协同过滤（UserCF）和基于项目的协同过滤（ItemCF）。

最近这段时间，多数人都选择使用被称为个性化协同推荐（Personalized Collaborative Recommender）的算法。这也是亚马逊、Netflix、Facebook 的好友推荐，以及一家英国流行音乐网站 Last.fm 的核心算法。说它 “个性化”，是因为这种算法会追踪用户的每一个行为（如浏览过的页面、订单记录和商品评分），以此进行推荐；它们可不是瞎猫碰上死耗子——全凭运气。说它 “协同”，则是因为这种算法会根据许多其他的顾客也购买了这些商品或者对其显示出好感，而将两样物品视为彼此关联，它不是通过分析商品特征或者关键词来进行判断的。

⑶ K-Means原理总结

K-means是聚类中的一个经典方法。其中的原理和思想实在是巧妙到爆炸💥。接下来让我来给大家展示来自1967年的算法的智慧。

问题引出：如下图所示，我们想要自动的聚类，肉眼一看是5类。那么我们随机生成5个点，它们最终将会成为聚类后每个类的中心点。由于是随机初始化的5个点，所以它们的位置刚开始大概率不在每个类的中心点上，不过没关系，我们可以慢慢调整。

过程描述：如上图所示生成的5个点，它们最终会成为每个类的中心点，此时此刻，每个点有着自己的领域范围。比如最上面的那个点1，它想要成为一个类的中心点，这个类此时此刻都包含哪些点呢，答案当然是到它的距离比到其他中心点距离更近的所有样本点。那么接下来，哪些点符合条件呢?由于每个中心点它都想要控制尽可能多的点，并且得合理。那最上面那个中心点1想要控制位于它自己下面的一些样本点，会有哪些中心点在跟它竞争呢? 答案是中间左右两个点2和3，注意最下面两个中心点4和5参与不到竞争了。所以我们做出两条垂直平分线a,b。a是连线点1，2的垂直平分线，b是连线点1，3的垂直平分线。垂直平分线有什么性质啊? 位于线上的点到两端的距离相等，位于线一侧的点到该侧端点距离更小。所以！位于垂直平分线a,b上面的所有样本点暂时归中心点的领域，注意此时点1并未是该领域样本点的中心，我们应该更新点1的位置，把它挪到领域的中心。因为三角形三条边的垂直平分线会交于一点（先画出两条交于一点，再从该点向另一个边做垂线，证明该垂线与边的交点为中点即可）所以5个中心点互相竞争划分领域会呈现出如上并不杂乱的界限。我们更新5个中心点的位置，再次重新竞争领域，再更新位置。。。直到中心点的位置不动了，聚类完毕。

原理中一直贯穿着中心的概念，这就是means的含义。接下来我们来分析一下K-means的优缺点。

1.对分布类似球型的数据效果很好。为什么？试想长条带状的末端有一小簇。

............................................. 。

............................................. 。

如果刚开始随机的中心点一左一右刚刚好，开始竞争，显然...这些右侧的..离。。。的中心点更近，按规则应该归它领域，然后再更新。这样就不符合人的直觉了。

2.收敛的很快，中心点更新个几次后就不咋动了。

3.相对高效并且易估计复杂度O(k·t·n)，t是迭代次数一般几次就可以完成，k是中心点个数，簇的个数，不会很大。n是数据点的个数，可能会很大。

1.K值不好估计，不能预先去判断。

2.可能会因为初始点随机的不好，会收敛到一个奇怪的结果。如下图。

⑷ 协同过滤与分类

[TOC]

本文是《写给程序员的数据挖掘实践指南》的一周性笔记总结。主要涵盖了以下内容：

所谓推荐系统就是系统根据你的行为操作为你推荐你可能想要的其他物品。这在电商平台、音乐平台、资讯推送平台等多有见到。而协同过滤简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息，个人通过合作的机制给予信息相当程度的回应（如评分）并记录下来以达到过滤的目的进而帮助别人筛选信息。其推荐基础是用户评分。这里可以分为两种用户评分，即显式评分与隐式评分。显式评分即日常见到的为物品打分，如对喜好音乐评级等；隐式评分是通过对用户行为的持续性观察，进而发现用户偏好的一种方法，如新闻网页中的推送你经常阅读过的相关内容等。两种评分方法都有自己的问题。

总体来说，协同过滤其运作机制也可以分为两种：

基于用户的推荐是指通过用户的行为偏好，划分相似用户。在相似用户群体之间互相推送一方喜欢而另一方未有过的物品。核心在于相似用户群体的划分。这种推荐方法有自己的局限：

基于用户的过滤其核心是用户群体的划分，其实也就是分类。

这里的距离函数包括三种：曼哈顿距离和欧氏距离。这里以二维举例，更多维情况下类推即可。

两距离函数可以一般化为：

其中，当r=1时，函数为曼哈顿距离；当r=2时，函数为欧氏距离。

算法实现：

在算出距离函数后，通过比对目标用户与所有用户群体的偏好，找到最近邻的用户并给予推荐。

基于用户距离的推荐有一个明显的问题，就是用户评分体系的差异。比如评分极端的用户给喜欢的评最高分，给不喜欢的评最低分；而有些用户倾向于不出现极端评分。即所谓“分数贬值”( Grade Inflation )问题。这种问题的存在可能让基于距离的评分产生偏差。皮尔逊相关系数可以缓解这种问题。

原皮尔逊相关系数公式在实际运用的时候会出现多次迭代的问题，影响计算效率，这里给出了近似公式：

皮尔逊相关系数的用户判断依据不是单纯的用户距离，而是用户的评分一致性：取值在[-1, 1]之间，越接近1则表示两用户的评分一致性越好；反之则反。
python实现：

基于用户推荐的过程中，另一个存在的问题就是由于大部分人的喜爱物品集合的交集过少，存在大量计算值为0的feature的情况。即所谓 稀疏性 问题。一个较容易理解的例子是对书本内容的挖掘。余弦相似度会忽略这种0-0匹配。
余弦相似度：

python实现：

如此多的评估系数，如何进行抉择呢？根据数据特征：

另外值得考虑的一点是，目前为止的推荐都是基于单用户的。即对一个用户的推荐系统只是基于另一个用户。这会存在一些问题。比如虽然虽然两者相似度很高，但是另外一个人有一些怪癖，怪癖的推荐就是不合理的；又比如，在相似度极高的情况下，你不能确定统一账户下的操作是同一个人做出的或者说操作行为是为了用户自身。比如用户考虑购买某件商品作为礼物送给别人，这就是基于别人喜好的购买行为，这种推荐也是不合适的。
对这种问题的解决可以使用群体划分的方法。原理与单用户类似，但是用户的匹配是k个。在这k位最优匹配的用户之间，以相似度的大小为依据设定权重作为物品推荐的条件。此即协同过滤的k近邻。

正如前面提到的基于用户的推荐有复杂度、稀疏性的问题，而基于物品的过滤则可以缓解这些问题。所谓基于物品的过滤是指，我们事先找到最相似的物品，并结合用户对物品的评级结果来生成推荐。前提是要对物品进行相似度匹配，找到一种算法。

这里的调整是指为了减轻用户评分体系的不一致情况（抵消分数贬值），从每个评级结果中减去该用户所有物品的平均分的评级结果。

其中，U表示所有同时对i， j进行评级过的用户的集合。表示用户u给物品i的评分减去用户u对所有物品的评分的平均值。

在得到所有物品的余弦相似度后，我们就可以通过该指数预测用户对某件物品的偏好程度。方法就是所有相似物品的相似度乘以得分的总和。

其中p（u, i）指的是用户u对物品i评分的预测值。N是用户u的所有评级物品中每个和i得分相似的物品。这里的相似指的是矩阵中存在N和i的一个相似度得分。是i和N之间的相似度得分。是u给N的评级结果。公式较好运行的条件是取值在（-1， 1）之间，这里就要使用归一化概念。

另一种常用的基于物品过滤的算法就是 slope one 算法。它的大概原理是预测用户u对产品j的评分时，预先计算包含所有物品的两物品偏差表；根据u的已评价的所有物品评分与该物品和产品j的偏差（）之和并乘以所有对此两类物品有过评分的用户个数，一一加总，除以所有同时对产品i与u评价过的所有物品有过评分的用户的人数，得到得分。公式如下：

其中，；是利用加权s1算法给出的用户u对物品j的预测值。指的是对所有除j之外u打过分的物品。

python实现：

在前面两节中，基于物品和基于用户的过滤其前提都是用户需要对已有的item进行评分。而实际上，如果一个新的item出现，由于缺乏别人的偏好，他永远不会被推荐。这就是推荐系统中所谓的—— 冷启动 问题。基于用户评价的系统就会出现这种问题。
冷启动 问题的解决方案之一就是 基于物品属性的过滤 来进行推荐：对物品自身的属性进行归纳总结，并以此进行物品推荐。基于物品属性的过滤存在一个问题同样是量纲的不统一。如果量纲不统一极端值将会对推荐系统造成大麻烦。解决方法也很简单：归一化。此章使用的是z-评分。
使用z得分也存在问题，就是极易受到离群值的影响。这里可以使用 改进的标准分数 来缓解这个问题：

什么时候可以进行归一化呢？

这里用曼哈顿距离举例基于物品属性的过滤：

在上一章最后一节对于用户是否喜欢某件item的判别中，实际上包含了分类器的思想：分类器就是利用对象属性判定对象属于哪个组或类别的程序。这里简单用另一个小项目来说明。

简单来说就是根据运动员的某些指标来判断这位运动员属于什么类别的运动员。

准确率有0.8。

⑸ k-means对数据去噪的原理

k-means对数据去噪的原理如下：
1、首先在数据当中随机生成k个聚类中心，后计算数据当中每个样本到这k个聚类中心的距离，并将对应的样本分到距离最小的聚类中心所对应的簇当中。
2、将所有样本归类之后，对于每一个k个簇重新计算每个簇的聚类中心，也就是每个簇中的所有样本的质心，重复上述操作，直到k-means对数据去噪为止。

⑹ 如何在Hadoop平台上实现K-means算法

一、介绍Mahout
Mahout是Apache下的开源机器学习软件包，目前实现的机器学习算法主要包含有协同过滤/推荐引擎，聚类和分类三个部分。Mahout从设计开始就旨在建立可扩展的机器学习软件包，用于处理大数据机器学习的问题，当你正在研究的数据量大到不能在一台机器上运行时，就可以选择使用Mahout，让你的数据在Hadoop集群的进行分析。Mahout某些部分的实现直接创建在Hadoop之上，这就使得其具有进行大数据处理的能力，也是Mahout最大的优势所在。相比较于Weka，RapidMiner等图形化的机器学习软件，Mahout只提供机器学习的程序包（library），不提供用户图形界面，并且Mahout并不包含所有的机器学习算法实现，这一点可以算得上是她的一个劣势，但前面提到过Mahout并不是“又一个机器学习软件”，而是要成为一个“可扩展的用于处理大数据的机器学习软件”，但是我相信会有越来越多的机器学习算法会在Mahout上面实现。[1]

二、介绍K-Means
这是Apache官网上的算法描述，简单来说就是基于划分的聚类算法，把n个对象分为k个簇，以使簇内具有较高的相似度。相似度的计算根据一个簇中对象的平均值来进行。[2]
三、在Hadoop上实现运行
1，实验环境
①hadoop集群环境：1.2.1 一个Master，两个Slaves，在开始运行kmeans时启动hadoop
②操作系统：所有机器的系统均为ubuntu12.04
③Mahout版本：采用的是0.5版
2，数据准备
数据采用的是这是网上提供的一个比较不错是数据源。然后用指令 hadoop fs -put /home/hadoop/Desktop/data testdata，将在我桌面的文件data上传到HDFS的testdata目录下，这里为什么是testdata，我也正在思考，因为我本来是上传到 input里，但是运行时提示could not find ….user/testdata之类的，所以现改为了testdata。
3，运行
①配置Mahout环境：在Apache官网下载Mahout的版本，我选择的是0.5。然后解压到你指定的目录，将此目录路径写入/etc/profile，添加如下语句：
export MAHOUT_HOME=/home/hadoop/hadoop-1.2.1/mahout-distribution-0.5
export HADOOP_CONF_DIR=/home/hadoop/hadoop-1.2.1/conf
export PATH=$PATH:/home/hadoop/hadoop-1.2.1/bin:$MAHOUT_HOME/bin
然后执行 source /etc/profile。在mahout目录下执行bin/mahout命令，检测系统是否安装成功。如图：

注：此处修改环境变量有些网上提示是/etc/bash.bashrc，我也试着修改过，但是发现在我这里使环境变量生效的是profile。
②运行Mahout里自带的K-Means算法，bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job，这里启动后遇到了一点问题，提示 Could not find math.vector。
4，结果
在我的环境下运行5分钟左右，最后生成一个文件，如图

四、总结
Mahout是一个很强大的数据挖掘工具，需要进行更深层的了解。

⑺ 协同过滤(2)： KDD2020- HyperGraph CF 基于超图

协同过滤推荐系统是当今众多推荐系统中最流行和最重要的推荐方法之一。

尽管已经被广泛采用，但是现有的基于 cf 的方法，从矩阵分解到新兴的基于图的方法， 在训练数据非常有限的情况下表现不佳 （数据稀疏问题）。

本文首先指出了造成这种不足的根本原因，并指出现有基于 CF 的方法固有的两个缺点，即: 1)用户和物品建模不灵活; 2)高阶相关性建模不足。

在这种情况下，文中提出了一个双通道超图协同过滤(DHCF)框架来解决上述问题。

首先，引入 双通道学习策略 (Dual-Channel)，全面利用分治策略，学习用户和物品的表示，使这两种类型的数据可以优雅地相互连接，同时保持其特定属性。

其次， 利用超图结构对用户和具有显式混合高阶相关性的物品进行建模 。提出了跳跃超图卷积(JHConv)方法，实现高阶关系嵌入的显式和有效传播。

推荐系统的核心是一系列的推荐算法，这些算法能够**根据用户的个人特征有效地从爆炸式信息筛选出信息。协同过滤是目前最受欢迎和广泛采用的方法之一。

CF 持有一个基本的假设，当向用户提供推荐时: 那些行为相似的人(例如，经常访问同一个网站)很可能在物品(例如，音乐、视频、网站)上分享相似的偏好。
为了实现这一点，一个典型的基于 CFbased 方法执行一个两步策略: 它首先利用历史交互区分相似的用户和项目; 然后基于上面收集的信息，向特定用户生成推荐。

现有的 CF 方法可以分为三类。

虽然 CF 方法已经研究了多年，但仍然存在局限性，特别是在训练的先验知识非常有限的情况下。为了理解这些缺陷，深入挖掘现有 CF 方法的内在机制得到以下局限性:

基于这些生成的连接组，即超边，可以分别为用户和物品构造两个超图，即两个通道的表示。本文提出了一种新的跳跃超图卷积算法(JHConv) ，该算法通过聚合邻域的嵌入并引入先验信息，有效地在超图上进行信息传播。(与传统的基于图的方法对比，用户超图和项目超图，可以更灵活地进行复杂的数据关联建模，并与不同类型的数据结合。)

超图定义为，V表示图节点，表示超边集合，超图邻接矩阵描述节点与超边的关系

在高层次上，DHCF 首先通过一个双通道超图框架学习用户和物品的两组嵌入，在此框架上，DHCF 通过计算用户和物品嵌入查找表的内积，进一步计算出用户-项目偏好矩阵。基于这样的偏好矩阵，DHCF 估计用户对某个商品感兴趣的可能性。

总体分为三步：

构建用户和物品嵌入矩阵：

为了在预定义的混合高阶关系上聚合相邻消息,执行以下高阶消息传递:

为了提取有区别的信息，我们对用户和物品定义为

综上所述，上述两个过程构成了一个集成的DHCF 层，允许对用户和物品进行明确的建模和编码，并通过强大的嵌入功能进一步更新和生成更精确的嵌入超图结构。这种精细嵌入可以进一步应用于推荐系统中的各种下游任务。

与传统 HGNNConv 相比，JHConv 允许模型同时考虑其原始特征和聚合相关表示，在另一方面，这样的 resnet结构的跳跃连接使模型能够避免由于集成了许多其他连接而导致的信息稀释。

引入高阶关联来实现构建超边，根据自定义的规则分别对用户和物品进行高阶关联提取

定义1: 物品的 k 阶可达邻居。在用户-物品交互图，更具体地说是二部图中，如果在 itemi 和 itemj 之间存在一个相邻顶点序列(即一条路) ，且该路径中的用户数小于 k，itemi (itemj)是 itemi (itemi)的 k 阶可达邻居。

定义2：物品的 k阶可达用户。在物品-用户二部图中，如果用户 j 和物品 k 之间存在直接交互作用，则用户 j 是 itemi 的 k 阶可达邻居，而物品 k 是 itemi 的 k 阶可达邻居。

对于 itemi，其 k 阶可达用户集称为。从数学上讲，超图可以定义在一个集簇上，其中每个集代表一个超边。因此，这里可以通过物品的 k 阶可达用户集构建超边。

然后在用户 k 阶可达规则的基础上构造高阶超边组，该超边组可表示为:

假设通过K阶可达规则，构造a个超边组，最后的超图需要将这a个超边组做融合，见上面的总体框架中的描述。

同理，按照相似的K阶可达的规则，对物品进行分析，构成物品的超边(N个用户，M个物品)

在实验中，每个用户观察到的交互中的10% 被随机选择用于训练，其余的数据用于测试。这样的设置增加了 CF 任务的难度，因为模型只能获取非常有限的观察到的交互。此外，由于数据的高度稀疏性，它可以很好地评价模型从有限的隐式数据集中挖掘有用信息的能力。对于所有四个数据集，每个用户至少有两个用于训练的交互。

这篇工作基于超图结构，提出了一种新的CF框架，与基于图神经网络的CF相比，超图结构更符合实际情况；此外，双通道的思路也值得借鉴，之前也分析的一篇双通道BPR的论文。近年来，基于图神经网络的推荐已经成为研究主流，而其中超图相关的工作少之又少，最近看到的另一篇是SIGIR2020上的一篇Next Item Recommendation with Sequential Hypergraphs，在超图神经网络上并没多大的改进，重点仍然在于如何用这种结构去解决存在的问题。

如果觉得有用，欢迎点赞关注赞赏，若对推荐感兴趣欢迎评论区/私信交流~~~

导航:首页 > 净水问答 > kmeans协同过滤

kmeans协同过滤

与kmeans协同过滤相关的资料