协同过滤suanfa_协同过滤的算法细分

1. 推荐算法的基于协同过滤的推荐

基于协同过滤的推荐算法理论上可以推荐世界上的任何一种东西。图片、音乐、样样可以。协同过滤算法主要是通过对未评分项进行评分预测来实现的。不同的协同过滤之间也有很大的不同。
基于用户的协同过滤算法: 基于一个这样的假设“跟你喜好相似的人喜欢的东西你也很有可能喜欢。”所以基于用户的协同过滤主要的任务就是找出用户的最近邻居，从而根据最近邻居的喜好做出未知项的评分预测。这种算法主要分为3个步骤：
一，用户评分。可以分为显性评分和隐形评分两种。显性评分就是直接给项目评分（例如给网络里的用户评分），隐形评分就是通过评价或是购买的行为给项目评分（例如在有啊购买了什么东西）。
二，寻找最近邻居。这一步就是寻找与你距离最近的用户，测算距离一般采用以下三种算法：1.皮尔森相关系数。2.余弦相似性。3调整余弦相似性。调整余弦相似性似乎效果会好一些。
三，推荐。产生了最近邻居集合后，就根据这个集合对未知项进行评分预测。把评分最高的N个项推荐给用户。这种算法存在性能上的瓶颈，当用户数越来越多的时候，寻找最近邻居的复杂度也会大幅度的增长。
因而这种算法无法满足及时推荐的要求。基于项的协同过滤解决了这个问题。基于项的协同过滤算法根基于用户的算法相似，只不过第二步改为计算项之间的相似度。由于项之间的相似度比较稳定可以在线下进行，所以解决了基于用户的协同过滤算法存在的性能瓶颈。

2. 协同过滤算法属于自然语言处理方向吗

协同过滤算法是这一领域的主流。作为基于内容的算法执行方式，协同版过滤在准确性上具有相权当的优势，但无法冷启动、推荐同质化和运算效率低使其依然存在很多不足。
协同过滤算法的名称来源于化学上的过滤操作。
原理
利用物质的溶解性差异，将液体和不溶于液体的固体分离开来的一种方法。如用过滤法除去粗食盐中少量的泥沙

过滤实验仪器
漏斗、烧杯、玻璃棒、铁架台（含铁圈）、滤纸。

过滤操作要领
要做到“一贴、二低、三靠”。
一贴
即使滤纸润湿，紧贴漏斗内壁，中间不要留下气泡。（防止气泡减慢过滤速度。）
二低
1．滤纸边缘略低于漏斗边缘。
2．液面低于滤纸边缘。（防止液体过滤不净。）
三靠
1．倾倒时烧杯杯口要紧靠玻璃棒上。
2．玻璃棒下端抵靠在三层滤纸处。
3．漏斗下端长的那侧管口紧靠烧杯内壁。

过滤注意事项
1．烧杯中的混合物在过滤前应用玻璃棒搅拌，然后进行过滤。
2．过滤后若溶液还显浑浊，应再过滤一次，直到溶液变得透明为止。
3.过滤器中的沉淀的洗涤方法：用烧瓶或滴管向过滤器中加蒸馏水，使水面盖没沉淀物，待溶液全部滤出后，重复2~3次。
希望我能帮助你解疑释惑。

3. 请问你有基于项目的协同过滤算法代码吗

看看《Mahout in Action》这本书吧有代码不过是英文的

4. 基于用户的协同过滤算法和基于物品的区别

协同过滤(Collaborative Filtering)的基本概念就是把这种推荐方式变成自动化的流程

5. 协同过滤的算法细分

这是最早应用协同过滤系统的设计，主要是解决Xerox公司在 Alto的研究中心资讯过载的问题。这个研究中心的员工每天会收到非常多的电子邮件却无从筛选分类，于是研究中心便发展这项实验性的邮件系统来帮助员工解决这项问题。其运作机制大致如下：
个人决定自己的感兴趣的邮件类型；个人旋即随机发出一项资讯需求，可预测的结果是会收到非常多相关的文件；从这些文件中个人选出至少三笔资料是其认为有用、会想要看的；系统便将之记录起来成为个人邮件系统内的过滤器，从此以后经过过滤的文件会最先送达信箱；以上是协同过滤最早的应用，接下来的里程碑为GroupLens。这个系统主要是应用在新闻的筛选上，帮助新闻的阅听者过滤其感兴趣的新闻内容，阅听者看过内容后给一个评比的分数，系统会将分数记录起来以备未来参考之用，假设前提是阅听者以前感兴趣的东西在未来也会有兴趣阅听，若阅听者不愿揭露自己的身分也可以匿名进行评分。和Tapestry不同之处有两点，首先，Tapestry专指一个点（如一个网站内、一个系统内）的过滤机制；GroupLens则是跨点跨系统的新闻过滤机制。再来，Tapestry不会将同一笔资料的评比总和起来；GroupLens会将同一笔资料从不同使用者得到的评比加总。
GroupLens具有以下特点：开放性：所有的新闻阅听者皆可使用，虽然系统委托Better Bit Bureau设计给分的系统，但若有不同的评分机制也适用于GroupLens。方便性：给分并不是一件困难的事情且沟通上非常方便，评分结果容易诠释。规模性：有可能发展成大规模的系统，一旦发展成大规模，储存空间与计算成本问题显得相当棘手。隐密性：如果使用者不想让别人知道他是谁，别人就不会知道。由此可以看出，现今网络各个推荐系统的雏形已然形成，在GroupLens之后还有性质相近的MovieLens，电影推荐系统；Ringo，音乐推荐系统；Video Recommender，影音推荐系统；以及Jster，笑话推荐系统等等。乃至于今日的YouTube、aNobii皆是相似性值得网络推荐平台，较不同的是经过时间推移，网络越来越发达，使用者越来越多，系统也发展得越来越严密。最著名的电子商务推荐系统应属亚马逊网络书店，顾客选择一本自己感兴趣的书籍，马上会在底下看到一行“Customer Who Bought This Item Also Bought”，亚马逊是在“对同样一本书有兴趣的读者们兴趣在某种程度上相近”的假设前提下提供这样的推荐，此举也成为亚马逊网络书店为人所津津乐道的一项服务，各网络书店也跟进做这样的推荐服务如台湾的博客来网络书店。另外一个著名的例子是Facebook的广告，系统根据个人资料、周遭朋友感兴趣的广告等等对个人提供广告推销，也是一项协同过滤重要的里程碑，和前二者Tapestry、GroupLens不同的是在这里虽然商业气息浓厚同时还是带给使用者很大的方便。以上为三项协同过滤发展上重要的里程碑，从早期单一系统内的邮件、文件过滤，到跨系统的新闻、电影、音乐过滤，乃至于今日横行互联网的电子商务，虽然目的不太相同，但带给使用者的方便是大家都不能否定的。

6. 基于用户的的协同过滤算法怎样算准确率

协同过滤(Collaborative Filtering)的基本概念就是把这种推荐方式变成自动化的流程

协同过滤主要是以属性或内兴趣相近的用户经验容与建议作为提供个性化推荐的基础。透过协同过滤，有助于搜集具有类似偏好或属性的用户，并将其意见提供给同一集群中的用户作为参考，以满足人们通常在决策之前参考他人意见的心态。

本人认为，协同过滤技术应包括如下几方面:(1)一种比对和搜集每个用户兴趣偏好的过程;(2)它需要许多用户的信息去预测个人的兴趣偏好;(3)通过对用户之间兴趣偏好相关程度的统计去发展建议那些有相同兴趣偏好的用户。

7. 协同过滤中的可扩展性问题是什么

协同过滤算法能够容易地为几千名用户提供较好的推荐，但是对于电子商务网站，往往需要给成百上千万的用户提供推荐，这就一方面需要提高响应时间的要求，能够为用户实时地进行推荐;另一方面还应考虑到存储空间的要求，尽量减少推荐系统运行的负担。

1．3 可扩展性问题

在协同过滤推荐算法中，全局数值算法能及时利用最新的信息为用户产生相对准确的用户兴趣度预测或进行推荐，但是面对日益增多的用户，数据量的急剧增加，算法的扩展性问题(即适应系统规模不断扩大的问题)成为制约推荐系统实施的重要因素。虽然与基于模型的算法相比，全局数值算法节约了为建立模型而花费的训练时间，但是用于识别“最近邻居”算法的计算量随着用户和项的增加而大大增加，对于上百万的数目，通常的算法会遇到严重的扩展性瓶颈问题。该问题解决不好，直接影响着基于协同过滤技术的推荐系统实时向用户提供推荐问题的解决，而推荐系统的实时性越好，精确度越高，该系统才会被用户所接受。

基于模型的算法虽然可以在一定程度上解决算法的可扩展性问题，但是该类算法往往比较适于用户的兴趣爱好比较稳定的情况，因为它要考虑用户模型的学习过程以及模型的更新过程，对于最新信息的利用比全局数值算法要差些。

分析以上协同过滤在推荐系统实现中面临的两个问题，它们的共同点是均考虑到了最近邻居的形成问题(包括用户信息获得的充分性、计算耗费等)。但是应该看到协同过滤在推荐系统的实现中，要获得最近邻居用户，必须通过一定的计算获得用户之间的相似度，然后确定最佳的邻居个数，形成邻居用户集。而在这一过程中，如果对全部数据集进行相似性计算，虽然直接，但是运算量和时间花费都极大，无法适应真实的商务系统。如果通过对训练集数据(整个数据集的某一子集)进行实验获得，虽然不必对整个数据集进行计算，但是必须通过将多次实验结果统计出来才可能得到，这无疑也增加了推荐结果获得的代价和误差。并且如果考虑到数据集的动态变化，这一形成最近邻居用户集技术的实际应用价值越来越小。因此，考虑使用更为有效的最近邻居用户形成办法，对于协同过滤的应用非常必要。

8. 相似度的计算用哪个算法协同过滤算法

SIM = Structural SIMilarity（结构相似性），这是一种用来评测图像质量的一种方法。由于人类视觉很容易从图像中抽取出结构信息,因此计算两幅图像结构信息的相似性就可以用来作为一种检测图像质量的好坏.

首先结构信息不应该受到照明的影响,因此在计算结构信息时需要去掉亮度信息,即需要减掉图像的均值;其次结构信息不应该受到图像对比度的影响,因此计算结构信息时需要归一化图像的方差;最后我们就可以对图像求取结构信息了,通常我们可以简单地计算一下这两幅处理后的图像的相关系数.

然而图像质量的好坏也受到亮度信息和对比度信息的制约,因此在计算图像质量好坏时,在考虑结构信息的同时也需要考虑这两者的影响.通常使用的计算方法如下,其中C1,C2,C3用来增加计算结果的稳定性:
2u(x)u(y) + C1
L(X,Y) = ------------------------ ,u(x), u(y)为图像的均值
u(x)^2 + u(y)^2 + C1

2d(x)d(y) + C2
C(X,Y) = ------------------------,d(x),d(y)为图像的方差
d(x)^2 + d(y)^2 + C2

d(x,y) + C3
S(X,Y) = ----------------------,d(x,y)为图像x,y的协方差
d(x)d(y) + C3

而图像质量Q = [L(X,Y)^a] x [C(X,Y)^b] x [S(X,Y)^c]，其中a，b，c分别用来控制三个要素的重要性，为了计算方便可以均选择为1，C1，C2，C3为比较小的数值，通常C1=(K1 x L)^2, C2=(K2 xL)^2, C3 = C2/2, K1

9. Python实现协同过滤推荐算法，用的大一些的数据集就报错MemoryError

python虽然易用，但是内存占用比较多；所以如果你有C/C++/Java基础，考虑用这些语专言来实现；
CF算法属需要计算大量的相似度，如果能把中间结果存起来，或者简化计算过程（如，你可能会重复计算一个item的均值）可以省下不少内存；（个人试过计算1w个用户Pearson是没问题的）
如果内存实在不够用，那就用时间换空间，把中间计算结果分成小文件存到磁盘上，用的时候再读取。
供参考。

10. 基于聚类的协同过滤算法都有哪些

自邀自答，不用谢。这是两种完全不同的算法思想。以二维空间为例，聚类是各个样本版往若干权个共同中心聚合的过程，计算的是样本点到聚类中心的二维空间距离；而协同过滤是尽量在样本中构造平行相似性，以弥合缺失的样本信息维度。聚类和协同过滤是可以而且应当在解决实际问题中混合使用的。但应该是在解决问题的不同阶段。比如用户兴趣，首先使用聚类方法对人群进行若干大类的划分，然后在一类人群中进行协同过滤。

导航:首页 > 净水问答 > 协同过滤suanfa

协同过滤suanfa

与协同过滤suanfa相关的资料