导航:首页 > 净水问答 > mahout协同过滤实例

mahout协同过滤实例

发布时间:2023-08-27 10:53:07

㈠ GitHub上面有哪些经典的java框架源码

㈡ 大数据进行kmeans聚类在hadoop2上怎么实现

k-means聚类不就是初始时抄,袭随机选取k个中心点,计算与其他点的距离,一次迭代完毕后,计算每个聚类中的中心点(也就是聚类中点的平均值)作为下次迭代的中心点,反复多次迭代直到达到迭代次数上限,或者达到迭代的效果(距离最短)。maprece实现的话就是:map函数计算每个点到中心点的距离,选择距离每个点最近的中心点,然后输出键值对<中心点,聚类中点的集合>,rece函数计算每个聚类的点的距离均值,并把它作为下次迭代的中心点。反复进行map和rece就是相当于反复迭代。望采纳!谢谢!

㈢ 如何让Hadoop结合R语言做大数据分析

R语言和Hadoop让我们体会到了,两种技术在各自领域的强大。很多开发人员在计算机的角度,都会提出下面2个问题。问题1: Hadoop的家族如此之强大,为什么还要结合R语言?
问题2: Mahout同样可以做数据挖掘和机器学习,和R语言的区别是什么?下面我尝试着做一个解答:问题1: Hadoop的家族如此之强大,为什么还要结合R语言?

a. Hadoop家族的强大之处,在于对大数据的处理,让原来的不可能(TB,PB数据量计算),成为了可能。
b. R语言的强大之处,在于统计分析,在没有Hadoop之前,我们对于大数据的处理,要取样本,假设检验,做回归,长久以来R语言都是统计学家专属的工具。
c. 从a和b两点,我们可以看出,hadoop重点是全量数据分析,而R语言重点是样本数据分析。 两种技术放在一起,刚好是最长补短!
d. 模拟场景:对1PB的新闻网站访问日志做分析,预测未来流量变化
d1:用R语言,通过分析少量数据,对业务目标建回归建模,并定义指标d2:用Hadoop从海量日志数据中,提取指标数据d3:用R语言模型,对指标数据进行测试和调优d4:用Hadoop分步式算法,重写R语言的模型,部署上线这个场景中,R和Hadoop分别都起着非常重要的作用。以计算机开发人员的思路,所有有事情都用Hadoop去做,没有数据建模和证明,”预测的结果”一定是有问题的。以统计人员的思路,所有的事情都用R去做,以抽样方式,得到的“预测的结果”也一定是有问题的。所以让二者结合,是产界业的必然的导向,也是产界业和学术界的交集,同时也为交叉学科的人才提供了无限广阔的想象空间。问题2: Mahout同样可以做数据挖掘和机器学习,和R语言的区别是什么?

a. Mahout是基于Hadoop的数据挖掘和机器学习的算法框架,Mahout的重点同样是解决大数据的计算的问题。
b. Mahout目前已支持的算法包括,协同过滤,推荐算法,聚类算法,分类算法,LDA, 朴素bayes,随机森林。上面的算法中,大部分都是距离的算法,可以通过矩阵分解后,充分利用MapRece的并行计算框架,高效地完成计算任务。
c. Mahout的空白点,还有很多的数据挖掘算法,很难实现MapRece并行化。Mahout的现有模型,都是通用模型,直接用到的项目中,计算结果只会比随机结果好一点点。Mahout二次开发,要求有深厚的JAVA和Hadoop的技术基础,最好兼有 “线性代数”,“概率统计”,“算法导论” 等的基础知识。所以想玩转Mahout真的不是一件容易的事情。
d. R语言同样提供了Mahout支持的约大多数算法(除专有算法),并且还支持大量的Mahout不支持的算法,算法的增长速度比mahout快N倍。并且开发简单,参数配置灵活,对小型数据集运算速度非常快。
虽然,Mahout同样可以做数据挖掘和机器学习,但是和R语言的擅长领域并不重合。集百家之长,在适合的领域选择合适的技术,才能真正地“保质保量”做软件。

如何让Hadoop结合R语言?

从上一节我们看到,Hadoop和R语言是可以互补的,但所介绍的场景都是Hadoop和R语言的分别处理各自的数据。一旦市场有需求,自然会有商家填补这个空白。

1). RHadoop

RHadoop是一款Hadoop和R语言的结合的产品,由RevolutionAnalytics公司开发,并将代码开源到github社区上面。RHadoop包含三个R包 (rmr,rhdfs,rhbase),分别是对应Hadoop系统架构中的,MapRece, HDFS, HBase 三个部分。

2). RHiveRHive是一款通过R语言直接访问Hive的工具包,是由NexR一个韩国公司研发的。

3). 重写Mahout用R语言重写Mahout的实现也是一种结合的思路,我也做过相关的尝试。

4).Hadoop调用R

上面说的都是R如何调用Hadoop,当然我们也可以反相操作,打通JAVA和R的连接通道,让Hadoop调用R的函数。但是,这部分还没有商家做出成形的产品。

5. R和Hadoop在实际中的案例

R和Hadoop的结合,技术门槛还是有点高的。对于一个人来说,不仅要掌握Linux, Java, Hadoop, R的技术,还要具备 软件开发,算法,概率统计,线性代数,数据可视化,行业背景 的一些基本素质。在公司部署这套环境,同样需要多个部门,多种人才的的配合。Hadoop运维,Hadoop算法研发,R语言建模,R语言MapRece化,软件开发,测试等等。所以,这样的案例并不太多。

㈣ mahout推荐当uid是uuid(16进制字符串)而不是Long型的处理方式

最近在做使用mahout做协同过滤推荐的时候,发现无论是数据源还是推荐函数的接口user_id必须是Long型的变量

由于业务提供的 user_id 是 uuid ,所以是个字符串类型,并且 item_id (做的是岗位推荐,即为job_id)也是 uuid 类型,于是另外再弄三张表 uid-uuid , jid-jjid , uid-jid-score 的映射,但是这样做实在太麻烦了,我分析用户日志存储用户偏好表还要再多维护所有用户和所有岗位表,遂开始研究 uuid 和 uid 能不能做个映射。

首先了解一下 UUID :

重点来了:

我现在需要处理的 uuid 就是这个 标准的UUID格式 ,了解了UUID的构成以后我们就好办了:

1. 首先将uuid去掉连接符,从原先的uuid格式字符串转化为没有连接符的16进制字符串

2. 将16进制字符串转化为10进制数(内部使用mahout接口)

用BigInt来存储这个唯一的十进制数,这样就构成了一种映射。

查了下python的内置uuid库的API用法:

这里我直接用 python 演示( python3 )

输出见下图

写完的时候google了一下发现墙外面也有不少讨论这个的,mahout官方也是说要做转换,直接用字符串类型进入推荐算法,效率会特别慢!

如下:
Why user id and item id must be long type ?
how to map uuid to userid in preference class to use mahout recommender
mahout-user mailing list archives:UUID based user IDs

参考:
Python 3.x 格式化输出字符串 % & format 笔记
python常用的十进制、16进制、字符串、字节串之间的转换

阅读全文

与mahout协同过滤实例相关的资料

热点内容
南平污水处理厂图片 浏览:132
烧结网滤芯流通量多少 浏览:785
自来水厂如何处理净化污水 浏览:83
工业酒精的蒸馏及沸点测定实验报告 浏览:714
glc有两个空调滤芯多少钱 浏览:36
电解污水可以回用 浏览:531
单级反渗透怎么清理滤沙 浏览:8
树脂有毒用水洗有用吗 浏览:147
廊坊美的净水器加盟前景如何 浏览:648
饮水机杯子架怎么贴 浏览:737
格兰富污水提升器说明书 浏览:583
饮水机前面怎么拆开 浏览:906
单次超滤每次不超过体重多少 浏览:394
为而思卫生间提升泵马桶 浏览:657
爱佳尔不锈钢滤芯怎么换 浏览:910
养荷花如何净水 浏览:943
格美净水机什么价位 浏览:257
净化器油烟大怎么办 浏览:657
论文化学水处理 浏览:177
瑞风m5空调滤芯在哪里视频 浏览:542