導航:首頁 > 凈水問答 > 協同過濾演算法與als

協同過濾演算法與als

發布時間：2021-03-18 01:52:04

『壹』基於聚類的協同過濾演算法都有哪些

自邀自答，不用謝。這是兩種完全不同的演算法思想。以二維空間為例，聚類是各個樣本版往若干權個共同中心聚合的過程，計算的是樣本點到聚類中心的二維空間距離；而協同過濾是盡量在樣本中構造平行相似性，以彌合缺失的樣本信息維度。聚類和協同過濾是可以而且應當在解決實際問題中混合使用的。但應該是在解決問題的不同階段。比如用戶興趣，首先使用聚類方法對人群進行若干大類的劃分，然後在一類人群中進行協同過濾。

『貳』個性化推薦演算法——協同過濾

有三種：協同過濾
用戶歷史行為
物品相似矩陣

『叄』如何使用Spark ALS實現協同過濾

1.背景
協同過濾（collaborative filtering）是推薦系統常用的一種方法。cf的主要思想就是找出物品相似度高的歸為一類進行推薦。cf又分為icf和ucf。icf指的是item collaborative filtering，是將商品進行分析推薦。同理ucf的u指的是user，他是找出知趣相似的人，進行推薦。通常來講icf的准確率可能會高一些，通過這次參加天貓大數據比賽，我覺得只有在數據量非常龐大的時候才適合用cf，如果數據量很小，cf的准確率會非常可憐。博主在比賽s1階段，大概只有幾萬條數據的時候，嘗試了icf，准確率不到百分之一。。。。。
2.常用方法
cf的常用方法有三種，分別是歐式距離法、皮爾遜相關系數法、餘弦相似度法。
測試矩陣,行表示三名用戶，列表示三個品牌，對品牌的喜愛度按照1~5增加。
（1）歐氏距離法
就是計算每兩個點的距離，比如Nike和Sony的相似度。數值越小，表示相似的越高。
[python] view plain print?在CODE上查看代碼片派生到我的代碼片
def OsDistance(vector1, vector2):
sqDiffVector = vector1-vector2
sqDiffVector=sqDiffVector**2
sqDistances = sqDiffVector.sum()
distance = sqDistances**0.5
return distance
（2）皮爾遜相關系數
兩個變數之間的相關系數越高，從一個變數去預測另一個變數的精確度就越高，這是因為相關系數越高，就意味著這兩個變數的共變部分越多，所以從其中一個變數的變化就可越多地獲知另一個變數的變化。如果兩個變數之間的相關系數為1或-1，那麼你完全可由變數X去獲知變數Y的值。
· 當相關系數為0時，X和Y兩變數無關系。
· 當X的值增大，Y也增大，正相關關系，相關系數在0.00與1.00之間
· 當X的值減小，Y也減小，正相關關系，相關系數在0.00與1.00之間
· 當X的值增大，Y減小，負相關關系，相關系數在-1.00與0.00之間
當X的值減小，Y增大，負相關關系，相關系數在-1.00與0.00之間
相關系數的絕對值越大，相關性越強，相關系數越接近於1和-1，相關度越強，相關系數越接近於0，相關度越弱。
clip_image003
在Python中用函數corrcoef實現，具體方法見http//infosec.pku.e.cn/~lz/doc/Numpy_Example_List.htm
（3）餘弦相似度
通過測量兩個向量內積空間的夾角的餘弦值來度量它們之間的相似性。0度角的餘弦值是1，而其他任何角度的
餘弦值都不大於1;並且其最小值是-1。從而兩個向量之間的角度的餘弦值確定兩個向量是否大致指向相同的方向。兩
個向量有相同的指向時，餘弦相似度的值為1；兩個向量夾角為90°時，餘弦相似度的值為0；兩個向量指向完全相
反的方向時，餘弦相似度的值為-1。在比較過程中，向量的規模大小不予考慮，僅僅考慮到向量的指向方向。餘弦相
似度通常用於兩個向量的夾角小於90°之內，因此餘弦相似度的值為0到1之間。
\mathbf{a}\cdot\mathbf{b}=\left\|\mathbf{a}\right\|\left\|\mathbf{b}\right\|\cos\theta
[python] view plain print?在CODE上查看代碼片派生到我的代碼片
def cosSim(inA,inB):
num = float(inA.T*inB)
denom = la.norm(inA)*la.norm(inB)
return 0.5+0.5*(num/denom)

『肆』協同過濾演算法和聚類演算法有什麼區別

協同過濾多處理的是異構數據，數據差別大種類多；聚類多處理的是同構數據

『伍』 Spark 推薦演算法-協同過濾-java的語句意思

協同過濾(Collaborative Filtering)的基本概念就是把這種方式變成自動化的流程

協同過濾主要是以屬版性或興趣相近權的用戶經驗與建議作為提供個性化的基礎。透過協同過濾，有助於搜集具有類似偏好或屬性的用戶，並將其意見提供給同一集群中的用戶作為參考，以滿足人們通常在決策之前參考他人意見的心態。

本人認為，協同過濾技術應包括如下幾方面:(1)一種比對和搜集每個用戶興趣偏好的過程;(2)它需要許多用戶的信息去預測個人的興趣偏好;(3)通過對用戶之間興趣偏好相關程度的統計去發展建議那些有相同興趣偏好的用戶。

『陸』協同過濾演算法有哪些 slope

協同過濾演算法是這一領域的主流。作為基於內容的演算法執行方式內，協同過濾在准確性上具容有相當的優勢，但無法冷啟動、同質化和運算效率低使其依然存在很多不足。
協同過濾演算法的名稱來源於化學上的過濾操作。
原理
利用物質的溶解性差異，將液體和不溶於液體的固體分離開來的一種方法。如用過濾法除去粗食鹽中少量的泥沙

過濾實驗儀器
漏斗、燒杯、玻璃棒、鐵架台（含鐵圈）、濾紙。

過濾操作要領
要做到「一貼、二低、三靠」。
一貼
即使濾紙潤濕，緊貼漏斗內壁，中間不要留下氣泡。（防止氣泡減慢過濾速度。）
二低
1．濾紙邊緣略低於漏斗邊緣。
2．液面低於濾紙邊緣。（防止液體過濾不凈。）
三靠
1．傾倒時燒杯杯口要緊靠玻璃棒上。
2．玻璃棒下端抵靠在三層濾紙處。
3．漏斗下端長的那側管口緊靠燒杯內壁。

過濾注意事項
1．燒杯中的混合物在過濾前應用玻璃棒攪拌，然後進行過濾。
2．過濾後若溶液還顯渾濁，應再過濾一次，直到溶液變得透明為止。
3.過濾器中的沉澱的洗滌方法：用燒瓶或滴管向過濾器中加蒸餾水，使水面蓋沒沉澱物，待溶液全部濾出後，重復2~3次。
希望我能幫助你解疑釋惑。

『柒』協同過濾中als演算法輸出兩個分解矩陣u*v什麼意思

在本文中矩陣來用斜體大自寫字母表示（如：R），標量用小寫字母表示（如：i，j）。給定一個矩陣R，
Rij表示它的一個元素，Ri.表示矩陣R的第i行，R.j表示矩陣R的第j列，RT
表示矩陣R的轉置。R-1
表示矩陣R的逆。在本文中給定的矩陣R表示具有m個用戶、n個對象的評分矩陣，矩陣U、
V分別表示用戶和推薦對象的特徵矩陣

『捌』基於用戶的的協同過濾演算法怎樣算準確率

協同過濾(Collaborative Filtering)的基本概念就是把這種推薦方式變成自動化的流程

協同過濾主要是以屬性或內興趣相近的用戶經驗容與建議作為提供個性化推薦的基礎。透過協同過濾，有助於搜集具有類似偏好或屬性的用戶，並將其意見提供給同一集群中的用戶作為參考，以滿足人們通常在決策之前參考他人意見的心態。

本人認為，協同過濾技術應包括如下幾方面:(1)一種比對和搜集每個用戶興趣偏好的過程;(2)它需要許多用戶的信息去預測個人的興趣偏好;(3)通過對用戶之間興趣偏好相關程度的統計去發展建議那些有相同興趣偏好的用戶。

『玖』協同過濾的演算法簡介

電子商務推薦系統的一種主要演算法。
協同過濾推薦（Collaborative Filtering recommendation）是在信息過濾和信息系統中正迅速成為一項很受歡迎的技術。與傳統的基於內容過濾直接分析內容進行推薦不同，協同過濾分析用戶興趣，在用戶群中找到指定用戶的相似（興趣）用戶，綜合這些相似用戶對某一信息的評價，形成系統對該指定用戶對此信息的喜好程度預測。
與傳統文本過濾相比，協同過濾有下列優點:
（1）能夠過濾難以進行機器自動基於內容分析的信息。如藝術品、音樂;
（2）能夠基於一些復雜的，難以表達的概念（信息質量、品位)進行過濾;
（3）推薦的新穎性。
正因為如此，協同過濾在商業應用上也取得了不錯的成績。Amazon，CDNow，MovieFinder，都採用了協同過濾的技術來提高服務質量。
缺點是:
（1）用戶對商品的評價非常稀疏，這樣基於用戶的評價所得到的用戶間的相似性可能不準確（即稀疏性問題）;
（2）隨著用戶和商品的增多，系統的性能會越來越低;
（3）如果從來沒有用戶對某一商品加以評價，則這個商品就不可能被推薦（即最初評價問題）。
因此，現在的電子商務推薦系統都採用了幾種技術相結合的推薦技術。
案例: AMAZON個性化推薦系統先驅 (基於協同過濾)
AMAZON是一個虛擬的網上書店，它沒有自己的店面，而是在網上進行在線銷售。它提供了高質量的綜合節目資料庫和檢索系統，用戶可以在網上查詢有關圖書的信息。如果用戶需要購買的話，可以把選擇的書放在虛擬購書籃中，最後查看購書籃中的商品，選擇合適的服務方式並且提交訂單，這樣讀者所選購的書在幾天後就可以送到家。
AMAZON書店還提供先進的個性化推薦功能，能為不同興趣偏好的用戶自動推薦盡量符合其興趣需要的書籍。 AMAZON使用推薦軟體對讀者曾經購買過的書以及該讀者對其他書的評價進行分析後，將向讀者推薦他可能喜歡的新書，只要滑鼠點一下，就可以買到該書；AMAZON能對顧客購買過的東西進行自動分析，然後因人而異的提出合適的建議。讀者的信息將被再次保存，這樣顧客下次來時就能更容易的買到想要的書。此外，完善的售後服務也是AMAZON的優勢，讀者可以在拿到書籍的30天內，將完好無損的書和音樂光碟退回AMAZON，AMAZON將原價退款。當然AMAZON的成功還不止於此，如果一位顧客在AMAZON購買一本書，下次他再次訪問時，映入眼簾的首先是這位顧客的名字和歡迎的字樣。

『拾』如何解釋spark mllib中ALS演算法的原理

整理一下自己的理解。
對於一個users-procts-rating的評分數據集，ALS會建立一個user*proct的m*n的矩陣
其中，m為users的數量，n為procts的數量
但是在這個數據集中，並不是每個用戶都對每個產品進行過評分，所以這個矩陣往往是稀疏的，用戶i對產品j的評分往往是空的
ALS所做的事情就是將這個稀疏矩陣通過一定的規律填滿，這樣就可以從矩陣中得到任意一個user對任意一個proct的評分，ALS填充的評分項也稱為用戶i對產品j的預測得分
所以說，ALS演算法的核心就是通過什麼樣子的規律來填滿（預測）這個稀疏矩陣
它是這么做的：
假設m*n的評分矩陣R，可以被近似分解成U*(V)T
U為m*d的用戶特徵向量矩陣
V為n*d的產品特徵向量矩陣（(V)T代表V的轉置，原諒我不會打轉置這個符號。。）
d為user/proct的特徵值的數量

關於d這個值的理解，大概可以是這樣的
對於每個產品，可以從d個角度進行評價，以電影為例，可以從主演，導演，特效，劇情4個角度來評價一部電影，那麼d就等於4
可以認為，每部電影在這4個角度上都有一個固定的基準評分值
例如《末日崩塌》這部電影是一個產品，它的特徵向量是由d個特徵值組成的
d=4，有4個特徵值，分別是主演，導演，特效，劇情
每個特徵值的基準評分值分別為（滿分為1.0）：
主演：0.9（大光頭還是那麼霸氣）
導演：0.7
特效：0.8
劇情：0.6
矩陣V由n個proct*d個特徵值組成

對於矩陣U，假設對於任意的用戶A，該用戶對一部電影的綜合評分和電影的特徵值存在一定的線性關系，即電影的綜合評分=(a1*d1+a2*d2+a3*d3+a4*d4)
其中a1-4為用戶A的特徵值，d1-4為之前所說的電影的特徵值
參考：
協同過濾中的矩陣分解演算法研究

那麼對於之前ALS演算法的這個假設
m*n的評分矩陣R，可以被近似分解成U*(V)T
就是成立的，某個用戶對某個產品的評分可以通過矩陣U某行和矩陣V（轉置）的某列相乘得到

那麼現在的問題是，如何確定用戶和產品的特徵值？（之前僅僅是舉例子，實際中這兩個都是未知的變數）
採用的是交替的最小二乘法
在上面的公式中，a表示評分數據集中用戶i對產品j的真實評分，另外一部分表示用戶i的特徵向量（轉置）*產品j的特徵向量（這里可以得到預測的i對j的評分）在上面的公式中，a表示評分數據集中用戶i對產品j的真實評分，另外一部分表示用戶i的特徵向量（轉置）*產品j的特徵向量（這里可以得到預測的i對j的評分）
用真實評分減去預測評分然後求平方，對下一個用戶，下一個產品進行相同的計算，將所有結果累加起來（其中，數據集構成的矩陣是存在大量的空打分，並沒有實際的評分，解決的方法是就只看對已知打分的項）
參考：
ALS 在 Spark MLlib 中的實現
但是這里之前問題還是存在，就是用戶和產品的特徵向量都是未知的，這個式子存在兩個未知變數

解決的辦法是交替的最小二乘法
首先對於上面的公式，以下面的形式顯示：
為了防止過度擬合，加上正則化參數為了防止過度擬合，加上正則化參數
首先用一個小於1的隨機數初始化V首先用一個小於1的隨機數初始化V
根據公式（4）求U
此時就可以得到初始的UV矩陣了，計算上面說過的差平方和
根據計算得到的U和公式（5），重新計算並覆蓋V，計算差平方和
反復進行以上兩步的計算，直到差平方和小於一個預設的數，或者迭代次數滿足要求則停止
取得最新的UV矩陣
則原本的稀疏矩陣R就可以用R=U(V)T來表示了
以上公式內容截圖來自：
基於矩陣分解的協同過濾演算法

總結一下：
ALS演算法的核心就是將稀疏評分矩陣分解為用戶特徵向量矩陣和產品特徵向量矩陣的乘積
交替使用最小二乘法逐步計算用戶/產品特徵向量，使得差平方和最小
通過用戶/產品特徵向量的矩陣來預測某個用戶對某個產品的評分

不知道是不是理解正確了
有幾個問題想請教一下~
（1）在第一個公式中加入正則化參數是啥意思？為什麼是那種形態的？
（2）固定一個矩陣U，求偏導數之後可以得到求解V的公式，為什麼？

閱讀全文

與協同過濾演算法與als相關的資料

熱點內容

怎麼給烏龜做一個飲水機發布：2025-08-28 01:02:18 瀏覽：471

雲南廢水處理設備多少錢發布：2025-08-28 00:57:56 瀏覽：410

每個樹脂上面帶多少個氫離子發布：2025-08-28 00:55:30 瀏覽：845

純凈水器哪個牌子好用發布：2025-08-28 00:51:44 瀏覽：599

江蘇環氧樹脂E44 發布：2025-08-28 00:35:07 瀏覽：150

焦化廢水處理多少錢發布：2025-08-28 00:22:37 瀏覽：580

咸陽市污水處理廠工作發布：2025-08-28 00:22:00 瀏覽：501

水處理高效厭氧反應發布：2025-08-28 00:22:00 瀏覽：173

流放之路默認過濾60 發布：2025-08-28 00:16:51 瀏覽：283

污水處理廠冬季運行管理培訓發布：2025-08-28 00:08:31 瀏覽：182

苯乙烯樹脂的結構發布：2025-08-28 00:08:25 瀏覽：734

貴陽場地污水處理系統多少錢發布：2025-08-28 00:06:51 瀏覽：269

tplink怎麼設置mac過濾發布：2025-08-28 00:01:18 瀏覽：264

飲水機的水適合泡什麼茶發布：2025-08-27 23:59:46 瀏覽：466

污水處理廠要招聘哪些人發布：2025-08-27 23:58:42 瀏覽：963

陰離子型交換樹脂發布：2025-08-27 23:58:37 瀏覽：330

福建福州污水處理有限公司招聘信息發布：2025-08-27 23:53:52 瀏覽：985

安徽化學鎳廢水處理價格多少發布：2025-08-27 23:48:54 瀏覽：414

寶與525汽油濾芯在什麼位置發布：2025-08-27 23:48:05 瀏覽：711

社區飲水機的水質為什麼還有水垢發布：2025-08-27 23:37:22 瀏覽：704