協同過濾suanfa_協同過濾的演算法細分

1. 推薦演算法的基於協同過濾的推薦

基於協同過濾的推薦演算法理論上可以推薦世界上的任何一種東西。圖片、音樂、樣樣可以。協同過濾演算法主要是通過對未評分項進行評分預測來實現的。不同的協同過濾之間也有很大的不同。
基於用戶的協同過濾演算法: 基於一個這樣的假設「跟你喜好相似的人喜歡的東西你也很有可能喜歡。」所以基於用戶的協同過濾主要的任務就是找出用戶的最近鄰居，從而根據最近鄰居的喜好做出未知項的評分預測。這種演算法主要分為3個步驟：
一，用戶評分。可以分為顯性評分和隱形評分兩種。顯性評分就是直接給項目評分（例如給網路里的用戶評分），隱形評分就是通過評價或是購買的行為給項目評分（例如在有啊購買了什麼東西）。
二，尋找最近鄰居。這一步就是尋找與你距離最近的用戶，測算距離一般採用以下三種演算法：1.皮爾森相關系數。2.餘弦相似性。3調整餘弦相似性。調整餘弦相似性似乎效果會好一些。
三，推薦。產生了最近鄰居集合後，就根據這個集合對未知項進行評分預測。把評分最高的N個項推薦給用戶。這種演算法存在性能上的瓶頸，當用戶數越來越多的時候，尋找最近鄰居的復雜度也會大幅度的增長。
因而這種演算法無法滿足及時推薦的要求。基於項的協同過濾解決了這個問題。基於項的協同過濾演算法根基於用戶的演算法相似，只不過第二步改為計算項之間的相似度。由於項之間的相似度比較穩定可以在線下進行，所以解決了基於用戶的協同過濾演算法存在的性能瓶頸。

2. 協同過濾演算法屬於自然語言處理方向嗎

協同過濾演算法是這一領域的主流。作為基於內容的演算法執行方式，協同版過濾在准確性上具有相權當的優勢，但無法冷啟動、推薦同質化和運算效率低使其依然存在很多不足。
協同過濾演算法的名稱來源於化學上的過濾操作。
原理
利用物質的溶解性差異，將液體和不溶於液體的固體分離開來的一種方法。如用過濾法除去粗食鹽中少量的泥沙

過濾實驗儀器
漏斗、燒杯、玻璃棒、鐵架台（含鐵圈）、濾紙。

過濾操作要領
要做到「一貼、二低、三靠」。
一貼
即使濾紙潤濕，緊貼漏斗內壁，中間不要留下氣泡。（防止氣泡減慢過濾速度。）
二低
1．濾紙邊緣略低於漏斗邊緣。
2．液面低於濾紙邊緣。（防止液體過濾不凈。）
三靠
1．傾倒時燒杯杯口要緊靠玻璃棒上。
2．玻璃棒下端抵靠在三層濾紙處。
3．漏斗下端長的那側管口緊靠燒杯內壁。

過濾注意事項
1．燒杯中的混合物在過濾前應用玻璃棒攪拌，然後進行過濾。
2．過濾後若溶液還顯渾濁，應再過濾一次，直到溶液變得透明為止。
3.過濾器中的沉澱的洗滌方法：用燒瓶或滴管向過濾器中加蒸餾水，使水面蓋沒沉澱物，待溶液全部濾出後，重復2~3次。
希望我能幫助你解疑釋惑。

3. 請問你有基於項目的協同過濾演算法代碼嗎

看看《Mahout in Action》這本書吧有代碼不過是英文的

4. 基於用戶的協同過濾演算法和基於物品的區別

協同過濾(Collaborative Filtering)的基本概念就是把這種推薦方式變成自動化的流程

5. 協同過濾的演算法細分

這是最早應用協同過濾系統的設計，主要是解決Xerox公司在 Alto的研究中心資訊過載的問題。這個研究中心的員工每天會收到非常多的電子郵件卻無從篩選分類，於是研究中心便發展這項實驗性的郵件系統來幫助員工解決這項問題。其運作機制大致如下：
個人決定自己的感興趣的郵件類型；個人旋即隨機發出一項資訊需求，可預測的結果是會收到非常多相關的文件；從這些文件中個人選出至少三筆資料是其認為有用、會想要看的；系統便將之記錄起來成為個人郵件系統內的過濾器，從此以後經過過濾的文件會最先送達信箱；以上是協同過濾最早的應用，接下來的里程碑為GroupLens。這個系統主要是應用在新聞的篩選上，幫助新聞的閱聽者過濾其感興趣的新聞內容，閱聽者看過內容後給一個評比的分數，系統會將分數記錄起來以備未來參考之用，假設前提是閱聽者以前感興趣的東西在未來也會有興趣閱聽，若閱聽者不願揭露自己的身分也可以匿名進行評分。和Tapestry不同之處有兩點，首先，Tapestry專指一個點（如一個網站內、一個系統內）的過濾機制；GroupLens則是跨點跨系統的新聞過濾機制。再來，Tapestry不會將同一筆資料的評比總和起來；GroupLens會將同一筆資料從不同使用者得到的評比加總。
GroupLens具有以下特點：開放性：所有的新聞閱聽者皆可使用，雖然系統委託Better Bit Bureau設計給分的系統，但若有不同的評分機制也適用於GroupLens。方便性：給分並不是一件困難的事情且溝通上非常方便，評分結果容易詮釋。規模性：有可能發展成大規模的系統，一旦發展成大規模，儲存空間與計算成本問題顯得相當棘手。隱密性：如果使用者不想讓別人知道他是誰，別人就不會知道。由此可以看出，現今網路各個推薦系統的雛形已然形成，在GroupLens之後還有性質相近的MovieLens，電影推薦系統；Ringo，音樂推薦系統；Video Recommender，影音推薦系統；以及Jster，笑話推薦系統等等。乃至於今日的YouTube、aNobii皆是相似性值得網路推薦平台，較不同的是經過時間推移，網路越來越發達，使用者越來越多，系統也發展得越來越嚴密。最著名的電子商務推薦系統應屬亞馬遜網路書店，顧客選擇一本自己感興趣的書籍，馬上會在底下看到一行「Customer Who Bought This Item Also Bought」，亞馬遜是在「對同樣一本書有興趣的讀者們興趣在某種程度上相近」的假設前提下提供這樣的推薦，此舉也成為亞馬遜網路書店為人所津津樂道的一項服務，各網路書店也跟進做這樣的推薦服務如台灣的博客來網路書店。另外一個著名的例子是Facebook的廣告，系統根據個人資料、周遭朋友感興趣的廣告等等對個人提供廣告推銷，也是一項協同過濾重要的里程碑，和前二者Tapestry、GroupLens不同的是在這里雖然商業氣息濃厚同時還是帶給使用者很大的方便。以上為三項協同過濾發展上重要的里程碑，從早期單一系統內的郵件、文件過濾，到跨系統的新聞、電影、音樂過濾，乃至於今日橫行互聯網的電子商務，雖然目的不太相同，但帶給使用者的方便是大家都不能否定的。

6. 基於用戶的的協同過濾演算法怎樣算準確率

協同過濾(Collaborative Filtering)的基本概念就是把這種推薦方式變成自動化的流程

協同過濾主要是以屬性或內興趣相近的用戶經驗容與建議作為提供個性化推薦的基礎。透過協同過濾，有助於搜集具有類似偏好或屬性的用戶，並將其意見提供給同一集群中的用戶作為參考，以滿足人們通常在決策之前參考他人意見的心態。

本人認為，協同過濾技術應包括如下幾方面:(1)一種比對和搜集每個用戶興趣偏好的過程;(2)它需要許多用戶的信息去預測個人的興趣偏好;(3)通過對用戶之間興趣偏好相關程度的統計去發展建議那些有相同興趣偏好的用戶。

7. 協同過濾中的可擴展性問題是什麼

協同過濾演算法能夠容易地為幾千名用戶提供較好的推薦，但是對於電子商務網站，往往需要給成百上千萬的用戶提供推薦，這就一方面需要提高響應時間的要求，能夠為用戶實時地進行推薦;另一方面還應考慮到存儲空間的要求，盡量減少推薦系統運行的負擔。

1．3 可擴展性問題

在協同過濾推薦演算法中，全局數值演算法能及時利用最新的信息為用戶產生相對准確的用戶興趣度預測或進行推薦，但是面對日益增多的用戶，數據量的急劇增加，演算法的擴展性問題(即適應系統規模不斷擴大的問題)成為制約推薦系統實施的重要因素。雖然與基於模型的演算法相比，全局數值演算法節約了為建立模型而花費的訓練時間，但是用於識別「最近鄰居」演算法的計算量隨著用戶和項的增加而大大增加，對於上百萬的數目，通常的演算法會遇到嚴重的擴展性瓶頸問題。該問題解決不好，直接影響著基於協同過濾技術的推薦系統實時向用戶提供推薦問題的解決，而推薦系統的實時性越好，精確度越高，該系統才會被用戶所接受。

基於模型的演算法雖然可以在一定程度上解決演算法的可擴展性問題，但是該類演算法往往比較適於用戶的興趣愛好比較穩定的情況，因為它要考慮用戶模型的學習過程以及模型的更新過程，對於最新信息的利用比全局數值演算法要差些。

分析以上協同過濾在推薦系統實現中面臨的兩個問題，它們的共同點是均考慮到了最近鄰居的形成問題(包括用戶信息獲得的充分性、計算耗費等)。但是應該看到協同過濾在推薦系統的實現中，要獲得最近鄰居用戶，必須通過一定的計算獲得用戶之間的相似度，然後確定最佳的鄰居個數，形成鄰居用戶集。而在這一過程中，如果對全部數據集進行相似性計算，雖然直接，但是運算量和時間花費都極大，無法適應真實的商務系統。如果通過對訓練集數據(整個數據集的某一子集)進行實驗獲得，雖然不必對整個數據集進行計算，但是必須通過將多次實驗結果統計出來才可能得到，這無疑也增加了推薦結果獲得的代價和誤差。並且如果考慮到數據集的動態變化，這一形成最近鄰居用戶集技術的實際應用價值越來越小。因此，考慮使用更為有效的最近鄰居用戶形成辦法，對於協同過濾的應用非常必要。

8. 相似度的計算用哪個演算法協同過濾演算法

SIM = Structural SIMilarity（結構相似性），這是一種用來評測圖像質量的一種方法。由於人類視覺很容易從圖像中抽取出結構信息,因此計算兩幅圖像結構信息的相似性就可以用來作為一種檢測圖像質量的好壞.

首先結構信息不應該受到照明的影響,因此在計算結構信息時需要去掉亮度信息,即需要減掉圖像的均值;其次結構信息不應該受到圖像對比度的影響,因此計算結構信息時需要歸一化圖像的方差;最後我們就可以對圖像求取結構信息了,通常我們可以簡單地計算一下這兩幅處理後的圖像的相關系數.

然而圖像質量的好壞也受到亮度信息和對比度信息的制約,因此在計算圖像質量好壞時,在考慮結構信息的同時也需要考慮這兩者的影響.通常使用的計算方法如下,其中C1,C2,C3用來增加計算結果的穩定性:
2u(x)u(y) + C1
L(X,Y) = ------------------------ ,u(x), u(y)為圖像的均值
u(x)^2 + u(y)^2 + C1

2d(x)d(y) + C2
C(X,Y) = ------------------------,d(x),d(y)為圖像的方差
d(x)^2 + d(y)^2 + C2

d(x,y) + C3
S(X,Y) = ----------------------,d(x,y)為圖像x,y的協方差
d(x)d(y) + C3

而圖像質量Q = [L(X,Y)^a] x [C(X,Y)^b] x [S(X,Y)^c]，其中a，b，c分別用來控制三個要素的重要性，為了計算方便可以均選擇為1，C1，C2，C3為比較小的數值，通常C1=(K1 x L)^2, C2=(K2 xL)^2, C3 = C2/2, K1

9. Python實現協同過濾推薦演算法，用的大一些的數據集就報錯MemoryError

python雖然易用，但是內存佔用比較多；所以如果你有C/C++/Java基礎，考慮用這些語專言來實現；
CF演算法屬需要計算大量的相似度，如果能把中間結果存起來，或者簡化計算過程（如，你可能會重復計算一個item的均值）可以省下不少內存；（個人試過計算1w個用戶Pearson是沒問題的）
如果內存實在不夠用，那就用時間換空間，把中間計算結果分成小文件存到磁碟上，用的時候再讀取。
供參考。

10. 基於聚類的協同過濾演算法都有哪些

自邀自答，不用謝。這是兩種完全不同的演算法思想。以二維空間為例，聚類是各個樣本版往若干權個共同中心聚合的過程，計算的是樣本點到聚類中心的二維空間距離；而協同過濾是盡量在樣本中構造平行相似性，以彌合缺失的樣本信息維度。聚類和協同過濾是可以而且應當在解決實際問題中混合使用的。但應該是在解決問題的不同階段。比如用戶興趣，首先使用聚類方法對人群進行若干大類的劃分，然後在一類人群中進行協同過濾。

導航:首頁 > 凈水問答 > 協同過濾suanfa

協同過濾suanfa

與協同過濾suanfa相關的資料