Ⅰ 推薦系統中——矩陣分解
在推薦系統中,我們經常會拿到一種數據是user—item的表格,然後對應的是每位user對每個item的評分,如下圖:
對於這個問題我們通常會選擇矩陣分解的方法來解決。
我們常見的推薦系統矩陣分解有BPR、SVD(funkSVD)、ALS、NMF、WRMF。
接下來就來看看推薦系統中常用的幾種矩陣分解的區別,主要通過公式、特點和適合哪種數據這幾個方面來講。
對於 矩陣 進行SVD分解,把矩陣 分解為:
其中 是矩陣 中較大的部分奇異值的個數,一般會遠遠的小於用戶數和物品數。如果我們要預測第 個用戶對第 個物品的評分 ,則只需要計算 即可。通過這種方法,我們可以將評分表裡面所有沒有評分的位置得到一個預測評分。通過找到最高的若干個評分對應的物品推薦給用戶。
可以看出這種方法簡單直接。但是有一個很大的問題我們忽略了,就是SVD分解要求矩陣是稠密的,也就是說矩陣的所有位置不能有空白。所以傳統的SVD實際上在推薦系統中還是比較難用的。
前面說到,傳統的SVD要求的矩陣是稠密的。那麼我們現在要解決的問題就是避開矩陣稀疏的問題。
FunkSVD是將矩陣 分解為兩個矩陣 ,這里採用了線性回歸的思想。我們的目標是讓用戶的評分和用矩陣乘積得到的評分殘差盡可能的小,也就是說,可以用均方差作為損失函數,來尋找最終的 。
對於某一個用戶評分 ,用FunkSVD分解,則對應的表示為 ,採用均方差做為損失函數,則我們期望均方差盡可能小:
在實際應用中,我們為了防止過擬合,會加入一個L2的正則化項,因此正式的FunkSVD的優化目標函數 :
其中 為正則化稀疏,需要調參。對於這個優化問題,我們一般通過梯度下降法來進行優化得到結果。
將上式分別對 求導,然後利用梯度下降法迭代, 的迭代公式如下:
還有許多基於FunkSVD的方法進行改進的,例如BiasSVD、SVD++等,這里就不細說了。
在很多推薦場景中,我們都是 基於現有的用戶和商品之間的一些數據,得到用戶對所有商品的評分,選擇高分的商品推薦給用戶 ,funkSVD演算法的做法最基本的做法,使用起來十分有效,而且模型的可擴展性也非常優秀,其基本思想也能廣泛運用於各種場景中。並且對於相似度計算方法的選擇,有多種相似度計算方法,每種都有對應優缺點,可針對不同場景使用最適合的相似度計算方法。由於funkSVD時間復雜度高,訓練速度較慢,可以使用梯度下降等機器學習相關方法來進行近似計算,以減少時間消耗。
參考: https://www.cnblogs.com/pinard/p/6351319.html
https://zhuanlan.hu.com/p/34497989
https://blog.csdn.net/syani/article/details/52297093
在有些推薦場景中,我們是為了在千萬級別的商品中推薦個位數的商品給用戶,此時,我們更關心的是用戶來說,哪些極少數商品在用戶心中有更高的優先順序,也就是排序更靠前。也就是說,我們需要一個排序演算法,這個演算法可以把每個用戶對應的所有商品按喜好排序。BPR就是這樣的一個我們需要的 排序演算法 。
在BPR演算法中,我們將任意用戶 對應的物品進行標記,如果用戶 在同時有物品 和 的時候點擊了 ,那麼我們就得到了一個三元組 ,它表示對用戶 來說, 的排序要比 靠前
BPR是基於矩陣分解的一種排序演算法,但是和funkSVD之類的演算法比,它不是做全局的評分優化,而是 針對每一個用戶自己的商品喜好分貝做排序優化 。因此在迭代優化的思路上完全不同。同時對於訓練集的要求也是不一樣的, funkSVD只需要用戶物品對應評分數據二元組做訓練集,而BPR則需要用戶對商品的喜好排序三元組做訓練集 。
參考: https://www.cnblogs.com/pinard/p/9128682.html
ALS是交替最小二乘的簡稱。在機器學習中,ALS特指使用交替最小二乘求解的一個協同推薦演算法。如:將用戶(user)對商品(item)的評分矩陣分解成2個矩陣:user對item 潛在因素的偏好矩陣(latent factor vector),item潛在因素的偏好矩陣。
假設有m個user和n個item,所以評分矩陣為R。ALS(alternating least squares)希望找到2個比較低緯度的矩陣(X和Y)來逼近這個評分矩陣R。
ALS的核心就是這樣一個假設:打分矩陣是近似低秩的。換句話說,就是一個 的打分矩陣可以由分解的兩個小矩陣 和 的乘積來近似。這就是ALS的矩陣分解方法。
為了讓X和Y相乘能逼近R,因此我們需要最小化損失函數(loss function),因此需要最小化損失函數,在此定義為平方誤差和(Mean square error, MSE)。
一般損失函數都會需要加入正則化項(Regularization item)來避免過擬合的問題,通常是用L2,所以目標函數會被修改為:
上面介紹了「最小二乘(最小平方誤差)」,但是還沒有講清楚「交替」是怎麼回事。因為X和Y都是未知的參數矩陣,因此我們需要用「交替固定參數」來對另一個參數求解。
先固定Y, 將loss function對X求偏導,使其導數等於0:
再固定X, 將loss function對Y求偏導,使其導數等於0:
然後進行迭代。
在實際應用中,由於待分解的矩陣常常是非常稀疏的,與SVD相比, ALS能有效的解決過擬合問題 。基於ALS的矩陣分解的協同過濾演算法的可擴展性也優於SVD。與隨機梯度下降的求解方式相比,一般情況下隨機梯度下降比ALS速度快;但有兩種情況ALS更優於隨機梯度下降:(1)當系統能夠並行化時,ALS的擴展性優於隨機梯度下降法。(2)ALS-WR能夠有效的處理用戶對商品的隱式反饋的數據。
但是ALS演算法是無法准確評估新加入的用戶或商品。這個問題也被稱為冷啟動問題。
參考: https://flashgene.com/archives/46364.html
https://flashgene.com/archives/52522.html
https://lumingdong.cn/recommendation-algorithm-based-on-matrix-decomposition.html#ALS
非負矩陣分解(Non-negative Matrix Factorization,NMF)演算法,即NMF是在矩陣中所有元素均為非負數約束條件之下的矩陣分解方法。NMF中要求原始的矩陣V的所有元素的均是非負的,並且矩陣V可以分解出的兩個小矩陣也是非負的,
給定一個打分矩陣R,NMF的目標是求解兩個非負秩矩陣 最小化目標函數如下:
計算 的梯度如下:
其中:
採用梯度下降的參數優化方式, 可得W以及H的更新迭代方式見下式:
在矩陣分解基礎上,加入了隱向量的非負限制。然後使用非負矩陣分解的優化演算法求解。
要用NMF做矩陣分解有一個很大的前提—— 用戶item之間的評分矩陣要求是非負並且分解出的小矩陣也要滿足非負約束 。NMF分解是對原矩陣的近似還原分解,其存在的問題和ALS相像,對於未知的評分預測相當不準確。
參考: https://flashgene.com/archives/52522.html
http://tripleday.cn/2017/01/12/sparse-nmf/
在有些場景下,雖然 沒有得到用戶具體的評分,但是能夠得到一些類似於「置信度」的信息(也稱為隱式反饋信息) ,例如用戶的游戲時長、觀看時長等數據。雖然時長信息不能直接體現用戶的喜好,但是能夠說明用戶喜歡的概率更大。在此場景下,用戶-物品記錄可以表示為一個置信度 和一個0-1指示量 (用戶-物品是否有交互),如果用戶-物品沒有交互,那麼置信度就為0。
「帶權」就是根據置信度計算每條記錄對應損失的權重,優化的目標函數如下:
權重通過置信度計算得到,可以使用 。由於未發生的交互也存在於損失函數中,因此慣用的隨機梯度下降存在性能問題,為此採用ALS來優化模型,因此訓練過程如下:
(1)更新每個用戶的向量:
(2)更新每個物品的向量:
前面除了BPR以外,我們講的演算法都是針對顯式反饋的評分矩陣的,因此當數據集只有隱式反饋時,應用上述矩陣分解直接建模會存在問題。而WRMF就可以解決隱式反饋的問題。
參考: https://sine-x.com/gorse-2/
https://flashgene.com/archives/52522.html
基於現有的用戶和商品之間的一些數據,得到用戶對所有商品的評分,選擇高分的商品推薦給用戶,可以根據以往的評分矩陣做全局的評分優化。有多種從SVD的改進演算法可選擇,如:表示biasSVD、SVD++、TimesSVD等
funkSVD可以解決矩陣稀疏的問題,但是其時間復雜度高,訓練速度較慢,可以使用梯度下降等機器學習相關方法來進行近似計算,以減少時間消耗。
ALS演算法和SVD的使用場景相似,也是基於用戶——商品評分數據得到全局用戶對商品的評分。
ALS能有效的解決過擬合問題,但是ALS演算法是無法准確評估新加入的用戶或商品。這個問題也被稱為冷啟動問題。
要用NMF做矩陣分解有一個很大的前提—— 用戶item之間的評分矩陣要求是非負並且分解出的小矩陣也要滿足非負約束 。NMF分解是對原矩陣的近似還原分解,NMF用法和SVD、ALS相似。
NMF存在的問題和ALS相像,對於未知的評分預測相當不準確。
BPR是基於矩陣分解的一種排序演算法,但是,它不是做全局的評分優化,而是 針對每一個用戶自己的商品喜好分貝做排序優化 。因此在迭代優化的思路上完全不同。 BPR需要用戶對商品的喜好排序三元組做訓練集 。
當 沒有得到用戶具體的評分,但是能夠得到一些類似於隱式反饋信息時,就可使用WRMF進行矩陣分解。
Ⅱ 個性化推薦是怎麼做的
各種推薦演算法不能僅僅是研發涉獵領域,作為PM,也要深入到演算法內部,了解演算法的設計,以及結合內容對演算法不斷「調教」,才能讓產品的推薦演算法不斷完善,才能符合用戶的口味。
目前比較流行的個性化推薦演算法有以下幾種:
基於內容的推薦:根據內容本身的屬性(特徵向量)所作的推薦。
基於關聯規則的推薦:「啤酒與尿布」的方式,是一種動態的推薦,能夠實時對用戶的行為作出推薦。是基於物品之間的特徵關聯性所做的推薦,在某種情況下會退化為物品協同過濾推薦。
協同過濾推薦:與基於關聯規則的推薦相比是一種靜態方式的推薦,是根據用戶已有的歷史行為作分析的基礎上做的推薦。可分為物品協同過濾、用戶協同過濾、基於模型的協同過濾。其中,基於模型的協同又可以分為以下幾種類型:基於距離的協同過濾;基於矩陣分解的協同過濾,即Latent
Factor Model(SVD)或者ALS;基於圖模型協同,即Graph,也叫社會網路圖模型。
1、產品冷啟動通過熱度演算法進行內容推薦
產品發展初期,由於一方面沒有用戶行為、用戶喜好、用戶畫像,另外也沒有大量的內容樣本基礎,是很難開展個性化推薦的。所以在產品初期,一般採取「熱度演算法」,顧名思義就是把熱點的內容優先推薦給用戶。雖然無法做到基於興趣和習慣為每一個用戶做到精準化的推薦,但能覆蓋到大部分的內容需求,而且啟動成本比個性化推薦演算法低太多。
熱度演算法基本原理:
新聞熱度分 = 初始熱度分 + 用戶交互產生的熱度分 – 隨時間衰減的熱度分
Score = S0 + S(Users) – S(Time)
1)以新聞或視頻較有時效性的內容舉例,熱度隨內容陳舊而分值衰減。
2)初始熱度分不要一視同仁。
按照新聞類別給予新聞不同的初始熱度,讓用戶關注度高的類別獲得更高的初始熱度分,從而獲得更多的曝光。軍事>娛樂>體育>財經....
對於重大事件的報道,如何讓它入庫時就有更高的熱度,我們採用的是熱詞匹配的方式。
即對大型新聞站點的頭條,Twitter熱點,競品的頭條做監控和扒取,並將這批新聞的關鍵詞維護到熱詞庫並保持更新;每條新聞入庫的時候,讓新聞的關鍵詞去匹配熱詞庫,匹配度越高,就有越高的初始熱度分。這樣處理後,重大事件發生時,Twitter和門戶網站的爭相報道會導致熱詞集中化,所有匹配到這些熱詞的新聞,即報道同樣事件的新聞,會獲得很高的初始熱度分。
3)用戶交互的熱度分值比重不一。首先明確用戶的的哪些行為會提高新聞的熱度值,然後對這些行為賦予一定的得分規則。
例如對於單條新聞,用戶可以點擊閱讀(click),收藏(favor),分享(share),評論(comment)這四種行為,我們為不同的行為賦予分數,就能得到新聞的實時用戶行為分為:
S(Users) = 1*click + 5*favor + 10*comment + 20*share
這里對不同行為賦予的分數為1,5,10,20,但這個值不能是一成不變的;當用戶規模小的時候,各項事件都小,此時需要提高每個事件的行為分來提升用戶行為的影響力;當用戶規模變大時,行為分也應該慢慢降低,因此做內容運營時,應該對行為分不斷調整。
當然也有偷懶的辦法,那就是把用戶規模考慮進去,算固定用戶數的行為分,即:
S(Users) = (1*click + 5*favor + 10*comment + 20*share)/ DAU * N(固定數)
這樣就保證了在不同用戶規模下,用戶行為產生的行為分基本穩定。
2、基於內容特徵與用戶特徵進行個性化推薦
對於此種推薦,有兩個實體:內容和用戶,因此需要有一個聯系這兩者的東西,即為標簽。內容轉換為標簽即為內容特徵化,用戶則稱為用戶特徵化。對於此種推薦,主要分為以下幾個關鍵部分:
標簽庫
內容特徵化
用戶特徵化
隱語義推薦
綜合上面講述的各個部分即可實現一個基於內容和用戶畫像的個性化推薦系統。
標簽庫
標簽是聯系用戶與物品、內容以及物品、內容之間的紐帶,也是反應用戶興趣的重要數據源。標簽庫的最終用途在於對用戶進行行為、屬性標記。是將其他實體轉換為計算機可以理解的語言關鍵的一步。
標簽庫則是對標簽進行聚合的系統,包括對標簽的管理、更新等。
一般來說,標簽是以層級的形式組織的。可以有一級維度、二級維度等。
標簽的來源主要有:
已有內容的標簽
網路抓取流行標簽
對運營的內容進行關鍵詞提取
對於內容的關鍵詞提取,使用結巴分詞+TFIDF即可。此外,也可以使用TextRank來提取內容關鍵詞。
這里需要注意的一點是對於關聯標簽的處理,比如用戶的標簽是足球,而內容的標簽是德甲、英超,那麼用戶和內容是無法聯系在一起的。最簡單的方式是人工設置關聯標簽,此外也可以使用word2vec一類工具對標簽做聚類處理,構建主題模型,將德甲、英超聚類到足球下面。
內容特徵化
內容特徵化即給內容打標簽。目前有兩種方式:
人工打標簽
機器自動打標簽
針對機器自動打標簽,需要採取機器學習的相關演算法來實現,即針對一系列給定的標簽,給內容選取其中匹配度最高的幾個標簽。這不同於通常的分類和聚類演算法。可以採取使用分詞 +Word2Vec來實現,過程如下:
將文本語料進行分詞,以空格,tab隔開都可以,使用結巴分詞。
使用word2vec訓練詞的相似度模型。
使用tfidf提取內容的關鍵詞A,B,C。
遍歷每一個標簽,計算關鍵詞與此標簽的相似度之和。
取出TopN相似度最高的標簽即為此內容的標簽。
此外,可以使用文本主題挖掘相關技術,對內容進行特徵化。這也分為兩種情況:
通用情況下,只是為了效果優化的特徵提取,那麼可以使用非監督學習的主題模型演算法。如LSA、PLSI和GaP模型或者LDA模型。
在和業務強相關時,需要在業務特定的標簽體系下給內容打上適合的標簽。這時候需要使用的是監督學習的主題模型。如sLDA、HSLDA等。
用戶特徵化
用戶特徵化即為用戶打標簽。通過用戶的行為日誌和一定的模型演算法得到用戶的每個標簽的權重。
用戶對內容的行為:點贊、不感興趣、點擊、瀏覽。對用戶的反饋行為如點贊賦予權值1,不感興趣賦予-1;對於用戶的瀏覽行為,則可使用點擊/瀏覽作為權值。
對內容發生的行為可以認為對此內容所帶的標簽的行為。
用戶的興趣是時間衰減的,即離當前時間越遠的興趣比重越低。時間衰減函數使用1/[log(t)+1], t為事件發生的時間距離當前時間的大小。
要考慮到熱門內容會干預用戶的標簽,需要對熱門內容進行降權。使用click/pv作為用戶瀏覽行為權值即可達到此目的。
此外,還需要考慮雜訊的干擾,如標題黨等。
另,在非業務強相關的情況下,還可以考慮使用LSA主題模型等矩陣分解的方式對用戶進行標簽化。
隱語義推薦
有了內容特徵和用戶特徵,可以使用隱語義模型進行推薦。這里可以使用其簡化形式,以達到實時計算的目的。
用戶對於某一個內容的興趣度(可以認為是CTR):
其中i=1…N是內容c具有的標簽,m(ci)指的內容c和標簽i的關聯度(可以簡單認為是1),n(ui)指的是用戶u的標簽i的權重值,當用戶不具有此標簽時n(ui)=0,q©指的是內容c的質量,可以使用點擊率(click/pv)表示。
3、其他運用
除了個性化推薦,基於內容的相關性演算法能精準地給出一篇新聞的相關推薦列表,對相關閱讀的實現非常有意義。此外,標簽系統對新聞分類的實現和提升准確性,也有重要的意義。
4、優缺點
基於內容的推薦演算法有幾個明顯優點:
對用戶數量沒有要求,無論日活幾千或是幾百萬,均可以採用;因此個性化推薦早期一般採用這種方式。
每個用戶的特徵都是由自己的行為來決定的,是獨立存在的,不會有互相干擾,因此惡意刷閱讀等新聞不會影響到推薦演算法。
而最主要的缺點就是確定性太強了,所有推薦的內容都是由用戶的閱讀歷史決定,所以沒辦法挖掘用戶的潛在興趣;也就是由於這一點,基於內容的推薦一般與其他推薦演算法同時存在。
基於用戶的協同推薦
終於,經過團隊的努力,你的產品已經有了大量活躍用戶了,這時候你開始不滿足於現有的演算法。雖然基於內容的推薦已經很精準了,但總是少了那麼一點性感。因為你所有給用戶的內容都是基於他們的閱讀習慣推薦的,沒能給用戶「不期而遇」的感覺。
於是,你就開始做基於用戶的協同過濾了。
基於用戶的協同過濾推薦演算法,簡單來講就是依據用戶A的閱讀喜好,為A找到與他興趣最接近的群體,所謂「人以群分」,然後把這個群體里其他人喜歡的,但是A沒有閱讀過的內容推薦給A。
舉例我是一個足球迷,系統找到與我類似的用戶都是足球的重度閱讀者,但與此同時,這些「足球群體」中有一部分人有看NBA新聞的習慣,系統就可能會給我推薦NBA內容,很可能我也對NBA也感興趣,這樣我在後台的興趣圖譜就更完善了。
1、用戶群體劃分
做基於用戶的協同過濾,首先就要做用戶的劃分,可以從三方面著手:
(1)外部數據的借用
這里使用社交平台數據的居多,現在產品的登錄體系一般都借用第三方社媒的登錄體系,如國外的Facebook、Twitter,國內的微信、微博,借用第三方賬戶的好處多多,例如降低門檻,方便傳播等,還能對個性化推薦起到重要作用。
因為第三方賬戶都是授權獲取部分用戶信息的,往往包括性別,年齡,工作甚至社交關系等,這些信息對用戶群劃分很有意義。
此外還有其他的一些數據也能借用,例如IP地址,手機語種等。
使用這些數據,你很容易就能得到一個用戶是北京的還是上海的,是大學生還是創業者,並依據這些屬性做准確的大類劃分。
比如一篇行業投資分析出來後,「上海創業圈」這個群體80%的用戶都看過,那就可以推薦給剩下的20%。
(2)產品內主動詢問
常見在產品首次啟動的時候,彈框詢問用戶是男是女,職業等,這樣能對內容推薦的冷啟動提供一些幫助。但總體來說,性價比偏低,只能詢問兩三個問題並對用戶的推薦內容做非常粗略的劃分,同時要避免打擾到用戶;這種做法算是基於用戶個性化的雛形。
(3)對比用戶特徵
新聞的特徵加用戶的閱讀數據能得到用戶的特徵,那就可以通過用戶特徵的相似性來劃分群體。
最後總結,沒有一款完美的個性化推薦演算法,畢竟用戶的心裡你別猜別猜別猜,但是產品經理還是要結合自身產品不斷打磨演算法。
Ⅲ 冷啟動什麼意思 冷啟動的意思是什麼
1、冷啟動,電腦的一種啟動方式。就是切斷電腦的電源,重新啟動,一旦冷啟動,內存的東西全部丟失,重新檢測硬體,進入CMOS,再依啟動操作系統。一般按機箱上POWER按鈕啟動。
2、另一種也指冷啟動問題是協同過濾推薦演算法中被廣泛關注的一個經典問題。
3、也指一種作戰方式。
Ⅳ 07_推薦系統演算法詳解
基於人口統計學的推薦與用戶畫像、基於內容的推薦、基於協同過濾的推薦。
1、基於人口統計學的推薦機制( Demographic-based Recommendation)是一種最易於實現的推薦方法,它只是簡單的根據系統用戶的基本信息發現用戶的相關程度,然後將相似用戶喜愛的其他物品推薦給當前用戶。
2、對於沒有明確含義的用戶信息(比如登錄時間、地域等上下文信息),可以通過聚類等手段,給用戶打上分類標簽。
3、對於特定標簽的用戶,又可以根據預設的規則(知識)或者模型,推薦出對應的物品。
4、用戶信息標簽化的過程一般又稱為 用戶畫像 ( User Profiling)。
(1)用戶畫像( User Profile)就是企業通過收集與分析消費者社會屬性、生活習慣、消費行為等主要信息的數據之後,完美地抽象出一個用戶的商業全貌作是企業應用大數據技術的基本方式。
(2)用戶畫像為企業提供了足夠的信息基礎,能夠幫助企業快速找到精準用戶群體以及用戶需求等更為廣泛的反饋信息。
(3)作為大數據的根基,它完美地抽象出一個用戶的信息全貌,為進一步精準、快速地分析用戶行為習慣、消費習慣等重要信息,提供了足夠的數據基礎。
1、 Content- based Recommendations(CB)根據推薦物品或內容的元數據,發現物品的相關性,再基於用戶過去的喜好記錄,為用戶推薦相似的物品。
2、通過抽取物品內在或者外在的特徵值,實現相似度計算。比如一個電影,有導演、演員、用戶標簽UGC、用戶評論、時長、風格等等,都可以算是特徵。
3、將用戶(user)個人信息的特徵(基於喜好記錄或是預設興趣標簽),和物品(item)的特徵相匹配,就能得到用戶對物品感興趣的程度。在一些電影、音樂、圖書的社交網站有很成功的應用,有些網站還請專業的人員對物品進行基因編碼/打標簽(PGC)。
4、 相似度計算:
5、對於物品的特徵提取——打標簽(tag)
- 專家標簽(PGC)
- 用戶自定義標簽(UGC)
- 降維分析數據,提取隱語義標簽(LFM)
對於文本信息的特徵提取——關鍵詞
- 分詞、語義處理和情感分析(NLP)
- 潛在語義分析(LSA)
6、 基於內容推薦系統的高層次結構
7、 特徵工程
(1)特徵( feature):數據中抽取出來的對結果預測有用的信息。
特徵的個數就是數據的觀測維度。
特徵工程是使用專業背景知識和技巧處理數據,使得特徵能在機器學習演算法上發揮更好的作用的過程。
特徵工程一般包括特徵清洗(采樣、清洗異常樣本),特徵處理和特徵選擇。
特徵按照不同的數據類型分類,有不同的特徵處理方法:數值型、類別型、時間型、統計型。
(2)數值型特徵處理
用連續數值表示當前維度特徵,通常會對數值型特徵進行數學上的處理,主要的做法是歸一化和離散化。
* 幅度調整歸一化:
特徵與特徵之間應該是平等的,區別應該體現在 特徵內部 。
例如房屋價格和住房面積的幅度是不同的,房屋價格可能在3000000~15000000(萬)之間,而住房面積在40-300(平方米)之間,那麼明明是平等的兩個特徵,輸入到相同的模型中後由於本身的幅值不同導致產生的效果不同,這是不合理的
* 數值型特徵處理——離散化
離散化的兩種方式:等步長——簡單但不一定有效;等頻——min -> 25% -> 75% -> max
兩種方法對比:
等頻的離散化方法很精準,但需要每次都對數據分布進行一遍從新計算,因為昨天用戶在淘寶上買東西的價格分布和今天不一定相同,因此昨天做等頻的切分點可能並不適用,而線上最需要避免的就是不固定,需要現場計算,所以昨天訓練出的模型今天不一定能使用。
等頻不固定,但很精準,等步長是固定的,非常簡單,因此兩者在工業上都有應用。
(3) 類別型特徵處理
類別型數據本身沒有大小關系,需要將它們編碼為數字,但它們之間不能有預先設定的大小關系,因此既要做到公平,又要區分開它們,那麼直接開辟多個空間。
One-Hot編碼/啞變數:One-Hot編碼/啞變數所做的就是將類別型數據平行地展開,也就是說,經過One-Hot編碼啞變數後,這個特徵的空間會膨脹。
(4) 時間型特徵處理
時間型特徵既可以做連續值,又可以看做離散值。
連續值:持續時間(網頁瀏覽時長);間隔時間(上一次購買/點擊離現在的時間間隔)。
離散值:一天中哪個時間段;一周中的星期幾;一年中哪個月/星期;工作日/周末。
(5) 統計型特徵處理
加減平均:商品價格高於平均價格多少,用戶在某個品類下消費超過多少。
分位線:商品屬於售出商品價格的分位線處。
次序性:商品處於熱門商品第幾位。
比例類:電商中商品的好/中/差評比例。
8、 推薦系統常見反饋數據 :
9、 基於UGC的推薦
用戶用標簽來描述對物品的看法,所以用戶生成標簽(UGC)是聯系用戶和物品的紐帶,也是反應用戶興趣的重要數據源。
一個用戶標簽行為的數據集一般由一個三元組(用戶,物品,標簽)的集合表示,其中一條記錄(u,i,b)表示用戶u給物品打上了標簽b。
一個最簡單的演算法:
- 統計每個用戶最常用的標簽
- 對於每個標簽,統計被打過這個標簽次數最多的物品
- 對於一個用戶,首先找到他常用的標簽,然後找到具有這些標簽的最熱門的物品,推薦給他
- 所以用戶u對物品i的興趣公式為 ,其中 使用戶u打過標簽b的次數, 是物品i被打過標簽b的次數。
簡單演算法中直接將用戶打出標簽的次數和物品得到的標簽次數相乘,可以簡單地表現出用戶對物品某個特徵的興趣。
這種方法傾向於給熱門標簽(誰都會給的標簽,如「大片」、「搞笑」等)、熱門物品(打標簽人數最多)比較大的權重,如果一個熱門物品同時對應著熱門標簽,那它就會「霸榜」,推薦的個性化、新穎度就會降低。
類似的問題,出現在新聞內容的關鍵字提取中。比如以下新聞中,哪個關鍵字應該獲得更高的權重?
10、 TF-IDF:詞頻逆文檔頻率 ( Term Frequency- -Inverse Document Frequency,TF-DF)是一種用於資訊檢索與文本挖掘的常用加權技術。
TFDF是一種統計方法,用以評估一個字詞對於一個文件集或一個語料庫中的其中份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。
TFIDF=TF IDF
TF-IDF的主要思想是 :如果某個詞或短語在一篇文章中出現的頻率TF高,並且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。
TF-DF加權的各種形式常被搜索引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。
詞頻( Term Frequency,TF) :指的是某一個給定的詞語在該文件中出現的頻率。這個數字是對詞數的歸一化,以防止偏向更長的文件。(同一個詞語在長文件里可能會比短文件有更高的詞數,而不管該詞語重要與否。) ,其中 表示詞語 i 在文檔 j 中出現的頻率, 表示 i 在 j 中出現的次數, 表示文檔 j 的總詞數。
逆向文件頻率( Inverse Document Frequency,IDF) :是一個詞語普遍重要性的度量,某一特定詞語的IDF,可以由總文檔數目除以包含該詞語之文檔的數目,再將得到的商取對數得到 ,其中 表示詞語 i 在文檔集中的逆文檔頻率,N表示文檔集中的文檔總數, 表示文檔集中包含了詞語 i 的文檔數。
(11) TF-IDF對基於UGC推薦的改進 : ,為了避免熱門標簽和熱門物品獲得更多的權重,我們需要對「熱門進行懲罰。
借鑒TF-IDF的思想,以一個物品的所有標簽作為「文檔」,標簽作為「詞語」,從而計算標簽的「詞頻」(在物品所有標簽中的頻率)和「逆文檔頻率」(在其它物品標簽中普遍出現的頻率)。
由於「物品i的所有標簽」 應該對標簽權重沒有影響,而 「所有標簽總數」 N 對於所有標簽是一定的,所以這兩項可以略去。在簡單演算法的基礎上,直接加入對熱門標簽和熱門物品的懲罰項: ,其中, 記錄了標簽 b 被多少個不同的用戶使用過, 記錄了物品 i 被多少個不同的用戶打過標簽。
(一)協同過濾(Collaborative Filtering, CF)
1、基於協同過濾(CF)的推薦:基於內容( Content based,CB)主要利用的是用戶評價過的物品的內容特徵,而CF方法還可以利用其他用戶評分過的物品內容。
CF可以解決CB的一些局限:
- 物品內容不完全或者難以獲得時,依然可以通過其他用戶的反饋給出推薦。
- CF基於用戶之間對物品的評價質量,避免了CB僅依賴內容可能造成的對物品質量判斷的干。
- CF推薦不受內容限制,只要其他類似用戶給出了對不同物品的興趣,CF就可以給用戶推薦出內容差異很大的物品(但有某種內在聯系)
分為兩類:基於近鄰和基於模型。
2、基於近鄰的推薦系統:根據的是相同「口碑」准則。是否應該給Cary推薦《泰坦尼克號》?
(二)基於近鄰的協同過濾
1、 基於用戶(User-CF): 基於用戶的協同過濾推薦的基本原理是,根據所有用戶對物品的偏好,發現與當前用戶口味和偏好相似的「鄰居」用戶群,並推薦近鄰所偏好的物品。
在一般的應用中是採用計算「K-近鄰」的演算法;基於這K個鄰居的歷史偏好信息,為當前用戶進行推薦。
User-CF和基於人口統計學的推薦機制:
- 兩者都是計算用戶的相似度,並基於相似的「鄰居」用戶群計算推薦。
- 它們所不同的是如何計算用戶的相似度:基於人口統計學的機制只考慮用戶本身的特徵,而基於用戶的協同過濾機制可是在用戶的歷史偏好的數據上計算用戶的相似度,它的基本假設是,喜歡類似物品的用戶可能有相同或者相似的口味和偏好。
2、基於物品(Item-CF):基於項目的協同過濾推薦的基本原理與基於用戶的類似,只是使用所有用戶對物品的偏好,發現物品和物品之間的相似度,然後根據用戶的歷史偏好信息,將類似的物品推薦給用戶。
Item-CF和基於內容(CB)的推薦
- 其實都是基於物品相似度預測推薦,只是相似度計算的方法不一樣,前者是從用戶歷史的偏好推斷,而後者是基於物品本身的屬性特徵信息。
同樣是協同過濾,在基於用戶和基於項目兩個策略中應該如何選擇呢?
- 電商、電影、音樂網站,用戶數量遠大於物品數量。
- 新聞網站,物品(新聞文本)數量可能大於用戶數量。
3、 User-CF和Item-CF的比較
同樣是協同過濾,在User-CF和ltem-CF兩個策略中應該如何選擇呢?
Item-CF應用場景
- 基於物品的協同過濾( Item-CF ) 推薦機制是 Amazon在基於用戶的機制上改良的一種策略因為在大部分的Web站點中,物品的個數是遠遠小於用戶的數量的,而且物品的個數和相似度相對比較穩定,同時基於物品的機制比基於用戶的實時性更好一些,所以 Item-CF 成為了目前推薦策略的主流。
User-CF應用場景
- 設想一下在一些新聞推薦系統中,也許物品一一也就是新聞的個數可能大於用戶的個數,而且新聞的更新程度也有很快,所以它的相似度依然不穩定,這時用 User-cf可能效果更好。
所以,推薦策略的選擇其實和具體的應用場景有很大的關系。
4、 基於協同過濾的推薦優缺點
(1)基於協同過濾的推薦機制的優點:
它不需要對物品或者用戶進行嚴格的建模,而且不要求對物品特徵的描述是機器可理解的,所以這種方法也是領域無關的。
這種方法計算出來的推薦是開放的,可以共用他人的經驗,很好的支持用戶發現潛在的興趣偏好。
(2)存在的問題
方法的核心是基於歷史數據,所以對新物品和新用戶都有「冷啟動」的問題。
推薦的效果依賴於用戶歷史好數據的多少和准確性。
在大部分的實現中,用戶歷史偏好是用稀疏矩陣進行存儲的,而稀疏矩陣上的計算有些明顯的問題,包括可能少部分人的錯誤偏好會對推薦的准確度有很大的影響等等。
對於一些特殊品味的用戶不能給予很好的推薦。
(三)基於模型的協同過濾
1、基本思想
(1)用戶具有一定的特徵,決定著他的偏好選擇
(2)物品具有一定的特徵,影響著用戶需是否選擇它。
(3)用戶之所以選擇某一個商品,是因為用戶特徵與物品特徵相互匹配。
基於這種思想,模型的建立相當於從行為數據中提取特徵,給用戶和物品同時打上「標簽」;這和基於人口統計學的用戶標簽、基於內容方法的物品標簽本質是一樣的,都是特徵的提取和匹配。
有顯性特徵時(比如用戶標簽、物品分類標簽)我們可以直接匹配做出推薦;沒有時,可以根據已有的偏好數據,去發據出隱藏的特徵,這需要用到隱語義模型(LFM)。
2、基於模型的協同過濾推薦,就是基於樣本的用戶偏好信息,訓練一個推薦模型,然後根據實時的用戶喜好的信息進行預測新物品的得分,計算推薦
基於近鄰的推薦和基於模型的推薦
- 基於近鄰的推薦是在預測時直接使用已有的用戶偏好數據,通過近鄰數據來預測對新物品的偏好(類似分類)
- 而基於模型的方法,是要使用這些偏好數據來訓練模型,找到內在規律,再用模型來做預測(類似回歸)
訓練模型時,可以基於標簽內容來提取物品特徵,也可以讓模型去發據物品的潛在特徵;這樣的模型被稱為 隱語義模型 ( Latent Factor Model,LFM)。
(1)隱語義模型(LFM):用隱語義模型來進行協同過濾的目標:
- 揭示隱藏的特徵,這些特徵能夠解釋為什麼給出對應的預測評分
- 這類特徵可能是無法直接用語言解釋描述的,事實上我們並不需要知道,類似「玄學」
通過矩陣分解進行降維分析
- 協同過濾演算法非常依賴歷史數據,而一般的推薦系統中,偏好數據又往往是稀疏的;這就需要對原始數據做降維處理。
- 分解之後的矩陣,就代表了用戶和物品的隱藏特徵
隱語義模型的實例:基於概率的隱語義分析(pLSA)、隱式迪利克雷分布模型(LDA)、矩陣因子分解模型(基於奇異值分解的模型,SVD)
(2)LFM降維方法——矩陣因子分解
(3)LFM的進一步理解
我們可以認為,用戶之所以給電影打出這樣的分數,是有內在原因的,我們可以挖掘出影響用戶打分的隱藏因素,進而根據未評分電影與這些隱藏因素的關聯度,決定此未評分電影的預測評分。
應該有一些隱藏的因素,影響用戶的打分,比如電影:演員、題材、年代…甚至不定是人直接可以理解的隱藏因子。
找到隱藏因子,可以對user和Iiem進行關聯(找到是由於什麼使得user喜歡/不喜歡此Item,什麼會決定user喜歡/不喜歡此item),就可以推測用戶是否會喜歡某一部未看過的電影。
(4)矩陣因子分解
(5)模型的求解——損失函數
(6)模型的求解演算法——ALS
現在,矩陣因子分解的問題已經轉化成了一個標準的優化問題,需要求解P、Q,使目標損失函數取最小值。
最小化過程的求解,一般採用隨機梯度下降演算法或者交替最小二乘法來實現交替最小二乘法( Alternating Least Squares,ALS)
ALS的思想是,由於兩個矩陣P和Q都未知,且通過矩陣乘法耦合在一起,為了使它們解耦,可以先固定Q,把P當作變數,通過損失函數最小化求出P,這就是一個經典的最小二乘問題;再反過來固定求得的P,把Q當作變數,求解出Q:如此交替執行,直到誤差滿足閱值條件,或者到達迭代上限。
(7)梯度下降演算法
Ⅳ 冷啟動的意思
冷啟動,電腦的一復種啟動方制式。就是切斷電腦的電源,重新啟動,一旦冷啟動,內存的東西全部丟失,重新檢測硬體,進入CMOS,再依啟動操作系統。一般按機箱上POWER按鈕啟動。
另一種也指冷啟動問題是協同過濾推薦演算法中被廣泛關注的一個經典問題。
Ⅵ 個性化推薦系統的基本框架
個性化推薦系統的基本框架如下:
參考國內最具代表性的百分點推薦系統框架來講,個性化推薦系統的推薦引擎在個性化演算法的框架基礎之上,還引入場景引擎、規則引擎和展示引擎,形成全新的百分點推薦引擎的技術框架,系統通過綜合並利用用戶的興趣偏好、屬性,商品的屬性、內容、分類,以及用戶之間的社交關系等等,挖掘用戶的喜好和需求,主動向用戶推薦其感興趣或者需要的商品。
基於雲計算的個性化推薦平台。消除數據孤島,建立基於用戶全網興趣偏好軌跡的精準雲計算分析模型,打通用戶在多個網站的興趣偏好,形成成用戶行為偏好大數據中心。
多種智能演算法庫。基於多維度的數據挖掘、統計分析,進行演算法模型的建立和調優。綜合利用基於內容、基於用戶行為和基於社交關系網路的多種演算法,為用戶推薦其喜歡的商品、服務或內容。
電子商務推薦系統的主要演算法有:
(1) 基於關聯規則的推薦演算法(Association Rule-based Recommendation)
(2) 基於內容的推薦演算法 (Content-based Recommendation)
內容過濾主要採用自然語言處理、人工智慧、概率統計和機器學習等技術進行過濾。
通過相關特徵的屬性來定義項目或對象,系統基於用戶評價對象的特徵學慣用戶的興趣,依據用戶資料與待預測項目的匹配程度進行推薦,努力向客戶推薦與其以前喜歡的產品相似的產品。如新聞組過濾系統News Weeder。
基於內容過濾的系統其優點是簡單、有效。尤其對於推薦系統常見的冷啟動(Cold Start)問題,Content-based方法能夠比較好的進行解決。因為該演算法不依賴於大量用戶的點擊日誌,只需要使用待推薦對象(item)本身的屬性、類目、關鍵詞等特徵,因此該方法在待推薦對象數量龐大、變化迅速、積累點擊數稀少等應用場景下有較好的效果。但該方法的缺點是對推薦物的描述能力有限,過分細化,推薦結果往往局限與原對象相似的類別中,無法為客戶發現新的感興趣的資源,只能發現和客戶已有興趣相似的資源。這種方法通常被限制在容易分析內容的商品的推薦,而對於一些較難提取出內容的商品,如音樂CD、電影等就不能產生滿意的推薦效果。
(3) 協同過濾推薦演算法 (Collaborative Filtering Recommendation)
協同過濾是在信息過濾和信息系統中正迅速成為一項很受歡迎的技術。與傳統的基於內容過濾直接分析內容進行推薦不同,協同過濾分析用戶興趣,在用戶群中找到指定用戶的相似(興趣)用戶,綜合這些相似用戶對某一信息的評價,形成系統對該指定用戶對此信息的喜好程度預測。
與傳統文本過濾相比,協同過濾有下列優點:
1)能夠過濾難以進行機器自動基於內容分析的信息。如藝術品、音樂;
2)能夠基於一些復雜的,難以表達的概念(信息質量、品位)進行過濾;
3)推薦的新穎性。 正因為如此,協同過濾在商業應用上也取得了不錯的成績。Amazon,CDNow,MovieFinder,都採用了協同過濾的技術來提高服務質量。
協同過濾推薦演算法,可進一步細分為基於用戶的協同過濾(user-based collaborative filtering)和基於物品的協同過濾(item-based collaborative filtering)。
基於用戶的協同過濾的基本思想是:根據所有用戶對物品或者信息的偏好,發現與當前用戶口味和偏好相似的「鄰居」用戶群,在一般的應用中是採用計算「K- 鄰居」的演算法;然後,基於這 K 個鄰居的歷史偏好信息,為當前用戶進行物品的推薦。
基於物品的協同過濾的基本原理也類似,該方法根據用戶和物品直接歷史點擊或購買記錄,來計算物品和物品之間的相似度,然後根據用戶的歷史偏好的物品信息,將挖掘到的類似的物品推薦給用戶
基於用戶的協同過濾和基於物品的協同過濾各自有其適用場景。總的來看,協同過濾方法的缺點是:
1)稀疏性問題:如果用戶對商品的評價非常稀疏,這樣基於用戶的評價所得到的用戶間的相似性可能不準確;
2)可擴展性問題:隨著用戶和商品的增多,系統的性能會越來越低;
3)冷啟動問題:如果從來沒有用戶對某一商品加以評價,則這個商品就不可能被推薦。
4)長尾問題:對微小市場的推薦。
因此,現在的電子商務推薦系統都採用了幾種技術相結合的推薦技術。
Ⅶ 協同過濾與分類
[TOC]
本文是《寫給程序員的數據挖掘實踐指南》的一周性筆記總結。主要涵蓋了以下內容:
所謂推薦系統就是系統根據你的行為操作為你推薦你可能想要的其他物品。這在電商平台、音樂平台、資訊推送平台等多有見到。而協同過濾簡單來說是利用某興趣相投、擁有共同經驗之群體的喜好來推薦用戶感興趣的信息,個人通過合作的機制給予信息相當程度的回應(如評分)並記錄下來以達到過濾的目的進而幫助別人篩選信息。其推薦基礎是用戶評分。這里可以分為兩種用戶評分,即顯式評分與隱式評分。顯式評分即日常見到的為物品打分,如對喜好音樂評級等;隱式評分是通過對用戶行為的持續性觀察,進而發現用戶偏好的一種方法,如新聞網頁中的推送你經常閱讀過的相關內容等。兩種評分方法都有自己的問題。
總體來說,協同過濾其運作機制也可以分為兩種:
基於用戶的推薦是指通過用戶的行為偏好,劃分相似用戶。在相似用戶群體之間互相推送一方喜歡而另一方未有過的物品。核心在於相似用戶群體的劃分。這種推薦方法有自己的局限:
基於用戶的過濾其核心是用戶群體的劃分,其實也就是分類。
這里的距離函數包括三種:曼哈頓距離和歐氏距離。這里以二維舉例,更多維情況下類推即可。
兩距離函數可以一般化為:
其中,當r=1時,函數為曼哈頓距離;當r=2時,函數為歐氏距離。
演算法實現:
在算出距離函數後,通過比對目標用戶與所有用戶群體的偏好,找到最近鄰的用戶並給予推薦。
基於用戶距離的推薦有一個明顯的問題,就是用戶評分體系的差異。比如評分極端的用戶給喜歡的評最高分,給不喜歡的評最低分;而有些用戶傾向於不出現極端評分。即所謂「分數貶值」( Grade Inflation )問題。這種問題的存在可能讓基於距離的評分產生偏差。皮爾遜相關系數可以緩解這種問題。
原皮爾遜相關系數公式在實際運用的時候會出現多次迭代的問題,影響計算效率,這里給出了近似公式:
皮爾遜相關系數的用戶判斷依據不是單純的用戶距離,而是用戶的評分一致性:取值在[-1, 1]之間,越接近1則表示兩用戶的評分一致性越好;反之則反。
python實現:
基於用戶推薦的過程中,另一個存在的問題就是由於大部分人的喜愛物品集合的交集過少,存在大量計算值為0的feature的情況。即所謂 稀疏性 問題。一個較容易理解的例子是對書本內容的挖掘。餘弦相似度會忽略這種0-0匹配。
餘弦相似度:
python實現:
如此多的評估系數,如何進行抉擇呢?根據數據特徵:
另外值得考慮的一點是,目前為止的推薦都是基於單用戶的。即對一個用戶的推薦系統只是基於另一個用戶。這會存在一些問題。比如雖然雖然兩者相似度很高,但是另外一個人有一些怪癖,怪癖的推薦就是不合理的;又比如,在相似度極高的情況下,你不能確定統一賬戶下的操作是同一個人做出的或者說操作行為是為了用戶自身。比如用戶考慮購買某件商品作為禮物送給別人,這就是基於別人喜好的購買行為,這種推薦也是不合適的。
對這種問題的解決可以使用群體劃分的方法。原理與單用戶類似,但是用戶的匹配是k個。在這k位最優匹配的用戶之間,以相似度的大小為依據設定權重作為物品推薦的條件。此即協同過濾的k近鄰。
正如前面提到的基於用戶的推薦有復雜度、稀疏性的問題,而基於物品的過濾則可以緩解這些問題。所謂基於物品的過濾是指,我們事先找到最相似的物品,並結合用戶對物品的評級結果來生成推薦。前提是要對物品進行相似度匹配,找到一種演算法。
這里的調整是指為了減輕用戶評分體系的不一致情況(抵消分數貶值),從每個評級結果中減去該用戶所有物品的平均分的評級結果。
其中,U表示所有同時對i, j進行評級過的用戶的集合。 表示用戶u給物品i的評分減去用戶u對所有物品的評分的平均值。
在得到所有物品的餘弦相似度後,我們就可以通過該指數預測用戶對某件物品的偏好程度。方法就是所有相似物品的相似度乘以得分的總和。
其中p(u, i)指的是用戶u對物品i評分的預測值。N是用戶u的所有評級物品中每個和i得分相似的物品。這里的相似指的是矩陣中存在N和i的一個相似度得分。 是i和N之間的相似度得分。 是u給N的評級結果。公式較好運行的條件是 取值在(-1, 1)之間,這里就要使用歸一化概念。
另一種常用的基於物品過濾的演算法就是 slope one 演算法。它的大概原理是預測用戶u對產品j的評分時,預先計算包含所有物品的兩物品偏差表;根據u的已評價的所有物品評分與該物品和產品j的偏差( )之和並乘以所有對此兩類物品有過評分的用戶個數,一一加總,除以所有同時對產品i與u評價過的所有物品有過評分的用戶的人數,得到得分。公式如下:
其中, ; 是利用加權s1演算法給出的用戶u對物品j的預測值。 指的是對所有除j之外u打過分的物品。
python實現:
在前面兩節中,基於物品和基於用戶的過濾其前提都是用戶需要對已有的item進行評分。而實際上,如果一個新的item出現,由於缺乏別人的偏好,他永遠不會被推薦。這就是推薦系統中所謂的—— 冷啟動 問題。基於用戶評價的系統就會出現這種問題。
冷啟動 問題的解決方案之一就是 基於物品屬性的過濾 來進行推薦:對物品自身的屬性進行歸納總結,並以此進行物品推薦。基於物品屬性的過濾存在一個問題同樣是量綱的不統一。如果量綱不統一極端值將會對推薦系統造成大麻煩。解決方法也很簡單:歸一化。此章使用的是z-評分。
使用z得分也存在問題,就是極易受到離群值的影響。這里可以使用 改進的標准分數 來緩解這個問題:
什麼時候可以進行歸一化呢?
這里用曼哈頓距離舉例基於物品屬性的過濾:
在上一章最後一節對於用戶是否喜歡某件item的判別中,實際上包含了分類器的思想:分類器就是利用對象屬性判定對象屬於哪個組或類別的程序。這里簡單用另一個小項目來說明。
簡單來說就是根據運動員的某些指標來判斷這位運動員屬於什麼類別的運動員。
准確率有0.8。
Ⅷ 冷啟動是什麼,有人知道冷啟動是做什麼的
冷起動有兩種情況,不知道你說的是哪一種。
一,電腦的一種啟動方式。就是切回斷電腦的電源,重新啟動,答一旦冷啟動,內存的東西全部丟失,重新檢測硬體,進入CMOS,再依啟動操作系統。一般按機箱上POWER按鈕啟動。
二,是協同過濾推薦演算法中被廣泛關注的一個經典問題。
Ⅸ 推薦演算法簡介
寫在最前面:本文內容主要來自於書籍《推薦系統實踐》和《推薦系統與深度學習》。
推薦系統是目前互聯網世界最常見的智能產品形式。從電子商務、音樂視頻網站,到作為互聯網經濟支柱的在線廣告和新穎的在線應用推薦,到處都有推薦系統的身影。推薦演算法是推薦系統的核心,其本質是通過一定的方式將用戶和物品聯系起來,而不同的推薦系統利用了不同的方式。
推薦系統的主要功能是以個性化的方式幫助用戶從極大的搜索空間中快速找到感興趣的對象。因此,目前所用的推薦系統多為個性化推薦系統。個性化推薦的成功應用需要兩個條件:
在推薦系統的眾多演算法中,基於協同的推薦和基於內容的推薦在實踐中得到了最廣泛的應用。本文也將從這兩種演算法開始,結合時間、地點上下文環境以及社交環境,對常見的推薦演算法做一個簡單的介紹。
基於內容的演算法的本質是對物品內容進行分析,從中提取特徵,然後基於用戶對何種特徵感興趣來推薦含有用戶感興趣特徵的物品。因此,基於內容的推薦演算法有兩個最基本的要求:
下面我們以一個簡單的電影推薦來介紹基於內容的推薦演算法。
現在有兩個用戶A、B和他們看過的電影以及打分情況如下:
其中問好(?)表示用戶未看過。用戶A對《銀河護衛隊 》《變形金剛》《星際迷航》三部科幻電影都有評分,平均分為 4 .7 分 ( (5+4+5 ) / 3=4.7 );對《三生三世》《美人魚》《北京遇上西雅圖》三部愛情電影評分平均分為 2.3 分 ( ( 3十2+2 ) /3=2.3 )。現在需要給A推薦電影,很明顯A更傾向於科幻電影,因此推薦系統會給A推薦獨立日。而對於用戶B,通過簡單的計算我們可以知道更喜歡愛情電影,因此給其推薦《三生三世》。當然,在實際推薦系統中,預測打分比這更加復雜些,但是其原理是一樣的。
現在,我們可以將基於內容的推薦歸納為以下四個步驟:
通過上面四步就能快速構建一個簡單的推薦系統。基於內容的推薦系統通常簡單有效,可解釋性好,沒有物品冷啟動問題。但他也有兩個明顯的缺點:
最後,順便提一下特徵提取方法:對於某些特徵較為明確的物品,一般可以直接對其打標簽,如電影類別。而對於文本類別的特徵,則主要是其主題情感等,則些可以通過tf-idf或LDA等方法得到。
基於協同的演算法在很多地方也叫基於鄰域的演算法,主要可分為兩種:基於用戶的協同演算法和基於物品的協同演算法。
啤酒和尿布的故事在數據挖掘領域十分有名,該故事講述了美國沃爾瑪超市統計發現啤酒和尿布一起被購買的次數非常多,因此將啤酒和尿布擺在了一起,最後啤酒和尿布的銷量雙雙增加了。這便是一個典型的物品協同過濾的例子。
基於物品的協同過濾指基於物品的行為相似度(如啤酒尿布被同時購買)來進行物品推薦。該演算法認為,物品A和物品B具有很大相似度是因為喜歡物品A的用戶大都也喜歡物品B。
基於物品的協同過濾演算法主要分為兩步:
基於物品的協同過濾演算法中計算物品相似度的方法有以下幾種:
(1)基於共同喜歡物品的用戶列表計算。
此外,John S. Breese再其論文中還提及了IUF(Inverse User Frequence,逆用戶活躍度)的參數,其認為活躍用戶對物品相似度的貢獻應該小於不活躍的用戶,應該增加IUF參數來修正物品相似度的公式:
上面的公式只是對活躍用戶做了一種軟性的懲罰, 但對於很多過於活躍的用戶, 比如某位買了當當網80%圖書的用戶, 為了避免相似度矩陣過於稠密, 我們在實際計算中一般直接忽略他的興趣列表, 而不將其納入到相似度計算的數據集中。
(2)基於餘弦相似度計算。
(3)熱門物品的懲罰。
從上面(1)的相似度計算公式中,我們可以發現當物品 i 被更多人購買時,分子中的 N(i) ∩ N(j) 和分母中的 N(i) 都會增長。對於熱門物品,分子 N(i) ∩ N(j) 的增長速度往往高於 N(i),這就會使得物品 i 和很多其他的物品相似度都偏高,這就是 ItemCF 中的物品熱門問題。推薦結果過於熱門,會使得個性化感知下降。以歌曲相似度為例,大部分用戶都會收藏《小蘋果》這些熱門歌曲,從而導致《小蘋果》出現在很多的相似歌曲中。為了解決這個問題,我們對於物品 i 進行懲罰,例如下式, 當α∈(0, 0.5) 時,N(i) 越小,懲罰得越厲害,從而使熱門物品相關性分數下降( 博主註:這部分未充分理解 ):
此外,Kary pis在研究中發現如果將ItemCF的相似度矩陣按最大值歸一化, 可以提高推薦的准確率。 其研究表明, 如果已經得到了物品相似度矩陣w, 那麼可以用如下公式得到歸一化之後的相似度矩陣w':
歸一化的好處不僅僅在於增加推薦的准確度,它還可以提高推薦的覆蓋率和多樣性。一般來說,物品總是屬於很多不同的類,每一類中的物品聯系比較緊密。假設物品分為兩類——A和B, A類物品之間的相似度為0.5, B類物品之間的相似度為0.6, 而A類物品和B類物品之間的相似度是0.2。 在這種情況下, 如果一個用戶喜歡了5個A類物品和5個B類物品, 用ItemCF給他進行推薦, 推薦的就都是B類物品, 因為B類物品之間的相似度大。 但如果歸一化之後, A類物品之間的相似度變成了1, B類物品之間的相似度也是1, 那麼這種情況下, 用戶如果喜歡5個A類物品和5個B類物品, 那麼他的推薦列表中A類物品和B類物品的數目也應該是大致相等的。 從這個例子可以看出, 相似度的歸一化可以提高推薦的多樣性。
那麼,對於兩個不同的類,什麼樣的類其類內物品之間的相似度高,什麼樣的類其類內物品相似度低呢?一般來說,熱門的類其類內物品相似度一般比較大。如果不進行歸一化,就會推薦比較熱門的類裡面的物品,而這些物品也是比較熱門的。因此,推薦的覆蓋率就比較低。相反,如果進行相似度的歸一化,則可以提高推薦系統的覆蓋率。
最後,利用物品相似度矩陣和用戶打過分的物品記錄就可以對一個用戶進行推薦評分:
基於用戶的協同演算法與基於物品的協同演算法原理類似,只不過基於物品的協同是用戶U購買了A物品,會計算經常有哪些物品與A一起購買(也即相似度),然後推薦給用戶U這些與A相似的物品。而基於用戶的協同則是先計算用戶的相似性(通過計算這些用戶購買過的相同的物品),然後將這些相似用戶購買過的物品推薦給用戶U。
基於用戶的協同過濾演算法主要包括兩個步驟:
步驟(1)的關鍵是計算用戶的興趣相似度,主要是利用用戶的行為相似度計算用戶相似度。給定用戶 u 和 v,N(u) 表示用戶u曾經有過正反饋(譬如購買)的物品集合,N(v) 表示用戶 v 曾經有過正反饋的物品集合。那麼我們可以通過如下的 Jaccard 公式簡單的計算 u 和 v 的相似度:
或通過餘弦相似度:
得到用戶之間的相似度之後,UserCF演算法會給用戶推薦和他興趣最相似的K個用戶喜歡的物品。如下的公式度量了UserCF演算法中用戶 u 對物品 i 的感興趣程度:
首先回顧一下UserCF演算法和ItemCF演算法的推薦原理:UserCF給用戶推薦那些和他有共同興趣愛好的用戶喜歡的物品, 而ItemCF給用戶推薦那些和他之前喜歡的物品具有類似行為的物品。
(1)從推薦場景考慮
首先從場景來看,如果用戶數量遠遠超過物品數量,如購物網站淘寶,那麼可以考慮ItemCF,因為維護一個非常大的用戶關系網是不容易的。其次,物品數據一般較為穩定,因此物品相似度矩陣不必頻繁更新,維護代價較小。
UserCF的推薦結果著重於反應和用戶興趣相似的小群體的熱點,而ItemCF的推薦結果著重於維系用戶的歷史興趣。換句話說,UserCF的推薦更社會化,反應了用戶所在小型興趣群體中物品的熱門程度,而ItemCF的推薦更加個性化,反應了用戶自己的個性傳承。因此UserCF更適合新聞、微博或微內容的推薦,而且新聞內容更新頻率非常高,想要維護這樣一個非常大而且更新頻繁的表無疑是非常難的。
在新聞類網站中,用戶的興趣愛好往往比較粗粒度,很少會有用戶說只看某個話題的新聞,而且往往某個話題也不是每天都會有新聞。 個性化新聞推薦更強調新聞熱點,熱門程度和時效性是個性化新聞推薦的重點,個性化是補充,所以 UserCF 給用戶推薦和他有相同興趣愛好的人關注的新聞,這樣在保證了熱點和時效性的同時,兼顧了個性化。
(2)從系統多樣性(也稱覆蓋率,指一個推薦系統能否給用戶提供多種選擇)方面來看,ItemCF的多樣性要遠遠好於UserCF,因為UserCF更傾向於推薦熱門物品。而ItemCF具有較好的新穎性,能夠發現長尾物品。所以大多數情況下,ItemCF在精度上較小於UserCF,但其在覆蓋率和新穎性上面卻比UserCF要好很多。
在介紹本節基於矩陣分解的隱語義模型之前,讓我們先來回顧一下傳統的矩陣分解方法SVD在推薦系統的應用吧。
基於SVD矩陣分解在推薦中的應用可分為如下幾步:
SVD在計算前會先把評分矩陣 A 缺失值補全,補全之後稀疏矩陣 A 表示成稠密矩陣,然後將分解成 A' = U∑V T 。但是這種方法有兩個缺點:(1)補成稠密矩陣後需要耗費巨大的儲存空間,對這樣巨大的稠密矩陣進行儲存是不現實的;(2)SVD的計算復雜度很高,對這樣大的稠密矩陣中進行計算式不現實的。因此,隱語義模型就被發明了出來。
更詳細的SVD在推薦系統的應用可參考 奇異值分解SVD簡介及其在推薦系統中的簡單應用 。
隱語義模型(Latent Factor Model)最早在文本挖掘領域被提出,用於找到文本的隱含語義。相關的演算法有LSI,pLSA,LDA和Topic Model。本節將對隱語義模型在Top-N推薦中的應用進行詳細介紹,並通過實際的數據評測該模型。
隱語義模型的核心思想是通過隱含特徵聯系用戶興趣和物品。讓我們通過一個例子來理解一下這個模型。
現有兩個用戶,用戶A的興趣涉及偵探小說、科普圖書以及一些計算機技術書,而用戶B的興趣比較集中在數學和機器學習方面。那麼如何給A和B推薦圖書呢?
我們可以對書和物品的興趣進行分類。對於某個用戶,首先得到他的興趣分類,然後從分類中挑選他可能喜歡的物品。簡言之,這個基於興趣分類的方法大概需要解決3個問題:
對於第一個問題的簡單解決方案是找相關專業人員給物品分類。以圖書為例,每本書出版時,編輯都會給出一個分類。但是,即使有很系統的分類體系,編輯給出的分類仍然具有以下缺點:(1)編輯的意見不能代表各種用戶的意見;(2)編輯很難控制分類的細粒度;(3)編輯很難給一個物品多個分類;(4)編輯很難給一個物品多個分類;(5)編輯很難給出多個維度的分類;(6)編輯很難決定一個物品在某一個類別中的權重。
為了解決上述問題,研究員提出可以從數據出發,自動找到那些分類,然後進行個性化推薦。隱語義模型由於採用基於用戶行為統計的自動聚類,較好地解決了上面提出的5個問題。
LFM將矩陣分解成2個而不是3個:
推薦系統中用戶和物品的交互數據分為顯性反饋和隱性反饋數據。隱式模型中多了一個置信參數,具體涉及到ALS(交替最小二乘法,Alternating Least Squares)中對於隱式反饋模型的處理方式——有的文章稱為「加權的正則化矩陣分解」:
一個小細節:在隱性反饋數據集中,只有正樣本(正反饋)沒有負反饋(負樣本),因此如何給用戶生成負樣本來進行訓練是一個重要的問題。Rong Pan在其文章中對此進行了探討,對比了如下幾種方法:
用戶行為很容易用二分圖表示,因此很多圖演算法都可以應用到推薦系統中。基於圖的模型(graph-based model)是推薦系統中的重要內容。很多研究人員把基於領域的模型也稱為基於圖的模型,因為可以把基於領域的模型看作基於圖的模型的簡單形式。
在研究基於圖的模型之前,需要將用戶行為數據表示成圖的形式。本節的數據是由一系列用戶物品二元組 (u, i) 組成的,其中 u 表示用戶對物品 i 產生過行為。
令 G(V, E) 表示用戶物品二分圖,其中 V=V U UV I 由用戶頂點 V U 和物品節點 V I 組成。對於數據集中每一個二元組 (u, i) ,圖中都有一套對應的邊 e(v u , v i ),其中 v u ∈V U 是用戶對應的頂點,v i ∈V I 是物品i對應的頂點。如下圖是一個簡單的物品二分圖,其中圓形節點代表用戶,方形節點代表物品,用戶物品的直接連線代表用戶對物品產生過行為。比如下圖中的用戶A對物品a、b、d產生過行為。
度量圖中兩個頂點之間相關性的方法很多,但一般來說圖中頂點的相關性主要取決於下面3個因素:
而相關性高的一對頂點一般具有如下特徵:
舉個例子,如下圖,用戶A和物品c、e沒有邊直連,但A可通過一條長度為3的路徑到達c,而Ae之間有兩條長度為3的路徑。那麼A和e的相關性要高於頂點A和c,因而物品e在用戶A的推薦列表中應該排在物品c之前,因為Ae之間有兩條路徑。其中,(A,b,C,e)路徑經過的頂點的出度為(3,2,2,2),而 (A,d,D,e) 路徑經過了一個出度比較大的頂點D,所以 (A,d,D,e) 對頂點A與e之間相關性的貢獻要小於(A,b,C,e)。
基於上面3個主要因素,研究人員設計了很多計算圖中頂點相關性的方法,本節將介紹一種基於隨機遊走的PersonalRank演算法。
假設要給用戶u進行個性化推薦,可以從用戶u對應的節點 v u 開始在用戶物品二分圖上進行隨機遊走。遊走到任一節點時,首先按照概率α決定是繼續遊走還是停止這次遊走並從 v u 節點重新開始遊走。若決定繼續遊走,則從當前節點指向的節點中按照均勻分布隨機選擇一個節點作為遊走下次經過的節點。這樣,經過很多次隨機遊走後,每個物品被訪問到的概率會收斂到一個數。最終的推薦列表中物品的權重就是物品節點的訪問概率。
上述演算法可以表示成下面的公式:
雖然通過隨機遊走可以很好地在理論上解釋PersonalRank演算法,但是該演算法在時間復雜度上有明顯的缺點。因為在為每個用戶進行推薦時,都需要在整個用戶物品二分圖上進行迭代,知道所有頂點的PR值都收斂。這一過程的時間復雜度非常高,不僅無法在線進行實時推薦,離線計算也是非常耗時的。
有兩種方法可以解決上面PersonalRank時間復雜度高的問題:
(1)減少迭代次數,在收斂之前停止迭代。但是這樣會影響最終的精度。
(2)從矩陣論出發,重新涉及演算法。另M為用戶物品二分圖的轉移概率矩陣,即:
網路社交是當今社會非常重要甚至可以說是必不可少的社交方式,用戶在互聯網上的時間有相當大的一部分都用在了社交網路上。
當前國外最著名的社交網站是Facebook和Twitter,國內的代表則是微信/QQ和微博。這些社交網站可以分為兩類:
需要指出的是,任何一個社交網站都不是單純的社交圖譜或興趣圖譜。如QQ上有些興趣愛好群可以認識不同的陌生人,而微博中的好友也可以是現實中認識的。
社交網路定義了用戶之間的聯系,因此可以用圖定義社交網路。我們用圖 G(V,E,w) 定義一個社交網路,其中V是頂點集合,每個頂點代表一個用戶,E是邊集合,如果用戶va和vb有社交網路關系,那麼就有一條邊 e(v a , v b ) 連接這兩個用戶,而 w(v a , v b )定義了邊的權重。一般來說,有三種不同的社交網路數據:
和一般購物網站中的用戶活躍度分布和物品流行度分布類似,社交網路中用戶的入度(in degree,表示有多少人關注)和出度(out degree,表示關注多少人)的分布也是滿足長尾分布的。即大部分人關注的人都很少,被關注很多的人也很少。
給定一個社交網路和一份用戶行為數據集。其中社交網路定義了用戶之間的好友關系,而用戶行為數據集定義了不同用戶的歷史行為和興趣數據。那麼最簡單的演算法就是給用戶推薦好友喜歡的物品集合。即用戶u對物品i的興趣 p ui 可以通過如下公式計算。
用戶u和用戶v的熟悉程度描述了用戶u和用戶在現實社會中的熟悉程度。一般來說,用戶更加相信自己熟悉的好友的推薦,因此我們需要考慮用戶之間的熟悉度。下面介紹3中衡量用戶熟悉程度的方法。
(1)對於用戶u和用戶v,可以使用共同好友比例來計算他們的相似度:
上式中 out(u) 可以理解為用戶u關注的用戶合集,因此 out(u) ∩ out(v) 定義了用戶u、v共同關注的用戶集合。
(2)使用被關注的用戶數量來計算用戶之間的相似度,只要將公式中的 out(u) 修改為 in(u):
in(u) 是指關注用戶u的集合。在無向社交網路中,in(u)和out(u)是相同的,而在微博這種有向社交網路中,這兩個集合的含義就不痛了。一般來說,本方法適合用來計算微博大V之間的相似度,因為大v往往被關注的人數比較多;而方法(1)適用於計算普通用戶之間的相似度,因為普通用戶往往關注行為比較豐富。
(3)除此之外,還可以定義第三種有向的相似度:這個相似度的含義是用戶u關注的用戶中,有多大比例也關注了用戶v:
這個相似度有一個缺點,就是在該相似度下所有人都和大v有很大的相似度,這是因為公式中的分母並沒有考慮 in(v) 的大小,所以可以把 in(v) 加入到上面公式的分母,來降低大v與其他用戶的相似度:
上面介紹了3種計算用戶之間相似度(或稱熟悉度)的計算方法。除了熟悉程度,還需要考慮用戶之間的興趣相似度。我們和父母很熟悉,但很多時候我們和父母的興趣確不相似,因此也不會喜歡他們喜歡的物品。因此,在度量用戶相似度時,還需要考慮興趣相似度,而興趣相似度可以通過和UserCF類似的方法度量,即如果兩個用戶喜歡的物品集合重合度很高,兩個用戶的興趣相似度很高。
最後,我們可以通過加權的形式將兩種權重合並起來,便得到了各個好有用戶的權重了。
有了權重,我們便可以針對用戶u挑選k個最相似的用戶,把他們購買過的物品中,u未購買過的物品推薦給用戶u即可。打分公式如下:
其中 w' 是合並後的權重,score是用戶v對物品的打分。
node2vec的整體思路分為兩個步驟:第一個步驟是隨機遊走(random walk),即通過一定規則隨機抽取一些點的序列;第二個步驟是將點的序列輸入至word2vec模型從而得到每個點的embedding向量。
隨機遊走在前面基於圖的模型中已經介紹過,其主要分為兩步:(1)選擇起始節點;(2)選擇下一節點。起始節點選擇有兩種方法:按一定規則抽取一定量的節點或者以圖中所有節點作為起始節點。一般來說會選擇後一種方法以保證所有節點都會被選取到。
在選擇下一節點方法上,最簡單的是按邊的權重來選擇,但在實際應用中需要通過廣度優先還是深度優先的方法來控制遊走范圍。一般來說,深度優先發現能力更強,廣度優先更能使社區內(較相似)的節點出現在一個路徑里。
斯坦福大學Jure Leskovec教授給出了一種可以控制廣度優先或者深度優先的方法。
以上圖為例,假設第一步是從t隨機遊走到v,這時候我們要確定下一步的鄰接節點。本例中,作者定義了p和q兩個參數變數來調節遊走,首先計算其鄰居節點與上一節點t的距離d,根據下面的公式得到α:
一般從每個節點開始遊走5~10次,步長則根據點的數量N遊走根號N步。如此便可通過random walk生成點的序列樣本。
得到序列之後,便可以通過word2vec的方式訓練得到各個用戶的特徵向量,通過餘弦相似度便可以計算各個用戶的相似度了。有了相似度,便可以使用基於用戶的推薦演算法了。
推薦系統需要根據用戶的歷史行為和興趣預測用戶未來的行為和興趣,因此大量的用戶行為數據就成為推薦系統的重要組成部分和先決條件。如何在沒有大量用戶數據的情況下設計個性化推薦系統並且讓用戶對推薦結果滿意從而願意使用推薦系統,就是冷啟動問題。
冷啟動問題主要分為三類:
針對用戶冷啟動,下面給出一些簡要的方案:
(1)有效利用賬戶信息。利用用戶注冊時提供的年齡、性別等數據做粗粒度的個性化;
(2)利用用戶的社交網路賬號登錄(需要用戶授權),導入用戶在社交網站上的好友信息,然後給用戶推薦其好友喜歡的物品;
(3)要求用戶在登錄時對一些物品進行反饋,手機用戶對這些物品的興趣信息,然後給用推薦那些和這些物品相似的物品;
(4)提供非個性化推薦。非個性化推薦的最簡單例子就是熱門排行榜,我們可以給用戶推薦熱門排行榜,然後等到用戶數據收集到一定的時候,在切換為個性化推薦。
對於物品冷啟動,可以利用新加入物品的內容信息,將它們推薦給喜歡過和他們相似的物品的用戶。
對於系統冷啟動,可以引入專家知識,通過一定高效的方式快速建立起物品的相關度表。
在上面介紹了一些推薦系統的基礎演算法知識,這些演算法大都是比較經典且現在還在使用的。但是需要注意的是,在實踐中,任何一種推薦演算法都不是單獨使用的,而是將多種推薦演算法結合起來,也就是混合推薦系統,但是在這里並不準備介紹,感興趣的可以查閱《推薦系統》或《推薦系統與深度學習》等書籍。此外,在推薦中非常重要的點擊率模型以及基於矩陣的一些排序演算法在這里並沒有提及,感興趣的也可自行學習。
雖然現在用的很多演算法都是基於深度學習的,但是這些經典演算法能夠讓我們對推薦系統的發展有一個比較好的理解,同時,更重要的一點——「推陳出新」,只有掌握了這些經典的演算法,才能提出或理解現在的一些更好地演算法。
Ⅹ 直通車冷啟動期有多久
直通車冷啟動期大概一個半小時。
直通車本意指從一個城市到另一個城市,車輛在行駛的過程中,如無意外情況發生的情況下原則上不停靠任何中途站點,直接到達車輛前往的目的地,這樣便於旅客的出行以及更大限度地節約時間,類似於專車直達。
在現實生活中也有很多的寓意,主要是指節約時間,簡潔,方便快捷,便民。協同過濾推薦基於這樣的假設: 為用戶找到他真正感興趣的內容的方法是,首先找與他興趣相似的用戶,然後將這些用戶感興趣的東西推薦給該用戶。
所以該推薦技術最大的優點是對推薦對象沒有特殊的要求,能處理非結構化的復雜對象,如音樂、電影等,並能發現用戶潛在的興趣點。協同過濾推薦演算法主要是利用用戶對項目的評分數據,通過相似鄰居查詢,找出與當前用戶興趣最相似的用戶群。
根據這些用戶的興趣偏好為當前用戶提供最可能感興趣的項目推薦列表。為更進一步地說明協同過濾推薦演算法的推薦原理,本文以用戶對電影的推薦為例進行闡述。
以上內容參考:網路-直通車