❶ 協同過濾的演算法細分
這是最早應用協同過濾系統的設計,主要是解決Xerox公司在 Alto的研究中心資訊過載的問題。這個研究中心的員工每天會收到非常多的電子郵件卻無從篩選分類,於是研究中心便發展這項實驗性的郵件系統來幫助員工解決這項問題。 其運作機制大致如下:
個人決定自己的感興趣的郵件類型;個人旋即隨機發出一項資訊需求,可預測的結果是會收到非常多相關的文件;從這些文件中個人選出至少三筆資料是其認為有用、會想要看的;系統便將之記錄起來成為個人郵件系統內的過濾器,從此以後經過過濾的文件會最先送達信箱;以上是協同過濾最早的應用,接下來的里程碑為GroupLens。 這個系統主要是應用在新聞的篩選上,幫助新聞的閱聽者過濾其感興趣的新聞內容,閱聽者看過內容後給一個評比的分數,系統會將分數記錄起來以備未來參考之用,假設前提是閱聽者以前感興趣的東西在未來也會有興趣閱聽,若閱聽者不願揭露自己的身分也可以匿名進行評分。 和Tapestry不同之處有兩點,首先,Tapestry專指一個點(如一個網站內、一個系統內)的過濾機制;GroupLens則是跨點跨系統的新聞過濾機制。再來,Tapestry不會將同一筆資料的評比總和起來;GroupLens會將同一筆資料從不同使用者得到的評比加總。
GroupLens具有以下特點:開放性:所有的新聞閱聽者皆可使用,雖然系統委託Better Bit Bureau設計給分的系統,但若有不同的評分機制也適用於GroupLens。方便性:給分並不是一件困難的事情且溝通上非常方便,評分結果容易詮釋。規模性:有可能發展成大規模的系統,一旦發展成大規模,儲存空間與計算成本問題顯得相當棘手。隱密性:如果使用者不想讓別人知道他是誰,別人就不會知道。由此可以看出,現今網路各個推薦系統的雛形已然形成,在GroupLens之後還有性質相近的MovieLens,電影推薦系統;Ringo,音樂推薦系統;Video Recommender,影音推薦系統;以及Jster,笑話推薦系統等等。乃至於今日的YouTube、aNobii皆是相似性值得網路推薦平台,較不同的是經過時間推移,網路越來越發達,使用者越來越多,系統也發展得越來越嚴密。 最著名的電子商務推薦系統應屬亞馬遜網路書店,顧客選擇一本自己感興趣的書籍,馬上會在底下看到一行「Customer Who Bought This Item Also Bought」,亞馬遜是在「對同樣一本書有興趣的讀者們興趣在某種程度上相近」的假設前提下提供這樣的推薦,此舉也成為亞馬遜網路書店為人所津津樂道的一項服務,各網路書店也跟進做這樣的推薦服務如台灣的博客來網路書店。 另外一個著名的例子是Facebook的廣告,系統根據個人資料、周遭朋友感興趣的廣告等等對個人提供廣告推銷,也是一項協同過濾重要的里程碑,和前二者Tapestry、GroupLens不同的是在這里雖然商業氣息濃厚同時還是帶給使用者很大的方便。 以上為三項協同過濾發展上重要的里程碑,從早期單一系統內的郵件、文件過濾,到跨系統的新聞、電影、音樂過濾,乃至於今日橫行互聯網的電子商務,雖然目的不太相同,但帶給使用者的方便是大家都不能否定的。
❷ 協同過濾中的實時性定義及解決思路
自從第一台IoT設備於年問世以來,物聯網已經有了長足的發展,這是一種可以在互聯網上開啟和關閉的烤麵包機。27年之後,聯網設備已經從新奇產品變成了日常生活中必不可少的一部分。
最近的預估顯示,成年人平均每天花在智能手機上的時間超過4個小時,只能手機也是一種裝有物聯網感測器數據的設備。目前,81%的成年人擁有智能手機。想像一下,當81%的成年人擁有智能汽車和智能家居時,我們將會收到多少數據。
今天,IoT設備的大部分數據都在雲中處理,這意味著全球所有角落產生的數據都被集中發送到數據中心的少數計算機上。然而,隨著IoT設備的數量預計將在2020年猛增至200億,通過互聯網發送數據的體積和速度對雲計算方法提出了嚴峻的挑戰。
越來越多的設備連接將迫使IoT製造商在2018年將雲計算模式從雲計算模式轉移到一種稱為「霧計算」的新模式。
越來越多的數據訪問,雲計算問題明顯
物聯網和人工智慧的發展將帶來價值數以億計的數據。分布廣泛的感測器、智能終端等每時每刻都在產生大量的數據。盡管雲計算擁有「無限」的計算和存儲資源池,但雲數據中心往往是集中化的且距離終端設備較遠,當面對大量的分布廣泛的終端設備及所採集的海量數據時,雲不可避免地遇到了三大難題:
網路擁塞,如果大量的物聯網和人工智慧應用部署在雲中,將會有海量的原始數據不間斷地湧入核心網路,造成核心網路擁塞;
高延遲,終端設備與雲數據中心的較遠距離將導致較高的網路延遲,而對實時性要求高的應用則難以滿足需求;
可靠性無法保證,對可靠性和安全性要求較高的應用,由於從終端到雲平台的距離遠,通信通路長,因而風險大,雲中備份的成本也高。
因此,為滿足物聯網和人工智慧等應用的需求,作為雲計算的延伸擴展,霧計算(Fog Computing)的概念應運而生。霧計算最早由思科提出,它是一種分布式的計算模型,作為雲數據中心和物聯網設備 / 感測器之間的中間層,它提供計算、網路和存儲設備,讓基於雲的服務可以離物聯網設備和感測器更近。
霧計算主要使用邊緣網路中的設備,可以是傳統網路設備,如網路中的路由器、交換機、網關等,也可以是專門部署的本地伺服器。這些設備的資源能力都遠小於一個數據中心,但是它們龐大的數量可以彌補單一設備資源的不足。
在物聯網中,霧可以過濾、聚合用戶消息,匿名處理用戶數據以保證隱秘性,初步處理數據以便實時決策,提供臨時存儲以提升用戶體驗,而雲則可以負責大運算量或長期存儲任務,與霧計算優勢互補。通過霧計算,可以將一些並不需要放到雲上的數據在網路邊緣層直接進行處理和存儲,提高數據分析處理的效率,降低時延,減少網路傳輸壓力,提升安全性。霧計算以其廣泛的地理分布、帶有大量網路節點的大規模感測器網路、支持高移動性和實時互動以及多樣化的軟硬體設備和雲在線分析等特點,迅速被物聯網和人工智慧應用領域的企業所接受並獲得廣泛應用,例如,M2M、人機協同、智能電網、智能交通、智能家居、智能醫療、無人駕駛等應用。
與邊緣計算(Edge Computing)不同的是,霧計算可以將基於雲的服務 , 如 IaaS、 PaaS、 SaaS,拓展到網路邊緣,而邊緣計算更多地專注於終端設備端。霧計算可以進行邊緣計算,但除了邊緣網路,霧計算也可以拓展到核心網路,也就是邊緣和核心網路的組件都可以作為霧計算的基礎設施。
「雲」和「霧」典型案例和應用場景
融合雲平台和霧計算,一方面可通過雲降低傳統 IT采購、管理和運維的開支,將 IaaS、 PaaS、 SaaS作為雲服務輸出;另一方面,通過霧計算可保證邊緣端數據的實時搜集、提取和分析速度,提高網路資源部署使用和管理效率,有助於提高人機協同效率,為企業業務創新、服務品質提升提供技術支持。以下是四個行業「雲」和「霧」的典型案例和應用場景。
工業
GE基於 Pivotal Cloud Foundry打造了 Predix 物聯網 PaaS平台,結合戴爾智能模擬技術,實現了「數據雙胞胎」。基於雲計算,GE 實現了飛機發動機生產過程中的調優,同時,基於霧計算,GE 實現了飛機飛行過程中的「自愈」。
GE Predix 作為物聯網 PaaS 平台,還助力製造企業將大數據、物聯網和人工智慧轉化為智能製造能力,實現數據創新。GE Predix 平台,融合雲計算和霧計算以及」數字雙胞胎「,幫助製造企業實現「虛擬 - 現實」的設計生產融合,並為其提供雲計算服務。
農業
Chitale Dairy是一家乳製品廠。基於戴爾科技虛擬化技術,Chitale Dairy實現了 ERP雲部署。他們基於霧計算,通過為奶牛裝上感測器,進行近實時數據採集分析、處理,實現精細化運營,保證乳製品生產全流程的監控、管理、優化。同時,Chitale Dairy 通過基於雲的乳業生命周期管理平台,實現了乳製品生產流程自動化管理,通過物聯網和大數據分析,對每頭奶牛從食料、喂養、健康、牛奶質量和產量進行全流程監控分析,實現精細化和自動化乳業生產。
將雲的整體業務管理和霧端的優化農場間協作以及奶源監控管理緊密連接起來,在提高乳製品生命周期管理效率的同時,提升了協同和協作效率,加速企業業務創新的速度。
服務業
TopGolf 是一家高爾夫俱樂部。通過採用戴爾科技的虛擬化和超融合技術,形成了高爾夫數字化高端服務輸出能力。他們通過向數字化轉型,打破了傳統高爾夫的業務模式。通過物聯網,將 RFID 晶元嵌入高爾夫球里,實現對每次擊球、每個隊員和賽事進行實時監控,並基於霧計算,實時跟蹤和分析每個擊球動作和球的路徑,實現實時積分。
TopGolf 的業務模式融合了雲計算和霧計算,實現了跨數據中心、雲和邊緣應用的實時數據監控、交互和管理,滿足賽事實時監控、場上場下互動、賽前球員積分分析、社交媒體、會員個性化數據管理等大數據分析的需求。
交通業
在智能交通中,可通過感測器搜集信息,進行實時數據分析和交通部署,以提高公共安全。通過霧計算,智能交通控制系統中的一個霧節點可以共享收集到的交通信息,以緩解高峰時段的交通擁堵、定位交通事故,並可以通過遠程式控制制緩解交通擁堵區域的交通狀況。同時,在每個用戶的電話和公共交通中,基於霧計算的應用程序允許用戶在沒有持續網路連接的情況下,共享並通過附近的用戶下載內容。
此外,自動化車輛的安全系統、道路上的監控系統以及公共交通的票務系統,都可以從感測器和視頻數據中收集大量信息。聚合後的數據將傳輸到雲上,根據用戶的需求進行數據提取和分析,再基於霧計算實現邊緣數據實時分析,從而為用戶快速提供精準信息,以保障公共交通的暢通和安全。
未來霧計算將扮演重大角色
從商業運營模式到工作生活方式,智能物聯網技術正深刻改變著人類社會。要讓物聯網擁有無處不在的智能,就必須充分利用網路環境中分散存在的計算、存儲、通信和控制等能力,通過資源共享機制和協同服務架構來有效提升生產效率或用戶體驗。
當前,霧計算技術的研究和標准化工作剛剛起步。我們面臨的主要技術挑戰和研究熱點為:如何在霧計算節點之間建立信任關系,如何在它們之間推動資源充分共享,如何在雲—霧—邊緣等多層次之間實現高效通信和緊密協作,如何在異構節點之間完成復雜任務的公平按需分配等。
可以預見,隨著霧計算技術的不斷發展成熟和普及應用,智能物聯網將越來越便捷、越來越真實地借鑒和映射人類社會的組織架構和決策機制,從而能用更自然和更熟悉的方式為每個人提供觸手可及、無處不在的智能服務。
❸ 協同過濾和基於內容推薦有什麼區別
你的問題是否是:基於物品的協同過濾和內容過濾有什麼區別?
基於物品的協同過濾,首先從資料庫里獲取他之前喜歡的東西,然後從剩下的物品中找到和他歷史興趣近似的物品給他。核心是要計算兩個物品的相似度。
內容過濾的基本思想是,給用戶和他們之前喜歡的物品在內容上相似的其他物品。核心任務就是計算物品的內容相似度。
您好,答題不易
如有幫助,
❹ 推薦演算法的基於協同過濾的推薦
基於協同過濾的推薦演算法理論上可以推薦世界上的任何一種東西。圖片、音樂、樣樣可以。 協同過濾演算法主要是通過對未評分項進行評分 預測來實現的。不同的協同過濾之間也有很大的不同。
基於用戶的協同過濾演算法: 基於一個這樣的假設「跟你喜好相似的人喜歡的東西你也很有可能喜歡。」所以基於用戶的協同過濾主要的任務就是找出用戶的最近鄰居,從而根據最近鄰 居的喜好做出未知項的評分預測。這種演算法主要分為3個步驟:
一,用戶評分。可以分為顯性評分和隱形評分兩種。顯性評分就是直接給項目評分(例如給網路里的用戶評分),隱形評分就是通過評價或是購買的行為給項目評分 (例如在有啊購買了什麼東西)。
二,尋找最近鄰居。這一步就是尋找與你距離最近的用戶,測算距離一般採用以下三種演算法:1.皮爾森相關系數。2.餘弦相似性。3調整餘弦相似性。調整餘弦 相似性似乎效果會好一些。
三,推薦。產生了最近鄰居集合後,就根據這個集合對未知項進行評分預測。把評分最高的N個項推薦給用戶。 這種演算法存在性能上的瓶頸,當用戶數越來越多的時候,尋找最近鄰居的復雜度也會大幅度的增長。
因而這種演算法無法滿足及時推薦的要求。基於項的協同過濾解決了這個問題。 基於項的協同過濾演算法 根基於用戶的演算法相似,只不過第二步改為計算項之間的相似度。由於項之間的相似度比較穩定可以在線下進行,所以解決了基於用戶的協同過濾演算法存在的性能瓶頸。
❺ 個性化推薦演算法——協同過濾
有三種:協同過濾
用戶歷史行為
物品相似矩陣
❻ 什麼是協同過濾 collaborative filtering
協同過濾(Collaborative Filtering)的基本概念就是把這種方式變成自動化的流程
協同過濾主要是以屬性或興趣相近的用戶經驗與建議作為提供個性化的基礎。透過協同過濾,有助於搜集具有類似偏好或屬性的用戶,並將其意見提供給同一集群中的用戶作為參考,以滿足人們通常在決策之前參考他人意見的心態。
本人認為,協同過濾技術應包括如下幾方面:(1)一種比對和搜集每個用戶興趣偏好的過程;(2)它需要許多用戶的信息去預測個人的興趣偏好;(3)通過對用戶之間興趣偏好相關程度的統計去發展建議那些有相同興趣偏好的用戶。
❼ 協同過濾的演算法簡介
電子商務推薦系統的一種主要演算法。
協同過濾推薦(Collaborative Filtering recommendation)是在信息過濾和信息系統中正迅速成為一項很受歡迎的技術。與傳統的基於內容過濾直接分析內容進行推薦不同,協同過濾分析用戶興趣,在用戶群中找到指定用戶的相似(興趣)用戶,綜合這些相似用戶對某一信息的評價,形成系統對該指定用戶對此信息的喜好程度預測。
與傳統文本過濾相比,協同過濾有下列優點:
(1)能夠過濾難以進行機器自動基於內容分析的信息。如藝術品、音樂;
(2)能夠基於一些復雜的,難以表達的概念(信息質量、品位)進行過濾;
(3)推薦的新穎性。
正因為如此,協同過濾在商業應用上也取得了不錯的成績。Amazon,CDNow,MovieFinder,都採用了協同過濾的技術來提高服務質量。
缺點是:
(1)用戶對商品的評價非常稀疏,這樣基於用戶的評價所得到的用戶間的相似性可能不準確(即稀疏性問題);
(2)隨著用戶和商品的增多,系統的性能會越來越低;
(3)如果從來沒有用戶對某一商品加以評價,則這個商品就不可能被推薦(即最初評價問題)。
因此,現在的電子商務推薦系統都採用了幾種技術相結合的推薦技術。
案例: AMAZON個性化推薦系統先驅 (基於協同過濾)
AMAZON是一個虛擬的網上書店,它沒有自己的店面,而是在網上進行在線銷售。它提供了高質量的綜合節目資料庫和檢索系統,用戶可以在網上查詢有關圖書的信息。如果用戶需要購買的話,可以把選擇的書放在虛擬購書籃中,最後查看購書籃中的商品,選擇合適的服務方式並且提交訂單,這樣讀者所選購的書在幾天後就可以送到家。
AMAZON書店還提供先進的個性化推薦功能,能為不同興趣偏好的用戶自動推薦盡量符合其興趣需要的書籍。 AMAZON使用推薦軟體對讀者曾經購買過的書以及該讀者對其他書的評價進行分析後,將向讀者推薦他可能喜歡的新書,只要滑鼠點一下,就可以買到該書;AMAZON能對顧客購買過的東西進行自動分析,然後因人而異的提出合適的建議。讀者的信息將被再次保存,這樣顧客下次來時就能更容易的買到想要的書。此外,完善的售後服務也是AMAZON的優勢,讀者可以在拿到書籍的30天內,將完好無損的書和音樂光碟退回AMAZON,AMAZON將原價退款。當然AMAZON的成功還不止於此,如果一位顧客在AMAZON購買一本書,下次他再次訪問時,映入眼簾的首先是這位顧客的名字和歡迎的字樣。
❽ 基於用戶的協同過濾演算法和基於物品的區別
協同過濾(Collaborative Filtering)的基本概念就是把這種推薦方式變成自動化的流程
❾ 矩陣分解在協同過濾推薦演算法中的應用
矩陣分解在協同過濾推薦演算法中的應用
推薦系統是當下越來越熱的一個研究問題,無論在學術界還是在工業界都有很多優秀的人才參與其中。近幾年舉辦的推薦系統比賽更是一次又一次地把推薦系統的研究推向了高潮,比如幾年前的Neflix百萬大獎賽,KDD CUP 2011的音樂推薦比賽,去年的網路電影推薦競賽,還有最近的阿里巴巴大數據競賽。這些比賽對推薦系統的發展都起到了很大的推動作用,使我們有機會接觸到真實的工業界數據。我們利用這些數據可以更好地學習掌握推薦系統,這些數據網上很多,大家可以到網上下載。
推薦系統在工業領域中取得了巨大的成功,尤其是在電子商務中。很多電子商務網站利用推薦系統來提高銷售收入,推薦系統為Amazon網站每年帶來30%的銷售收入。推薦系統在不同網站上應用的方式不同,這個不是本文的重點,如果感興趣可以閱讀《推薦系統實踐》(人民郵電出版社,項亮)第一章內容。下面進入主題。
為了方便介紹,假設推薦系統中有用戶集合有6個用戶,即U={u1,u2,u3,u4,u5,u6},項目(物品)集合有7個項目,即V={v1,v2,v3,v4,v5,v6,v7},用戶對項目的評分結合為R,用戶對項目的評分范圍是[0, 5]。R具體表示如下:
推薦系統的目標就是預測出符號「?」對應位置的分值。推薦系統基於這樣一個假設:用戶對項目的打分越高,表明用戶越喜歡。因此,預測出用戶對未評分項目的評分後,根據分值大小排序,把分值高的項目推薦給用戶。怎麼預測這些評分呢,方法大體上可以分為基於內容的推薦、協同過濾推薦和混合推薦三類,協同過濾演算法進一步劃分又可分為基於基於內存的推薦(memory-based)和基於模型的推薦(model-based),本文介紹的矩陣分解演算法屬於基於模型的推薦。
矩陣分解演算法的數學理論基礎是矩陣的行列變換。在《線性代數》中,我們知道矩陣A進行行變換相當於A左乘一個矩陣,矩陣A進行列變換等價於矩陣A右乘一個矩陣,因此矩陣A可以表示為A=PEQ=PQ(E是標准陣)。
矩陣分解目標就是把用戶-項目評分矩陣R分解成用戶因子矩陣和項目因子矩陣乘的形式,即R=UV,這里R是n×m, n =6, m =7,U是n×k,V是k×m。直觀地表示如下:
高維的用戶-項目評分矩陣分解成為兩個低維的用戶因子矩陣和項目因子矩陣,因此矩陣分解和PCA不同,不是為了降維。用戶i對項目j的評分r_ij =innerproct(u_i, v_j),更一般的情況是r_ij =f(U_i, V_j),這里為了介紹方便就是用u_i和v_j內積的形式。下面介紹評估低維矩陣乘積擬合評分矩陣的方法。
首先假設,用戶對項目的真實評分和預測評分之間的差服從高斯分布,基於這一假設,可推導出目標函數如下:
最後得到矩陣分解的目標函數如下:
從最終得到得目標函數可以直觀地理解,預測的分值就是盡量逼近真實的已知評分值。有了目標函數之後,下面就開始談優化方法了,通常的優化方法分為兩種:交叉最小二乘法(alternative least squares)和隨機梯度下降法(stochastic gradient descent)。
首先介紹交叉最小二乘法,之所以交叉最小二乘法能夠應用到這個目標函數主要是因為L對U和V都是凸函數。首先分別對用戶因子向量和項目因子向量求偏導,令偏導等於0求駐點,具體解法如下:
上面就是用戶因子向量和項目因子向量的更新公式,迭代更新公式即可找到可接受的局部最優解。迭代終止的條件下面會講到。
接下來講解隨機梯度下降法,這個方法應用的最多。大致思想是讓變數沿著目標函數負梯度的方向移動,直到移動到極小值點。直觀的表示如下:
其實負梯度的負方向,當函數是凸函數時是函數值減小的方向走;當函數是凹函數時是往函數值增大的方向移動。而矩陣分解的目標函數L是凸函數,因此,通過梯度下降法我們能夠得到目標函數L的極小值(理想情況是最小值)。
言歸正傳,通過上面的講解,我們可以獲取梯度下降演算法的因子矩陣更新公式,具體如下:
(3)和(4)中的γ指的是步長,也即是學習速率,它是一個超參數,需要調參確定。對於梯度見(1)和(2)。
下面說下迭代終止的條件。迭代終止的條件有很多種,就目前我了解的主要有
1) 設置一個閾值,當L函數值小於閾值時就停止迭代,不常用
2) 設置一個閾值,當前後兩次函數值變化絕對值小於閾值時,停止迭代
3) 設置固定迭代次數
另外還有一個問題,當用戶-項目評分矩陣R非常稀疏時,就會出現過擬合(overfitting)的問題,過擬合問題的解決方法就是正則化(regularization)。正則化其實就是在目標函數中加上用戶因子向量和項目因子向量的二范數,當然也可以加上一范數。至於加上一范數還是二范數要看具體情況,一范數會使很多因子為0,從而減小模型大小,而二范數則不會它只能使因子接近於0,而不能使其為0,關於這個的介紹可參考論文Regression Shrinkage and Selection via the Lasso。引入正則化項後目標函數變為:
(5)中λ_1和λ_2是指正則項的權重,這兩個值可以取一樣,具體取值也需要根據數據集調參得到。優化方法和前面一樣,只是梯度公式需要更新一下。
矩陣分解演算法目前在推薦系統中應用非常廣泛,對於使用RMSE作為評價指標的系統尤為明顯,因為矩陣分解的目標就是使RMSE取值最小。但矩陣分解有其弱點,就是解釋性差,不能很好為推薦結果做出解釋。
後面會繼續介紹矩陣分解演算法的擴展性問題,就是如何加入隱反饋信息,加入時間信息等。
❿ 協同過濾演算法和聚類演算法有什麼區別
協同過濾多處理的是異構數據,數據差別大種類多;聚類多處理的是同構數據