導航:首頁 > 凈水問答 > 新聞推薦協同過濾

新聞推薦協同過濾

發布時間:2024-08-28 03:18:48

1. 協同過濾的演算法細分

這是最早應用協同過濾系統的設計,主要是解決Xerox公司在 Alto的研究中心資訊過載的問題。這個研究中心的員工每天會收到非常多的電子郵件卻無從篩選分類,於是研究中心便發展這項實驗性的郵件系統來幫助員工解決這項問題。 其運作機制大致如下:
個人決定自己的感興趣的郵件類型;個人旋即隨機發出一項資訊需求,可預測的結果是會收到非常多相關的文件;從這些文件中個人選出至少三筆資料是其認為有用、會想要看的;系統便將之記錄起來成為個人郵件系統內的過濾器,從此以後經過過濾的文件會最先送達信箱;以上是協同過濾最早的應用,接下來的里程碑為GroupLens。 這個系統主要是應用在新聞的篩選上,幫助新聞的閱聽者過濾其感興趣的新聞內容,閱聽者看過內容後給一個評比的分數,系統會將分數記錄起來以備未來參考之用,假設前提是閱聽者以前感興趣的東西在未來也會有興趣閱聽,若閱聽者不願揭露自己的身分也可以匿名進行評分。 和Tapestry不同之處有兩點,首先,Tapestry專指一個點(如一個網站內、一個系統內)的過濾機制;GroupLens則是跨點跨系統的新聞過濾機制。再來,Tapestry不會將同一筆資料的評比總和起來;GroupLens會將同一筆資料從不同使用者得到的評比加總。
GroupLens具有以下特點:開放性:所有的新聞閱聽者皆可使用,雖然系統委託Better Bit Bureau設計給分的系統,但若有不同的評分機制也適用於GroupLens。方便性:給分並不是一件困難的事情且溝通上非常方便,評分結果容易詮釋。規模性:有可能發展成大規模的系統,一旦發展成大規模,儲存空間與計算成本問題顯得相當棘手。隱密性:如果使用者不想讓別人知道他是誰,別人就不會知道。由此可以看出,現今網路各個推薦系統的雛形已然形成,在GroupLens之後還有性質相近的MovieLens,電影推薦系統;Ringo,音樂推薦系統;Video Recommender,影音推薦系統;以及Jster,笑話推薦系統等等。乃至於今日的YouTube、aNobii皆是相似性值得網路推薦平台,較不同的是經過時間推移,網路越來越發達,使用者越來越多,系統也發展得越來越嚴密。 最著名的電子商務推薦系統應屬亞馬遜網路書店,顧客選擇一本自己感興趣的書籍,馬上會在底下看到一行「Customer Who Bought This Item Also Bought」,亞馬遜是在「對同樣一本書有興趣的讀者們興趣在某種程度上相近」的假設前提下提供這樣的推薦,此舉也成為亞馬遜網路書店為人所津津樂道的一項服務,各網路書店也跟進做這樣的推薦服務如台灣的博客來網路書店。 另外一個著名的例子是Facebook的廣告,系統根據個人資料、周遭朋友感興趣的廣告等等對個人提供廣告推銷,也是一項協同過濾重要的里程碑,和前二者Tapestry、GroupLens不同的是在這里雖然商業氣息濃厚同時還是帶給使用者很大的方便。 以上為三項協同過濾發展上重要的里程碑,從早期單一系統內的郵件、文件過濾,到跨系統的新聞、電影、音樂過濾,乃至於今日橫行互聯網的電子商務,雖然目的不太相同,但帶給使用者的方便是大家都不能否定的。

2. 今日頭條是怎樣做到精準演算法推薦

今日頭條藉助個性化推薦提高用戶瀏覽新聞的時長,個性化推薦中最常用的演算法就是協同過濾演算法,包括基於物品的協同過濾和基於用戶的協同過濾。說成人話就是,與你同類的人喜歡什麼,就給你推什麼新聞,看了A新聞的人也瀏覽了B新聞,那麼就給你推薦B新聞。
同時,根據用戶的瀏覽軌跡和偏好,不斷更新迭代用戶的標簽(用戶畫像),提升推薦的准確率。
個性化推薦中比較難的就是冷啟動階段,無法判斷用戶的偏好,因為難以推薦能吸引用戶眼球的新聞。達觀數據採用的是多種策略來改善冷啟動用戶的推薦質量,最重要的一點就是需要秒級生成用戶畫像,快速完成冷熱轉換,確保用戶留存率。

3. 協同過濾

協同過濾(Collaborative Filtering,CF)——經典/老牌
只用戶行為數據得到。對於 個用戶, 個物品,則有共現矩陣 :
對於有正負反饋的情況,如「贊」是1和「踩」是-1,無操作是0:

對於只有顯示反饋,如點擊是1,無操作是0:

演算法步驟:
1)得到共現矩陣 ;
2)計算 任意兩行 用戶相似度,得到用戶相似度矩陣 ;
3)針對某個用戶 選出與其最相似的 個用戶, 是超參數;——召回階段
4)基於這 個用戶,計算 對每個物品的得分;
5)按照用戶 的物品得分進行排序,過濾已推薦的物品,推薦剩下得分最高的 個。——排序階段

第2步中,怎麼計算用戶相似度?——使用共現矩陣的行
以餘弦相似度為標准,計算 和 之間的相似度:


第4步中,怎麼每個用戶對每個物品的得分?
假如和用戶 最相似的2個為 和 :


對物品 的評分為1,用戶 對物品 的評分也為1,那麼用戶 對 的評分為:

也就是說:利用用戶相似度對用戶評分進行加權平均:

其中, 為用戶 和用戶 之間的相似度, 為用戶 和物品 之間的相似度。

UserCF的缺點
1、現實中用戶數遠遠大於物品數,所以維護用戶相似度矩陣代價很大;
2、共現矩陣是很稀疏的,那麼計算計算用戶相似度的准確度很低。

演算法步驟:
1)得到共現矩陣 ;
2)計算 任意兩列 物品相似度,得到物品相似度矩陣 ;
3)對於有正負反饋的,獲得用戶 正反饋的物品;
4)找出用戶 正反饋的物品最相似的 個物品,組成相似物品集合;——召回階段
5)利用相似度分值對相似物品集合進行排序,生產推薦列表。——排序階段
最簡單情況下一個物品(用戶未接觸的)只出現在另一個物品(用戶已反饋的)的最相似集合中,那麼每個用戶對每個物品的得分就是相似度。如果一個物品和多個物品最相似怎麼辦?
如用戶正反饋的是 和 ,對於物品 其最相似的是 ,相似度為0.7,對於物品 其最相似的也是 ,相似度為0.6,那麼 相似度為:

也就是說:如果一個物品出現在多個物品的 個最相似的物品集合中,那麼該物品的相似度為多個相似度乘以對應評分的累加。

其中, 是物品p與物品h的相似度, 是用戶u對物品p的評分。

第2步中,怎麼計算物品相似度?——使用共現矩陣的列
以餘弦相似度為標准,計算 和 之間的相似度:


餘弦相似度
皮爾遜相關系數
基於皮爾遜相關系數的改進

UserCF適用於用戶興趣比較分散變換較快的場景,如新聞推薦。
IteamCF適用於用戶情趣不叫穩定的場景,如電商推薦。

優點:直觀,可解釋性強。
缺點:

閱讀全文

與新聞推薦協同過濾相關的資料

熱點內容
江蘇速凍食品廠廢水處理多少錢 瀏覽:152
康婷凈化器多少錢 瀏覽:227
凈水過濾器1980 瀏覽:911
太陽雨太陽能怎麼打開清洗水垢 瀏覽:926
反滲透氧化劑用什麼意思 瀏覽:873
口罩過濾片作用 瀏覽:444
餘姚污水泵站分布圖 瀏覽:224
自製魚缸過濾器圖解 瀏覽:86
印染污水總氮濃度一般多少 瀏覽:457
廚房凈化器怎麼清理 瀏覽:681
水垢怎樣去除瓷磚 瀏覽:234
布袋除塵器提升閥作用 瀏覽:297
美菱飲水機顯示e4什麼意思 瀏覽:175
純水制備中的阻垢劑是什麼 瀏覽:411
用木炭來過濾水是否好 瀏覽:469
反滲透膜的工作壓力為什麼大 瀏覽:531
托夫迪爾失蹤的蒸餾器 瀏覽:849
瑪尼歐凈水器濾芯怎麼樣 瀏覽:425
蒸餾與分餾測定實驗報告 瀏覽:627
為什麼蒸餾酒酒精含量高 瀏覽:193