亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

糖豆實時推薦系統(tǒng)設計與實現(xiàn)

pf_miles / 2248人閱讀

摘要:年發(fā)表了基于和存儲的大規(guī)模實時推薦系統(tǒng)實現(xiàn)了一系列經(jīng)典推薦算法的實時版本實現(xiàn)了數(shù)種實時算法提高推薦精度廣泛應用于業(yè)務有效提高騰訊采用使用原因,支持實時數(shù)據(jù)流式計算,良好的可擴展性可容錯性,采用簡單編程模型。

1.實時推薦系統(tǒng)與相關工作 1.1 原因

實時計算能夠及時捕獲用戶短時興趣,同時能夠快速反饋分發(fā)當前系統(tǒng)的用戶興趣內(nèi)容。大量實踐以及發(fā)表的文章都顯示了推薦系統(tǒng)實時化,對推薦精準度的提升的有效性和必要性。

1.2 騰訊架構與實現(xiàn)

實時推薦相關工作非常多,騰訊和北大合作的兩篇SIGMOD文章是比較實際和詳細的實現(xiàn),采用的計算框架能夠支持大規(guī)模數(shù)據(jù)的實時推薦,以下將會分開簡述以下兩篇文章。

2015年

Huang發(fā)表了基于Storm和KV存儲的大規(guī)模實時推薦系統(tǒng) (TencentRec: Real-time Stream Recommendation in Practice)

實現(xiàn)了一系列經(jīng)典推薦算法的實時版本
實現(xiàn)了數(shù)種實時算法提高推薦精度
廣泛應用于業(yè)務有效提高
騰訊采用使用storm原因,支持實時數(shù)據(jù)流式計算,良好的可擴展性、可容錯性,采用簡單編程模型。文章核心包括實時增量計算的ItemCF,以及用戶隱式反饋計算、實時剪枝算法、基于用戶畫像的數(shù)據(jù)稀疏性策略。應用在多個業(yè)務上都有不同程度的提升,最明顯的是騰訊視頻的全局表現(xiàn)提升高達30%。

全文核心應該是下圖六道公式,闡述騰訊如何具體實現(xiàn)的增量itemcf。

文章中的co-rating,其實就是我們常說的user bias. 公式3和4解決了用戶隱式反饋問題,細節(jié)的計算可以參考2016的文章,實際是一個log函數(shù)融合了用戶的瀏覽、點擊、分享、購買等行為,轉化成rating.

corating.png

請注意公式4,由于他們定義了corating,實際是將相似度的增量計算從L2范數(shù)的計算轉化成了L1范數(shù)計算.(當Rup取x的時候,y=1/x)。

可擴展的增量計算

itemcf.png

initemcf.png

2016年

騰訊視頻的推薦應用(Real-time Video Recommendation Exploration)

實時處理、大規(guī)模數(shù)據(jù)下的準確率和可擴展性。
開發(fā)了一個基于矩陣分解的大規(guī)模在線協(xié)同過濾算法,以及一系列的自適應更新策略。
通過增加包括視頻類別、時間因素影響、用戶畫像剪枝以及訓練等方法,提高實時TopN推薦的精度。
在我們看來,全文核心在于實時計算的數(shù)據(jù)流轉,如下圖所示:

tecvideo.png

基于storm的實時計

![圖片上傳中...]

topo.png

糖豆的設計與實現(xiàn) 2.1 架構


糖豆整體推薦框架,從離線,近線,在線三套計算流程組合而成。在線流程基于Spark Streaming框架實現(xiàn),部署在近線集群。 在線推薦框架實時根據(jù)用戶行為,生成實時推薦列表,從而滿足用戶瞬時興趣,提高推薦系統(tǒng)的推薦新鮮度。簡單架構圖如下:

糖豆實時架構.png

2.2 基于Spark Streaming的實現(xiàn) 2.2.1. 計算流程

實時計算流程如下圖所示:

實時計算流程圖

分解步驟:

Spark Streaming 讀取Kafka,原始日志ETL
提取用戶隱式反饋,生成候選集tuple (uid,vid)
每天凌晨會將離線計算好的ItemCF模型結果集導入Redis。itemcf數(shù)據(jù)結構是一個similarity vid list。
實時維護看過視頻set,對看過視頻的處理候選集tuple過濾該用戶看過的視頻
實時更新推薦過視頻set,候選集tuple過濾當天已經(jīng)被推薦過的視頻
候選集寫入Redis推薦list

2.2.2 監(jiān)控

部署在集群Master節(jié)點的監(jiān)控腳本會每30s掃描一次實時計算代碼進程,如果發(fā)現(xiàn)進程被failed,會自動拉起實時計算Spark Steaming進程。如果進程拉起失敗會觸發(fā)郵件、短信報警

2.3 收益

根據(jù)我們的AB測試數(shù)據(jù)來看,整體CTR提升25%。用推薦系統(tǒng)的A版對比無推薦的B版,用戶觀看時長提升47%。

recabdata.png

問題與改進


較多代碼邏輯集中在Redis。目前Redis無災備措施,同時IO和負載也會出現(xiàn)Peak。
Spark Streaming 目前實時級別在分鐘級。需要升級成storm的秒、毫秒級別。
需要用戶點擊等行為才會生產(chǎn)數(shù)據(jù),容易召回不足。

文章版權歸作者所有,未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉載請注明本文地址:http://www.ezyhdfw.cn/yun/41958.html

相關文章

  • UCloud快杰云主機 提升糖豆App運營質量實戰(zhàn)

    摘要:快杰云主機搭建??旖茉浦鳈C,搭載選用第二代處理器,主頻,領先的制程工藝帶來顯著的性能提升,使之打破總體性價比世界記錄。因此,糖豆與神策數(shù)據(jù)此次最終共同選擇了快杰服務器。在涼風習習的夜晚里,璀璨的燈火映照下,隨處都能碰到翩翩起舞的人群,這就是廣場舞,在這嘹亮、節(jié)奏鮮明的歌聲里有一款大媽們熱愛的APP—-?糖豆APP。 ?一、挑戰(zhàn) 在發(fā)展之初,多家企業(yè)看好廣場舞這個賽道,而糖豆創(chuàng)業(yè)初...

    figofuture 評論0 收藏0
  • 何為敏捷大數(shù)據(jù)敏捷AI?

    摘要:摘要敏捷大數(shù)據(jù)智能化的主要目標就是,結合敏捷大數(shù)據(jù)實施理念,研發(fā)靈活的輕量化的智能模型,并在敏捷大數(shù)據(jù)平臺上對數(shù)據(jù)流進行實時智能化處理,最終實現(xiàn)一站式的大數(shù)據(jù)智能分析實踐。因此,實時數(shù)據(jù)處理已成為未來大數(shù)據(jù)技術發(fā)展的主要方向。 摘要:敏捷大數(shù)據(jù)智能化的主要目標就是,結合敏捷大數(shù)據(jù)實施理念,研發(fā)靈活的、輕量化的智能模型,并在敏捷大數(shù)據(jù)平臺上對數(shù)據(jù)流進行實時智能化處理,最終實現(xiàn)一站式的大數(shù)...

    X_AirDu 評論0 收藏0
  • 螞蟻金服智能推薦引擎解決方案實踐

    摘要:演講中,王志勇代表螞蟻金服首次向公眾介紹了螞蟻金服智能推薦引擎,分享了螞蟻金服利用人工智能和大數(shù)據(jù)能力在推薦引擎上沉淀的大量經(jīng)驗,并介紹了結合螞蟻自身優(yōu)勢打造的能夠靈活適配各種業(yè)務場景的智能推薦引擎解決方案及其能力和優(yōu)勢。 摘要:以數(shù)字金融新原力(The New Force of Digital Finance)為主題,螞蟻金服ATEC城市峰會于2019年1月4日上海如期舉辦。金融智能...

    tuantuan 評論0 收藏0
  • 美圖個性化推薦的實踐探索

    摘要:美圖的推薦流程分為如下三個階段召回階段推薦的本質是給不同的用戶提供不同的內(nèi)容排序。美圖的用戶數(shù)量逐步增長,而每個用戶的興趣點隨著場景時間也在同步發(fā)生變化。 互聯(lián)網(wǎng)技術將我們帶入了信息爆炸的時代,面對海量的信息,一方面用戶難以迅速發(fā)現(xiàn)自己感興趣的信息,另一方面長尾信息得不到曝光。為了解決這些問題,個性化推薦系統(tǒng)應運而生。美圖擁有海量用戶的同時積累了海量圖片與視頻,通過推薦系統(tǒng)有效建立了用...

    Galence 評論0 收藏0

發(fā)表評論

0條評論

pf_miles

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<