-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

從零開始構建企業級推薦系統

( 簡體 字)
作者:張相於類別:1. -> 程式設計 -> 綜合
譯者:
出版社:電子工業出版社從零開始構建企業級推薦系統 3dWoo書號: 53102
詢問書籍請說出此書號!

缺書
NT售價: 445

出版日:7/1/2020
頁數:320
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121391514
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:


最近恰巧看到一段視頻,是杰夫·貝索斯在1997年的一段訪談,關于他如何開始創辦亞馬遜的。貝索斯之前在紐約的一家量化對沖基金公司工作,他在做數據統計時發現,當年互聯網的使用量在一年時間里增長了2300%,數據告訴他通過互聯網賣東西這件事情不容錯過。
他列出了20種可以在網上銷售的產品,發現書籍是最佳選擇。書籍這個品類下的商品數量比第二名音樂品類要多得多。同時在售的音樂CD有大約20萬種,而各種語言的書籍有300萬種,其中光英文的書籍就有150萬種。當有如此之多的書籍可以選擇的時候,網上商店就是最佳的選擇了,其他方式都很難滿足。20世紀末,注意力是最稀缺的商品。如果想贏得消費者,就要做創新的東西,做全新的對用戶真正有價值的東西。
視頻的最后,貝索斯說道,“今天,1997年,互聯網和電子商務都才剛剛起步,它還僅僅是day one。我相信,當多年以后回頭看的時候,人們會說,wow,20世紀末是這個星球上的一個偉大時代。”無疑,時間回報了這位能夠洞穿未來的冒險家。現如今亞馬遜已經成為世界上首屈一指的公司之一,貝索斯也隨之登上了世界首富的寶座。亞馬遜是全世界最早將個性化推薦技術作為商業系統核心引擎的公司。他們早年關于協同過濾的論文對這個領域的發展影響深遠。
相於工作早期主要的一段經歷是在當當網。當當網是國內最早使用個性化推薦技術的商業公司之一,通過數據智能幫助讀者發現值得閱讀的好書。從2016年開始,相於陸續在ResysChina 公眾號上發表了多篇文章,對自己工作所得所想進行了無私的總結與分享。相於的文章深入淺出,把這項以數學模型為主,乍看起來讓人枯燥的工作,講解得清晰易懂。更難能可貴的是,相於不但精通算法模型,而且對推薦系統的相關產品也有很多思考,受到了業內讀者的廣泛好評。這本書是相於的心血之作,打磨良久,如果你想系統全面地了解如何構建企業級的推薦系統,本書不容錯過。
——ResysChina發起人,谷文棟

自序
我第一次接觸推薦系統是在2012年的電商行業,那時推薦系統領域有兩大傳說:一是推薦系統在Amazon的訂單貢獻達到30%以上;二是Netflix懸賞百萬美金尋找最強的推薦算法。在這種氣氛的烘托下,推薦系統開始受到越來越多的關注,但這種關注并沒有在短時間內轉化成更豐碩的成果。在認知層面,除了電商和視頻等少數行業,在大多數行業中推薦系統的重要性還沒有被廣泛認可,那時整個行業對于流量分發的認知也遠沒有今天這么深入透徹,對于推薦系統的認知也更多停留在“可以幫助電商網站賣貨”這樣的層面。在產品形態層面,彼時還是以各種“豆腐塊”為主,現在占據主導的feed流、直播以及內容混排等也都還沒有出現或者尚處在萌芽期。而在技術層面,機器學習技術還沒有開始廣泛應用,更遑論深度學習,那時推薦算法絕對的主角還是“常青樹”——協同過濾算法。那一年,現在以推薦技術名揚四海的字節跳動剛剛成立。
推薦系統在后來幾年內的發展可謂一日千里,也在各個領域受到了越來越多的重視,在業務、產品和技術層面都取得了長足的發展,與搜索和廣告一起,構成了互聯網算法行業不可或缺的三大核心組件。尤其是近年來隨著數據量的持續增長和算力的持續提升,推薦系統這一以數據和算法為核心驅動力的產品,在深度學習技術的助推下,將業務效果不斷推向新的高度。
從2015年開始,受到ResysChina社區發起人谷文棟的邀請,我開始在ResysChina的公眾號上寫一些推薦系統相關文章,其中有關于推薦算法的,有關于機器學習的,也有一些關于推薦系統整體思考的。在這個過程中我發現,雖說關于推薦系統受到關注更多的通常是各種炫酷的算法,但出自一線實踐的系統構建一手經驗和教訓有時會引起更多的共鳴,這些經驗和教訓可能并不高端也不復雜,甚至很多時候不夠起眼,可是對于構建出成功的推薦系統卻是非常重要的。于是,與大家分享我和我的團隊的實踐經驗和教訓就成為寫這本書的第一個驅動力。
寫這本書還有第二個驅動力,就是希望梳理出推薦系統一些通用的可泛化的做法和思路。推薦系統是一個涉及面非常廣的領域,從算法到工程都有很多比較有技巧性的點,這些技術點編織成了一張復雜的網絡。但這個世界的本質是簡單的,這張復雜的網絡中一定存在著一些關鍵的核心節點,這些節點代表了推薦系統中最為本質、技術點共性的一些東西,掌握這些節點就好比抓住了一棵樹的主干,更多的具體實踐方法只是主干上長出的樹杈和枝丫。正所謂“舉一綱而萬目張,解一卷而眾篇明”,希望能通過這本書和讀者一起探得推薦系統中的些許思想精華。
以上均為作者的美好愿望,但推薦系統領域博大精深,技術日新月異,作者才疏學淺,經多年努力也只窺得皮毛,書中錯謬疏漏之處在所難免。因此,讀者讀完本書如能略有收獲,作者已是誠惶誠恐;如能得諸位讀者不吝賜教,更將不勝感激。讀者可以在ResysChina的微信公眾號、知識星球以及知乎專欄上找到我,也可通過zhangxy@live.com聯系到我。
在這里要感謝曾經和我一起工作過的同事們,和你們的共事過程給予了我寫作的靈感;感謝ResysChina社區的讀者們,你們的反饋和肯定是我寫就本書的動力;最后,感謝我永遠18歲的老婆和我可愛的兒子,你們的愛讓這一切成為可能。
張相於 2020年5月

前言
說起推薦系統,大多數人第一時間想到的是協同過濾、機器學習這些算法技術,但是當你沉浸在其中足夠久的話就會發現,就如同一輛高級跑車不僅需要一臺高級的發動機,構建一套靠譜的推薦系統需要的也不僅僅是那幾種“高大上”的算法,還有很多不那么光鮮的工作需要完成。在掌握推薦算法和搭建一套可用的企業級推薦系統之間,還有很多路要走。寫作本書的目的就是幫助大家從零開始一步步搭建一套可用的企業級推薦系統。這里面最寶貴的可能不是某種算法或某種架構,而是一些通用化、系統化的思維,以及一些沒走過就不知道的“坑”或者技巧。而很多時候也正是這些不會在論文中出現的東西,撐起了推薦系統的半邊天,確保了推薦算法能夠產生它應有的價值。
本書在寫作時力求達到良好的條理性、系統性和通用性。在條理性方面,希望能將一種算法或一個模塊的演進過程從簡單到復雜、循序漸進地展開闡述,讀者可以結合自己的業務情況來決定從哪種狀態入手。在系統性方面,希望能做到把散落的知識點連成面,例如在介紹相關性算法時,會對所有的相關性鏈條模式進行系統性總結,這樣即使以后出現新的相關性算法,讀者也可以很快知道應該如何應用它。在通用性方面,希望能找到不同問題之間的共同點,例如在介紹如何應用機器學習技術時,會將特征類型按照維度和泛化能力進行通用抽象分類,讓讀者真正理解不同特征的作用原理和作用范圍。
本書的整體結構如下。
? 第1章:介紹推薦系統的產生背景、價值及一些產品層面的思考,和讀者一起探討為什么要有推薦系統,以及什么樣的推薦系統是好的系統。
? 第2章:對推薦系統所涉及的技術做一個整體的概括性介紹,勾勒出推薦系統技術的整體骨架,作為后續章節內容的指引。
? 第3章:介紹經久不衰的協同過濾算法和其他的基礎相關性算法,同時給出相關性鏈條的常用模式和規律,按照該模式可構建出任意相關性關系。
? 第4章和第5章:介紹以機器學習模型為代表的算法融合方法及對應的數據血統策略,這里會覆蓋在推薦系統場景下應用機器學習技術的全流程,還會重點介紹機器學習應用中一些不易察覺但卻影響很大的“坑”及其應對方式。
? 第6章:介紹推薦系統的基石數據之一——用戶畫像系統,包括常用的算法及架構的演進,這套技術不僅可用來服務于推薦系統,也可使用在其他需要用戶畫像系統的場景中。
? 第7章:介紹推薦系統的各種評測方法及系統監控策略,包括離線的和在線的多維度效果評測方法,以及系統上線之后保障系統穩定運行的監控方法。
? 第8章:介紹推薦算法優化的常用方法,以及影響推薦系統效果的一些非技術因素,這里著重介紹效果優化的一般性思路,力求做到精練,通過舉一反三,可推廣到更多的場景中。
? 第9章:介紹自然語言處理技術在推薦系統中的應用,包括常用技術的演進過程,以及它們之間的關系。
? 第10章:介紹推薦系統所特有的探索與利用問題,包括該問題對推薦系統的影響,以及常用的解決方法。
? 第11章:介紹推薦系統的整體架構設計,包括架構分層、在每一層上適合進行的操作,以及常用的架構演進規律。
? 第12章:介紹推薦系統工程師的成長路線,包括其需要掌握的技術和進階過程。
? 第13章:介紹當今推薦系統面對的挑戰,以及目前已有的一些嘗試,讀者可以從這里了解到當前還有哪些重要問題沒有得到解決,以及它們對推薦系統的影響。
對于推薦系統的初學者,建議從第1章開始按順序閱讀;對于有一定經驗的讀者,則可以直接翻到感興趣的章節進行閱讀。
內容簡介:

本書是一本面向實踐的企業級推薦系統開發指南,內容包括產品設計、相關性算法、排序模型、工程架構、效果評測、系統監控等推薦系統核心部分的設計與開發,可以幫助開發者逐步構建一個完整的推薦系統,并提供了持續優化的系統性思路。本書注重從系統性和通用性的角度看待推薦系統的核心問題,希望能夠幫助讀者做到知其然,也知其所以然,更能夠舉一反三,真正掌握推薦系統的核心本質。此外,本書對于推薦系統開發中常見的問題和陷阱,以及系統構建過程,也做了重點介紹,力求讓讀者不僅知道做什么,而且知道怎么做。本書的目標讀者是推薦系統研發工程師、產品經理以及對推薦系統感興趣的學生和從業者。
目錄:

第1章 推薦系統的時代背景 1
1.1 為什么需要推薦系統 1
1.1.1 提高流量利用效率 1
1.1.2 挖掘和匹配長尾需求 6
1.1.3 提升用戶體驗 7
1.1.4 技術積累 8
1.2 推薦的產品問題 10
1.2.1 推薦什么東西 10
1.2.2 為誰推薦 13
1.2.3 推薦場景 14
1.2.4 推薦解釋 16
1.3 總結 18
第2章 推薦系統的核心技術概述 19
2.1 核心邏輯拆解 19
2.2 整體流程概述 20
2.3 召回算法 21
2.4 基于行為的召回算法 24
2.5 用戶畫像和物品畫像 24
2.6 結果排序 26
2.7 評價指標 26
2.8 系統監控 27
2.9 架構設計 28
2.10 發展歷程 28
2.11 總結 30
第3章 基礎推薦算法 31
3.1 推薦邏輯流程架構 31
3.2 召回算法的基本邏輯 34
3.3 常用的基礎召回算法 36
3.3.1 用戶與物品的相關性 36
3.3.2 物品與物品的相關性 42
3.3.3 用戶與用戶的相關性 46
3.3.4 用戶與標簽的相關性 47
3.3.5 標簽與物品的相關性 48
3.3.6 相關性召回的鏈式組合 50
3.4 冷啟動場景下的推薦 51
3.5 總結 53
第4章 算法融合與數據血統 54
4.1 線性加權融合 55
4.2 優先級融合 57
4.3 基于機器學習的排序融合 59
4.4 融合策略的選擇 61
4.5 融合時機的選擇 63
4.6 數據血統 64
4.6.1 融合策略正確性驗證 65
4.6.2 系統效果監控 65
4.6.3 策略效果分析 67
4.7 總結 68
第5章 機器學習技術的應用 69
5.1 機器學習技術概述 69
5.2 推薦系統中的應用場景 70
5.3 機器學習技術的實施方法 72
5.3.1 老系統與數據準備 72
5.3.2 問題分析與目標定義 74
5.3.3 樣本處理 76
5.3.4 特征處理 80
5.3.5 模型選擇與訓練 98
5.3.6 模型效果評估 101
5.3.7 預測階段效果監控 104
5.3.8 模型訓練系統架構設計 105
5.3.9 模型預測系統架構設計 108
5.4 常用模型介紹 109
5.4.1 邏輯回歸模型 109
5.4.2 GBDT模型 111
5.4.3 LR+GDBT模型 112
5.4.4 因子分解機模型 113
5.4.5 Wide & Deep模型 115
5.4.6 其他深度學習模型 116
5.5 機器學習實踐常見問題 117
5.5.1 反模式1:只見模型,不見系統 117
5.5.2 反模式2:忽視模型過程和細節 117
5.5.3 反模式3:不注重樣本精細化處理 118
5.5.4 反模式4:過于依賴算法 119
5.5.5 反模式5:核心數據缺乏控制 120
5.5.6 反模式6:團隊不夠“全棧” 121
5.5.7 反模式7:系統邊界模糊導致出現“巨型系統” 121
5.5.8 反模式8:不重視基礎數據架構建設 122
5.6 總結 123
第6章 用戶畫像系統 124
6.1 用戶畫像的概念和作用 124
6.2 用戶畫像的價值準則 126
6.3 用戶畫像的構成要素 128
6.3.1 物品側畫像 129
6.3.2 用戶側畫像 133
6.3.3 用戶畫像擴展 139
6.3.4 用戶畫像和排序特征的關系 142
6.4 用戶畫像系統的架構演進 143
6.4.1 用戶畫像系統的組成部分 143
6.4.2 野蠻生長期 144
6.4.3 統一用戶畫像系統架構 145
6.5 總結 147
第7章 系統效果評測與監控 148
7.1 評測與監控的概念和意義 148
7.2 推薦系統的評測指標系統 150
7.3 常用指標 151
7.4 離線效果評測方法 158
7.5 在線效果評測方法 163
7.5.1 AB實驗 163
7.5.2 交叉實驗 173
7.6 系統監控 178
7.7 總結 181
第8章 推薦效果優化 182
8.1 準確率優化的一般性思路 183
8.2 覆蓋率優化的一般性思路 185
8.3 行為類相關性算法優化 188
8.3.1 熱度懲罰 188
8.3.2 時效性優化 190
8.3.3 隨機游走 194
8.3.4 嵌入表示 196
8.4 內容類相關性算法優化 200
8.4.1 非結構化算法 201
8.4.2 結構化算法 201
8.5 影響效果的非算法因素 205
8.5.1 用戶因素 205
8.5.2 產品設計因素 206
8.5.3 數據因素 208
8.5.4 算法策略因素 208
8.5.5 工程架構因素 209
8.6 總結 210
第9章 自然語言處理技術的應用 211
9.1 詞袋模型 212
9.2 權重計算和向量空間模型 214
9.3 隱語義模型 216
9.4 概率隱語義模型 218
9.5 生成式概率模型 220
9.6 LDA模型的應用 222
9.6.1 相似度計算 222
9.6.2 排序特征 222
9.6.3 物品打標簽&用戶打標簽 223
9.6.4 主題&詞的重要性度量 223
9.6.5 更多應用 224
9.7 神經概率語言模型 224
9.8 行業應用現狀 226
9.9 總結和展望 227
第10章 探索與利用問題 228
10.1 多臂老虎機問題 228
10.2 推薦系統中的EE問題 230
10.3 解決方案 231
10.3.1 ?-Greedy算法 231
10.3.2 UCB 234
10.3.3 湯普森采樣 236
10.3.4 LinUCB 237
10.4 探索與利用原理在機器學習系統中的應用 239
10.5 EE問題的本質和影響 240
10.6 總結 241
第11章 推薦系統架構設計 242
11.1 架構設計概述 242
11.2 系統邊界和外部依賴 244
11.3 離線層、在線層和近線層架構 246
11.4 離線層架構 247
11.5 近線層架構 249
11.6 在線層架構 252
11.7 架構層級對比 255
11.8 系統和架構演進原則 256
11.8.1 從簡單到復雜 256
11.8.2 從離線到在線 258
11.8.3 從統一到拆分 258
11.9 基于領域特定語言的架構設計 259
11.10 總結 262
第12章 推薦系統工程師成長路線 263
12.1 基礎開發能力 264
12.1.1 單元測試 264
12.1.2 邏輯抽象復用 264
12.2 概率和統計基礎 265
12.3 機器學習理論 266
12.3.1 基礎理論 267
12.3.2 監督學習 268
12.3.3 無監督學習 269
12.4 開發語言和開發工具 270
12.4.1 開發語言 270
12.4.2 開發工具 270
12.5 算法優化流程 271
12.6 推薦業務技能 273
12.7 總結 274
第13章 推薦系統的挑戰 275
13.1 數據稀疏性 275
13.2 推薦結果解釋 277
13.3 相關性和因果性 281
13.4 信息繭房 283
13.5 轉化率預估偏差問題 286
13.6 召回模型的局限性問題 288
13.7 用戶行為捕捉粒度問題 290
13.8 總結 291
序: