3dwoo大學簡體電腦書店
智能Web算法(第2版)
( 簡體 字)
作者:達觀數據 陳運文 等譯類別:1. -> 程式設計 -> 綜合
出版社:電子工業出版社智能Web算法(第2版) 3dWoo書號: 47085
詢問書籍請說出此書號!
有庫存
NT售價: 345
出版日:6/1/2017
頁數:248
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 字 )
ISBN:9787121317231 加入購物車加到我的最愛 (請先登入會員)
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社)
第1章 為智能Web建立應用........1

1.1 智能算法的實踐運用:Google Now ........3

1.2 智能算法的生命周期 ...........5

1.3 智能算法的更多示例 ...........6

1.4 不屬于智能應用的內容 ...........7

1.4.1 智能算法并不是萬能的思考機器 .......7

1.4.2 智能算法并不能成為完全代替人類的工具 .....8

1.4.3 智能算法的發展并非一蹴而就 .......8

1.5 智能算法的類別體系 ...........9

1.5.1 人工智能 ...........9

1.5.2 機器學習 ...........10

1.5.3 預測分析 ........... 11

1.6 評估智能算法的效果 ...........13

1.6.1 評估智能化的程度 .........13

1.6.2 評估預測 ...........14

1.7 智能算法的重點歸納 ...........16

1.7.1 你的數據未必可靠 .........16

1.7.2 計算難以瞬間完成 .........17

1.7.3 數據規模非常重要 .........17

1.7.4 不同的算法具有不同的擴展能力 .......18

1.7.5 并不存在萬能的方法 .........18

1.7.6 數據并不是萬能的 .........18

1.7.7 模型訓練時間差異很大 .........18

1.7.8 泛化能力是目標 ...........19

1.7.9 人類的直覺未必準確 .........19

1.7.10 要考慮融入更多新特征 .........19

1.7.11 要學習各種不同的模型 .........19

1.7.12 相關關系不等同于因果關系 .......20

1.8 本章小結 .............20

第2章 從數據中提取結構:聚類和數據變換.....21

2.1 數據、結構、偏見和噪聲 .........23

2.2 維度詛咒 .............26

2.3 k-means算法 .............27

2.3.1 實踐運用 k-means ..........31

2.4 高斯混合模型 .............34

2.4.1 什么是高斯分布 ...........34

2.4.2 期望最大與高斯分布 .........37

2.4.3 高斯混合模型 ...........37

2.4.4 高斯混合模型的學習實例 .........38

2.5 k-means和GMM的關系 ...........41

2.6 數據坐標軸的變換 ...........42

2.6.1 特征向量和特征值 .........43

2.6.2 主成分分析 ...........43

2.6.3 主成分分析的示例 .........45

2.7 本章小結 .............47

第3章 推薦系統的相關內容........48

3.1 場景設置:在線電影商店 .........49

3.2 距離和相似度 .............50

3.2.1 距離和相似度的剖析 .........54

3.2.2 最好的相似度公式是什么 .........56

3.3 推薦引擎是如何工作的 ...........57

3.4 基于用戶的協同過濾 ...........59

3.5 奇異值分解用于基于模型的推薦 .........64

3.5.1 奇異值分解 ...........64

3.5.2 使用奇異值分解進行推薦:為用戶挑選電影 .....66

3.5.3 使用奇異值分解進行推薦:幫電影找到用戶 .....71

3.6 Net.ix競賽 ............74

3.7 評估推薦系統 .............76

3.8 本章小結 .............78

第4章 分類:將物品歸類到所屬的地方......79

4.1 對分類的需求 .............80

4.2 分類算法概覽 .............83

4.2.1 結構性分類算法 ...........84

4.2.2 統計性分類算法 ...........86

4.2.3 分類器的生命周期 .........87

4.3 基于邏輯回歸的欺詐檢測 .........88

4.3.1 線性回歸簡介 ...........89

4.3.2 從線性回歸到邏輯回歸 .........91

4.3.3 欺詐檢測的應用 ...........94

4.4 你的結果可信嗎 ...........102

4.5 大型數據集的分類技術 ...........106

4.6 本章小結 .............108

第5章 在線廣告點擊預測. .........109

5.1 歷史與背景 ............. 110

5.2 廣告交易平臺 ........... 112

5.2.1 cookie 匹配 ........... 113

5.2.2 競價(bid) ............ 113

5.2.3 競價成功(或失敗)的通知 ....... 114

5.2.4 廣告展示位 ........... 114

5.2.5 廣告監測 ........... 115

5.3 什么是bidder ............. 115

5.3.1 bidder的需求 .......... 116

5.4 何為決策引擎 ........... 117

5.4.1 用戶信息 ........... 117

5.4.2 廣告展示位信息 ........... 117

5.4.3 上下文信息 ........... 117

5.4.4 數據準備 ........... 118

5.4.5 決策引擎模型 ........... 118

5.4.6 將點擊率預測值映射為競價價格 ....... 118

5.4.7 特征工程 ........... 119

5.4.8 模型訓練 ........... 119

5.5 使用Vowpal Wabbit進行點擊預測 ........120

5.5.1 Vowpal Wabbit的數據格式 .........120

5.5.2 準備數據集 ...........123

5.5.3 測試模型 ...........128

5.5.4 模型修正 ...........131

5.6 構建決策引擎的復雜問題 .........132

5.7 實時預測系統的前景 ...........133

5.8 本章小結 .............134

第6章 深度學習和神經網絡........135

6.1 深度學習的直觀方法 ...........136

6.2 神經網絡 .............137

6.3 感知機 .............139

6.3.1 模型訓練 ...........141

6.3.2 用 scikit-learn訓練感知機 .........142

6.3.3 兩個輸入值的感知機的幾何解釋 .......144

6.4 多層感知機 .............146

6.4.1 用反向傳播訓練 ...........150

6.4.2 激活函數 ...........150

6.4.3 反向傳播背后的直觀理解 .........152

6.4.4 反向傳播理論 ...........153

6.4.5 scikit-learn中的多層神經網絡 ........155

6.4.6 訓練出來的多層感知機 .........158

6.5 更深層:從多層神經網絡到深度學習 .......159

6.5.1 受限玻耳茲曼機 ...........160

6.5.2 伯努利受限玻耳茲曼機 .........160

6.5.3 受限玻耳茲曼機實戰 .........164

6.6 本章小結 .............167

第7章 做出正確的選擇.........168

7.1 A/B測試 ............170

7.1.1 相關的理論 ...........170

7.1.2 評估代碼 ...........173

7.1.3 A/B測試的適用性 .........174

7.2 多臂賭博機 .............175

7.2.1 多臂賭博機策略 ...........176

7.3 實踐中的貝葉斯賭博機策略 .........180

7.4 A/B測試與貝葉斯賭博機的對比 ........191

7.5 擴展到多臂賭博機 ...........192

7.5.1 上下文賭博機 ...........193

7.5.2 對抗賭博機 ...........193

7.6 本章小結 .............194

第8章 智能Web的未來.........196

8.1 智能Web的未來應用 ..........197

8.1.1 物聯網 ...........197

8.1.2 家庭健康護理 ...........198

8.1.3 自動駕駛汽車 ...........198

8.1.4 個性化的線下廣告 .........199

8.1.5 語義網 ...........199

8.2 智能Web的社會影響 ..........200

附錄A 抓取網絡上的數據.........201
機器學習一直是人工智能研究領域的重要方向,而在大數據時代,來自Web 的數據采集、挖掘、應用技術又越來越受到矚目,并創造著巨大的價值。本書是有關Web 數據挖掘和機器學習技術的一本知名的著作,第2 版進一步加入了本領域最新的研究內容和應用案例,介紹了統計學、結構建模、推薦系統、數據分類、點擊預測、深度學習、效果評估、數據采集等眾多方面的內容。本書內容翔實、案例生動,有很高的閱讀價值。
本書適合對算法感興趣的工程師與學生閱讀,對希望從業務角度更好地理解機器學習技術的產品經理和管理層來說,亦有很好的參考價值。

譯者序

人工智能和機器學習技術近年來得到了飛速的發展,并成為計算機界乃至全社會炙手可熱的話題。這些優秀的技術讓每個人的生活越來越方便和智能,這讓從業者感到非常欣喜。智能算法是人工智能的核心技術,不論是我當前創辦的達觀數據,還是之前在騰訊、盛大、百度等互聯網企業的工作,都是圍繞智能算法展開的,我對此有深厚的熱情。因此當電子工業出版社計算機出版分社的張春雨編輯邀請我翻譯這本《智能 Web算法(第 2版)》的時候,雖然深知翻譯和審校要付出大量的時間和精力,但還是很愉快地接受了邀請并完成了翻譯工作,希望本書中文版的面世,能幫助廣大愛好者建立起對 Web數據挖掘和機器學習技術全面且直觀的了解。
在眾多有關機器學習和數據挖掘的書籍里,本書是頗為經典的一本。其特點之一是內容覆蓋面很廣,有關網絡數據挖掘的方方面面都涵蓋到了,從數據采集、存儲,到降維運算和結構抽取,以及涉及模式識別的聚類和分類、統計機器學習理論等,還有面向互聯網應用的推薦系統、搜索引擎、廣告點擊預測等,配套的效果評估機制也有專門的章節進行講解,讀者閱讀本書后可以形成較為全面的學習體系。特點之二是本書較好地在算法思想、數學原理、應用案例之間找到了平衡點。每個章節作者都由淺入深地講解了算法的思想,并通過列舉一些非常生動的案例來讓讀者更好地理解算法的原理。例如,列舉的 Iris數據集結構的抽取、在線電影推薦系統、金融欺詐檢測、廣告點擊預測等實踐案例的講解都非常清晰易懂。書中對數學公式的使用點到為止,力求簡潔。這樣既不像很多教科書那樣堆砌數學公式,讓很多讀者望而生畏,又不像很多書籍那樣只是羅列程序代碼而不講解背后的算法思想。這和作者既有工程實踐經驗,又有學術研究背景密不可分的。
與通常的再版書籍只是做些局部修訂不同,本書第 2版對第 1版圖書的內容進行了全面徹底的升級改寫,全書有超過 80%的篇幅與第 1版不同,可以說是脫胎換骨的變化。這些變化具體體現在以下三個方面:首先,增加了近年來數據挖掘領域最新的一些研究成果,例如當下炙手可熱的深度學習等,同時刪減了一些較為陳舊的內容;其次,調整了全書的組織結構,章節的劃分更為合理,每章內容更加豐富,列舉的案例也更貼近實戰。第三,全書的示例代碼不再使用第 1版的小眾開發語言 BeanShell,而是改為機器學習界更為常用的 Python,并配合機器學習界知名的開源軟件包 scikit-learn,讓本書的代碼閱讀起來更友好,也大大增強了示例代碼的實用性。
本書由于篇幅所限,雖然涉及的面很寬廣,但是每個章節的內容都沒有進一步深入展開。我在翻譯過程中,覺得本書有些內容講得略偏淺顯,在所提及的領域都屬于入門級的深度,讀起來有些意猶未盡。事實上如果深究起來,本書每個章節的內容都足夠擴充成一本獨立的書籍。好在本書作者提供了很多參考資料,并在相應章節的腳注里細心地進行了標識,對更深入的內容感興趣的讀者,不妨按圖索驥,下載相應的論文和著作來一窺究竟。
本書的翻譯工作,要深深感謝電子工業出版社的張春雨、劉舫和編輯朋友們給予的大力幫助和耐心指點。同時要感謝我所在的公司——達觀數據的各位親密戰友,依靠大家分工協作、共同努力,才順利完成了全書各個章節的翻譯工作,這些同事是于敬、文輝、紀達麒、紀傳俊、江永青、馮仁杰、桂洪冠、高翔、王文廣、張健、范雄雄、蹇智華、孟禮斌。團結才有力量,大家共同的辛勤工作和智慧結晶,讓本書翻譯工作順利完成。
限于譯者水平所限,在理解和翻譯本書的過程中,一些知識的專遞未必到位,所使用的語言也未免生澀,我們力求做到“信、達、雅”,一些不好把握的字句也反復查閱過資料,希望能較為忠實地還原作者的意圖,讓廣大讀者能享受通暢的閱讀體驗。如有疏漏之處,希望讀者朋友閱讀時多多包涵,并不吝提出各種意見和建議。
人工智能和機器學習技術正在得到越來越多的人的關注,并正在發揮著越來越大的價值。身為其中的一員,我非常榮幸自己能夠生于這一歷史上最火熱的發展時代里,我創辦的達觀數據,也正在運用本書里所介紹的各種技術,來幫助中國的企
譯者序VII
業更好地挖掘數據背后的規律,自動完成很多原本需要大量人力才能實現的功能。創業維艱,本書的很多翻譯和校對工作是在出差途中和深夜完成的,感謝家人對我的理解和關懷。期望達觀數據的技術服務能讓很多企業提升運行效率、降低成本,從原先的粗放型增長轉變為技術驅動型的精細化增長。
眼下全球技術競爭愈演愈烈,數據作為人工智能時代的原油,對其進行提煉和挖掘的技術至關重要。我希望包括本書在內的一系列國外優秀書籍被翻譯引入后,能夠幫助中國的技術人才、工程師、學生乃至企業管理者拓展視野、啟發思維,把握業界的技術發展脈搏,成為大數據時代浪尖的弄潮兒。
陳運文達觀數據創始人兼 CEO

譯者簡介

陳運文,計算機博士,達觀數據 CEO,ACM和 IEEE會員,中國計算機學會高級會員;在大數據架構設計、搜索和推薦引擎、文本數據挖掘等領域有豐富的研發經驗;曾經擔任盛大文學首席數據官、騰訊文學數據中心高級總監、百度核心算法工程師等工作,申請有 30余項國家發明專利,多次參加國際 ACM數據算法競賽并獲得冠亞軍榮譽。

序言

萬維網( World Wide Web)是互聯網信息社會里的最根本的基礎設施,數以億計的人們把它作為主要的交互聯系工具。互聯網上信息服務的發展也帶動了工業的進步。今天,隨著云計算和無線通信技術的成熟, Web不僅成為人們發布和獲取信息的平臺,而且成為為數億人隨時隨地提供信息服務開發、部署和應用的平臺。大數據為構建多樣性的服務提供了豐富的內容,也為智能化的服務創造了價值,讓 Web上服務的用戶體驗逐步提升。智能服務的 Web正在改變人們的日常生活:它幫助我們尋找合適的酒店、安排完美的假期旅行,讓我們購買到幾乎任何商品,以及建立起豐富多彩的社群,而這些智能來自對 Web內容和用戶間交互所產生的數據的深度分析。因此建立 Web智能是當今數據科學發展領域里的核心技術。
非常榮幸能由我來為大家介紹這本精彩的《智能 Web算法(第 2版)》,本書由一位年輕但經驗豐富的數據科學家 Douglas McIlwraith博士修訂,目的是為大家揭示智能 Web應用的精髓:實現智能所依賴的各種算法。這是一個宏偉的目標,但是 Doug博士用樸實無華的語言,在不到 250頁的篇幅里成功將豐富的知識通俗易懂地呈現了出來。
本書涵蓋了豐富的應用場景和常見的流行算法,并通過嚴謹的數學推導和簡潔的 Python代碼對這些算法進行了清晰的介紹。我非常順暢地通讀了本書,也希望能與你一起分享閱讀的樂趣。更為重要的是,我希望當你閱讀完本書后,發現自己可以用學會的很多知識和技能,打造出更智能的 Web!
Yike Guo教授 &總監數據科學研究所倫敦帝國理工

前言

非常榮幸我們能投身于當今時代最令人激動的一個技術領域。在短短數十年間,稚嫩的互聯網就蓬勃發展成如今連接全世界的萬維網,讓每個身在其中的人隨時隨地進行通信交流,讓大家擁有了瞬間就能得到幾乎任何問題答案的能力。
智能算法的研發充分運用了信息的價值,在塑造我們新的生活方式上扮演了重要角色。反過來我們也越來越依賴智能算法來引領我們線上和線下的生活,這也促使我們將更寬的視野和更多的數據用于算法的訓練和測試。若干年前神經網絡算法還是被學術界所擯棄的方法,但是如今隨著大規模高可用的數據技術的發展,神經網絡技術再次大放異彩。
我們剛剛進入一個新紀元,在這里我們能與手機對話,讓它預測我們的需求、預訂我們的約會、建立我們的通信連接。在不久的將來,我們也許能看到無人駕駛汽車和虛擬現實技術的曾及,所有這些應用都牢牢地扎根于計算機科學技術對真實世界問題的回應,智能算法是其中的重要部分,也是本書的核心。
不幸的是,進入機器學習和數據科學的世界看上去令人生畏,這里充滿了數學和統計學,你的直覺有時也會誤導你!通過修訂本書,我們希望介紹第一版面世以來該領域的最新發展,也為新入行的朋友們提供指引。在本書中我們提供了通俗易懂的實例、真實問題的解決方案,以及相應的代碼片段。我們盡可能地越過繁復的
數學公式來重點闡述技術的核心思想,希望我們對此拿捏得足夠好。
在本書中你將看到,我們把內容劃分為 8個章節,每個章節涵蓋智能 Web的一個重要的算法領域。本書最后的附錄部分講解了智能 Web應用中的數據處理流程,我們希望通過這部分內容,來為實踐者展示在系統中將快速變化的數據有效地運轉起來是多么重要且困難。

致謝

感謝在本書撰寫過程中參與的各位伙伴:編輯 Marjan Bace以及出版發行團隊的所有成員,包括 Janet Vail, Kevin Sullivan, Tiffany Taylor, Dottie Marsico, Linda Recktenwald,以及幕后的很多工作人員。
也感謝參與本書各階段校對的人員: Nii A-Okine, Tobias Bürger, Marius Butuc, Carlton Gibson, John Guthrie, Pieter Gyselinck, PeterJohn Hampton, Dike Kalu, Seth Liddy, Radha Ranjan Madhav, Kostas Passadis, Peter Rabinovitch, Srdjan Santic, Dennis Sellinger, Dr. Joseph Wang, Michael Williams。感謝你們反復閱讀,認真進行校對,你們提供的寶貴意見在本書中得到了充分體現。
本書中引用的很多系統、函數庫、程序包并非作者原創,而是來自本領域的眾多社區開發者、數據科學家、機器學習專家,在此對以上所有人表示感謝。
回想起最初討論修訂《智能 Web算法》時的情形,記得我當時心里想“嘿,這本書的第一版已經寫得很好了,修訂的工作量不會很大吧?”但最后結果是,很大。該領域的變化很快,有太多有趣的工作我想拿來與人分享,因此我不得不仔細地選擇哪些該舍棄、哪些該刪減、哪些該修訂、哪些該增加。因此本書花費了比我預料更多的時間,但我很幸運獲得了很多優秀的人們的支持、鼓勵和忍耐。
首先也是最重要的,我想感謝我的未婚妻, Elly。你的愛心、忍耐、鼓勵,是我生命中永恒的存在。如果沒有你,本書是難以完成的。我愛你。
其次,我想感謝我的父母和家人,在我遇到挫折時永遠呵護和支持我,希望你們能喜歡本書,你們的養育之恩我永遠銘記。
第三,感謝我的眾多朋友和同事,和杰出的你們在一起工作是一件非常幸運的事,你們讓我每一天都過得很開心,謝謝你們!
我還想感謝我的兩位編輯 Jeff Bleiel和 Jennifer Stout,你們的指導幫助本書最終完成。Jennifer,你的樂觀和熱情給了我堅持的動力,謝謝你!
Douglas McIlwraith
我想感謝我的父母 Eva和 Alexander,他們無微不至的關心,讓我在夜以繼日的寫作和研究中,始終保持著好奇心和熱情。這是我畢生難忘的恩情。
我衷心感謝我珍愛的妻子 Aurora和我的三個孩子: Nikos, Lukas和 Albert—你們是我人生的驕傲和樂趣。我永遠感激你們給予的愛心、耐心和理解。孩子們無盡的好奇心不斷地激發我學習的靈感。非常感謝我的岳父母 Cuchi和 Jose,我的姐妹 Maria和 Katerina,以及我最好的朋友 Michael和 Antonio,感謝你們持續的鼓勵和無條件的支持。
一定不能遺忘的是感謝 Amilcar Avenda.o博士和 Maria Balerdi博士給予的眾多幫助,讓我學會了很多心臟學的知識,并打下了我早期的學習基礎。感謝 Leon Cooper教授以及布朗大學的眾多杰出朋友,你們不僅揭示了很多大腦運行的規律,還鼓勵我開展智能應用的工作。
鼓勵和支持我進行各種智能相關的積極工作的過去和現在的同事: Ajay Bhadari, Kavita Kantkar, Alexander Petrov, Kishore Kirdat,等等,雖然這里只能寫下寥寥數語,但是我對你們的感激之情溢于言表。
Haralambos Marmanis
首先也是最重要的,我想感謝我親愛的妻子 Elena。
我還想謝謝我過去和現在的同事: Konstandin Bobovich, Paul A. Dennis, Keith Lawless和 Kevin Bedell,你們伴隨了我的職業生涯,是我的靈感源泉。
Dmitry Babenko
pagetop