爬蟲實戰:從數據到產品( 簡體 字) | |
作者:賀思聰 | 類別:1. -> 程式設計 -> 網路爬蟲 |
出版社:電子工業出版社 | 3dWoo書號: 50881 詢問書籍請說出此書號! 有庫存 NT售價: 345 元 |
出版日:3/1/2019 | |
頁數:244 | |
光碟數:0 | |
站長推薦: | |
印刷:黑白印刷 | 語系: ( 簡體 字 ) |
ISBN:9787121355080 | 加入購物車 │加到我的最愛 (請先登入會員) |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社) | |
第1章 基礎知識 1
1.1 什么是爬蟲 1 1.2 數據獲取渠道 2 1.3 抓包分析工具 4 1.4 爬蟲和反爬蟲的斗爭 5 1.5 數據處理、分析和可視化 20 1.6 延深閱讀 21 第2章 基于位置信息的爬蟲Ⅰ 23 2.1 背景及目標 23 2.2 爬蟲原理 24 2.3 數據來源分析 26 2.4 簡單的矩形區域爬取方式 38 2.5 高級區域爬取方式 46 2.6 坐標轉換 49 2.7 存儲數據的方式 49 2.8 數據導入 51 2.9 基本數據分析 52 2.10 地圖可視化 56 2.11 軌跡可視化 58 2.12 總結 60 第3章 基于位置信息的爬蟲Ⅱ 62 3.1 背景及目標 62 3.2 爬蟲原理 62 3.3 優化方案一 71 3.4 優化方案二 75 3.5 優化方案三 82 3.6 導入數據到數據庫 97 3.7 基本數據分析及可視化 100 3.8 總結 117 第4章 網站信息爬取及可視化 118 4.1 背景及目標 118 4.2 網站API分析 118 4.3 數據爬取 122 4.4 數據導入 129 4.5 數據分析及可視化 133 4.6 總結 173 第5章 基于逆向分析小程序的爬蟲 174 5.1 背景及目標 174 5.2 數據來源分析 176 5.3 數據爬取方案 177 5.4 轉換數據格式 195 5.5 總結 196 第6章 從數據到產品 197 6.1 從一張機票說起 197 6.2 從價值探索到交付落地 201 6.3 數據爬取 203 6.4 爬蟲架構設計 203 6.5 發現數據的價值 211 6.6 創新的不確定性 223 6.7 產品設計 226 6.8 產品交付 235 6.9 總結 236 本書從多個數據項目實例出發,介紹爬蟲、反爬蟲的各種案例,使讀者了解到數據抓取和分析的完整過程。書中案例的難度由淺入深,以作者原創的代碼為主,不借助現成的框架,強調在數據采集過程中的發散思維,總結攻克反爬蟲的思維模式,實現以低成本的方式得到想要的數據的愿望。最后,用一個“愛飛狗”的例子,為讀者展示如何從0到1地開發一個大數據產品。
智能設備(如智能手環、百度音箱、掃地機器人等)的普及使收集個人數據變得非常容易。機器性能的提高使得分析、使用數據變得更加自動化。大量的數據結合強大的計算性能使數據從量變到質變的過程極短,我們的導航早已不再是傻傻地按照既有的策略規劃行駛路線,而是一直在向“老司機”學習,不斷更新算法,從而帶來更精準的預測。
在這個時代,數據就是新一代的資源。我們的身邊充滿了數據流。我們既是數據流的生產者,也是數據流的消費者。對個人而言,如果我們能夠合理地識別、收集、分析、利用這些數據,就能夠在我們做決策時給出一些新的想法。例如,在GitHub上一個非常有效的比特幣高頻交易的源代碼,其作者在2016年年底到2017年1月這段時期內,用6000元的初始資金賺到了25萬元。他所利用的就是對比特幣這種新交易手段的交易數據的洞察,利用機器自動收集分析行情并進行自動化交易。為了解決“什么時候買機票最便宜”的問題,我通過長達兩年的數據爬取,收集到上百億條機票價格數據并進行數據分析及可視化,最后形成了一個名為“愛飛狗”的產品。愛飛狗可將近期各平臺的歷史價格展示給用戶,讓不對稱的價格信息變得更加透明化。通過對這些數據進行分析,我們可以掌握國內航空公司機票票價變化規律。基于人的經驗,在機器學習的幫助下,我的這套方法可以對國內的航班價格提供較為準確的預測,為用戶的出行節約成本。 掌握獲取信息的能力使我們能夠站在更高的角度識別出一些規律。例如,在求職的過程中,大量的公司信息很難進行分辨,即便是某些APP提供了很多的篩選功能,但仍無法滿足我們分析的需求。再如,大量的房產信息淹沒在海量數據中,跟蹤這些數據的變化或許能夠發現一些規律或結論。在這樣一個數據豐富的時代,每個人都應該學習一些從數據采集到數據分析的綜合技能。 本書從基礎知識出發,通過豐富的案例,詳細介紹數據抓取和分析的整個過程,幫助讀者構建相關能力。 本書不同于大多數介紹爬蟲的技術書,不僅講述如何進行數據爬取,而且通過豐富的案例講解爬取數據的思路,介紹數據分析、可視化的方法,以及如何根據數據分析結果,開發一個應用,以求為讀者提供一個從采集數據到應用數據的完整視角。本書以介紹技術思路為主,不會詳細介紹一些特別基礎的知識點,例如,Python的基礎知識、軟件包的安裝操作等,所以需要讀者自行查閱一些相關資料。另外,由于移動應用、網站等更新速度非常快,當閱讀到本書時,可能書中介紹的一些方法已經發生了變化,讀者可以自行研究,把知識靈活地運用到實踐中。 ‘特別聲明 本書僅限于討論爬蟲技術,書中展示的案例只是為了讀者更好地理解爬取的思路和操作,達到防范信息泄漏、保護信息安全的目的,請勿用于非法用途!嚴禁利用本書所提到的技術進行非法爬取,否則后果自負,本人和出版商不承擔任何責任。 |