|
-- 會員 / 註冊 --
|
|
|
|
Python數據抓取技術與實戰 ( 簡體 字) |
作者:潘慶和,趙星馳 | 類別:1. -> 程式設計 -> Python |
譯者: |
出版社:電子工業出版社 | 3dWoo書號: 45138 詢問書籍請說出此書號!【缺書】 NT售價: 245 元 |
出版日:8/1/2016 |
頁數:256 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787121298844 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言:大數據技術是當前工程和科學技術領域研究的熱點。數據科學研究通常包括四個主要 環節,即數據獲取、數據存儲、數據分析及數據可視化。本書主要聚焦數據獲取環節。這 是其他環節的基礎。及時準確地獲得豐富詳實的數據,可為后續工作奠定堅實的基礎,并 提高分析結論的可信性和可靠性。 互聯網的開放性為數據的獲取帶來了極大的便利。本書基于Python的數據抓取技術, 主要介紹了如何快速準確地從網絡上獲得所需的數據,構建滿足要求的數據集或大數據集。 Python語言是一種通用編程語言,可以應用于各種編程領域,在數據科學領域也是一種十 分熱門的語言。本書使用Python作為數據抓取技術的實現語言,利用Python豐富的模塊支 持和語言特性,解決了絕大部分數據抓取中經常會遇到的問題。為了使不了解這門語言的 讀者快速上手,在第1章中介紹了閱讀本書所需的Python語言基礎知識。 本書介紹了數據抓取涉及的各類技術問題和解決方法,并按章節進行組織,每章內容 基本獨立,可使讀者在遇到問題時能夠快速地進行問題定位。書中的內容側重于將已有的 成熟理論原理和流行框架應用于數據抓取實際問題的解決中,在編寫過程中,只側重介紹 應用于數據抓取時的應用方式,并未對某些原理和框架進行詳細的描述,感興趣的讀者可 以進一步查找相關文獻和資料來加深對概念和理論的理解。實際上,閱讀時,讀者可通過 運行書中的實例代碼,看到現象后再回頭去分析,有助于更好地理解相關的概念和原理, 為進一步的研究打下基礎。 本書主要面向初學者,讀者可基于書中的運行實例進行改造,設計出符合自己要求的數 據抓取程序。本書可以迅速用于實戰,可供相關專業工程技術人員和高校本科生閱讀參考。 如果讀者閱讀中發現問題,請及時與我們聯系,希望大家多多批評指正。 編著者 |
內容簡介:如何在大數據時代獲得實時的數據信息,分析挖掘、提取出有價值的信息,并以直觀清晰的圖形表示出關鍵的數量關系和概念,是一個值得研究的問題。本書通過數據抓取篇(如何獲得數據信息)、數據分析篇(分析挖掘,提取出有價值的信息)、數據可視化篇(以直觀清晰的圖形表示出關鍵的數量關系和概念)詳細描述數據抓取、分析、展示的整個流程,每一篇自成一體,可以單獨學習掌握。 |
目錄:第1章 Python基礎1 ........... 1-1 Python安裝1 ........... 1-2 安裝pip 6 .......... 1-3 如何查看幫助7 .......... 1-4 第一個程序10 .......... 1-5 文件操作25 ........... 1-6 循環28 ........... 1-7 異常30 ........... 1-8 元組30 ........... 1-9 列表32 ........... 1-10 字典36 ........... 1-11 集合38 ........... 1-12 隨機數39 .......... 1-13 enumerate的使用40 .......... 1-14 第二個例子41 .......... 第2章 字符串解析46 ........... 2-1 常用函數46 ........... 2-2 正則表達式50 .......... 2-3 BeautifulSoup 55 .......... 2-4 json結構62 .......... 第3章 單機數據抓取77 .......... 3-1 單機順序抓取77 ......... 3-2 requests 107 .......... 3-3 并發和并行抓取117 .......... 第4章 分布式數據抓取137 ......... 4-1 RPC的使用138 .......... 4-2 Celery系統145 .......... 第5章 全能的Selenium 159 .......... Ⅴ 5-1 Selenium單機159 ......... 5-2 Selenium分布式抓取178 ........ 5-3 Linux無圖形界面使用Selenium 188 ....... 第6章 神秘的Tor 191 .......... 6-1 抓取時IP封鎖的問題191 ........ 6-2 Tor的安裝與使用192 ......... 6-3 Tor多線程197 .......... 6-4 Tor與Selenium結合205 ........ 第7章 抓取常見問題210 .......... 7-1 Flash 210 ........... 7-2 桌面程序211 ........... 7-3 U盤213 ........... 7-4 二級三級頁面214 ......... 7-5 圖片的處理214 .......... 7-6 App數據抓取214 ......... 第8章 監控框架221 .......... 8-1 框架說明223 ........... 8-2 監控系統實例225 ......... 第9章 擁抱大數據229 ........... 9-1 Hadoop生態圈229 ......... 9-2 Cloudera環境搭建231 |
序: |
|