|
-- 會員 / 註冊 --
|
|
|
|
Python網絡數據采集 ( 簡體 字) |
作者:【美】米切爾 ( Ryan Mitchell ) | 類別:1. -> 程式設計 -> Python |
譯者: |
出版社:人民郵電出版社 | 3dWoo書號: 43723 詢問書籍請說出此書號!【缺書】 NT售價: 295 元 |
出版日:3/1/2016 |
頁數:200 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787115416292 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言: |
內容簡介: 本書采用簡潔強大的Python語言,介紹了網絡數據采集,并為采集新式網絡中的各種數據類型提供了全面的指導。第1部分重點介紹網絡數據采集的基本原理:如何用Python從網絡服務器請求信息,如何對服務器的響應進行基本處理,以及如何以自動化手段與網站進行交互。第二部分介紹如何用網絡爬蟲測試網站,自動化處理,以及如何通過更多的方式接入網絡。 |
目錄:譯者序 ix 前言 xi 第一部分 創建爬蟲 第1章 初見網絡爬蟲 2 1.1 網絡連接 2 1.2 BeautifulSoup簡介 4 1.2.1 安裝BeautifulSoup 5 1.2.2 運行BeautifulSoup 7 1.2.3 可靠的網絡連接 8 第2章 復雜HTML解析 11 2.1 不是一直都要用錘子 11 2.2 再端一碗BeautifulSoup 12 2.2.1 BeautifulSoup的find()和findAll() 13 2.2.2 其他BeautifulSoup對象 15 2.2.3 導航樹 16 2.3 正則表達式 19 2.4 正則表達式和BeautifulSoup 23 2.5 獲取屬性 24 2.6 Lambda表達式 24 2.7 超越BeautifulSoup 25 第3 章 開始采集 26 3.1 遍歷單個域名 26 3.2 采集整個網站 30 3.3 通過互聯網采集 34 3.4 用Scrapy 采集 38 第4 章 使用API 42 4.1 API 概述 43 4.2 API 通用規則 43 4.2.1 方法 44 4.2.2 驗證 44 4.3 服務器響應 45 4.4 Echo Nest 46 4.5 Twitter API 48 4.5.1 開始 48 4.5.2 幾個示例 50 4.6 Google API 52 4.6.1 開始 52 4.6.2 幾個示例 53 4.7 解析JSON 數據 55 4.8 回到主題 56 4.9 再說一點API 60 第5 章 存儲數據 61 5.1 媒體文件 61 5.2 把數據存儲到CSV 64 5.3 MySQL 65 5.3.1 安裝MySQL 66 5.3.2 基本命令 68 5.3.3 與Python 整合 71 5.3.4 數據庫技術與最佳實踐 74 5.3.5 MySQL 里的“六度空間游戲” 75 5.4 Email 77 第6 章 讀取文檔 80 6.1 文檔編碼 80 6.2 純文本 81 6.3 CSV 85 6.4 PDF 87 6.5 微軟Word 和.docx 88 第二部分 高級數據采集 第7 章 數據清洗 94 7.1 編寫代碼清洗數據 94 7.2 數據存儲后再清洗 98 第8 章 自然語言處理 103 8.1 概括數據 104 8.2 馬爾可夫模型 106 8.3 自然語言工具包 112 8.3.1 安裝與設置 112 8.3.2 用NLTK 做統計分析 113 8.3.3 用NLTK 做詞性分析 115 8.4 其他資源 119 第9 章 穿越網頁表單與登錄窗口進行采集 120 9.1 Python Requests 庫 120 9.2 提交一個基本表單 121 9.3 單選按鈕、復選框和其他輸入 123 9.4 提交文件和圖像 124 9.5 處理登錄和cookie 125 9.6 其他表單問題 127 第10 章 采集JavaScript 128 10.1 JavaScript 簡介 128 10.2 Ajax 和動態HTML 131 10.3 處理重定向 137 第11 章 圖像識別與文字處理 139 11.1 OCR 庫概述 140 11.1.1 Pillow 140 11.1.2 Tesseract 140 11.1.3 NumPy 141 11.2 處理格式規范的文字 142 11.3 讀取驗證碼與訓練Tesseract 146 11.4 獲取驗證碼提交答案 151 第12 章 避開采集陷阱 154 12.1 道德規范 154 12.2 讓網絡機器人看起來像人類用戶 155 12.2.1 修改請求頭 155 12.2.2 處理cookie 157 12.2.3 時間就是一切 159 12.3 常見表單安全措施 159 12.3.1 隱含輸入字段值 159 12.3.2 避免蜜罐 160 12.4 問題檢查表 162 第13 章 用爬蟲測試網站 164 13.1 測試簡介 164 13.2 Python 單元測試 165 13.3 Selenium 單元測試 168 13.4 Python 單元測試與Selenium 單元測試的選擇 172 第14 章 遠程采集 174 14.1 為什么要用遠程服務器 174 14.1.1 避免IP 地址被封殺 174 14.1.2 移植性與擴展性 175 14.2 Tor 代理服務器 176 14.3 遠程主機 177 14.3.1 從網站主機運行 178 14.3.2 從云主機運行 178 14.4 其他資源 179 14.5 勇往直前 180 附錄A Python 簡介 181 附錄B 互聯網簡介 184 附錄C 網絡數據采集的法律與道德約束 188 作者簡介 200 封面介紹 200 |
序: |
|