-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

蟲術——Python絕技

( 簡體 字)
作者:梁睿坤類別:1. -> 程式設計 -> Python
   2. CC 87
譯者:
出版社:電子工業出版社蟲術——Python絕技 3dWoo書號: 49462
詢問書籍請說出此書號!

缺書
NT售價: 495

出版日:7/1/2018
頁數:428
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121344565
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

很久以前我就接觸了網絡爬蟲這門技術,從當時接觸的范疇來說,稱之為“小玩意”或者“小助手”可能更為貼切。我使用爬蟲只是為了收集一些樣本數據做測試,或者對上線的項目進行高強度的并發性壓力測試,又或者獲取感興趣的圖片、新聞。
爬蟲涉及的技術比較多,用各種語言都可以快速地寫出一個爬蟲,所以一直以來并沒有被看作一門綜合性的技術,直到2015年我負責的開發部門接到公司安排的三項重點開發任務:
(1)從微信和微博上搜集哪些言論正變得熱門,哪些公眾號或者微博賬號的關注度正在持續地上升。
(2)要與一家技術很落后的電商公司的業務系統在沒有提供數據接口的情況下進行大規模的數據同步。
(3)開發一個數據可視化平臺,并導入公司內部多年來的銷售數據(都是一些Excel和CSV文件),然后將當前每月在京東、淘寶等電商平臺上的統計數據合并起來進行統一的查詢與統計。
在接到這三個任務時,可以說是沒有任何頭緒的,這些任務簡單看都是一些數據整合的工作。在深入分析與研究之后發現,要完成這三大任務都必須依賴爬蟲技術。
這是一個坑坑洼洼,而且充滿挑戰的過程。例如,如何能從號稱封閉獨立的微信中挖出數據,又不被屏蔽;如何能將每天過億條的數據存儲下來而不會“塞爆”服務器;如何能將每天一大堆的CSV或者Excel文件下載到服務器,然后自動整理入庫而不會出現數據錯誤,等等。在完成這三個項目之后,我和我的團隊都對爬蟲有了非常深刻的理解與認識,很多方面的知識與經驗都得到了極大的提高。在綜合過往的開發經驗和這幾年的實際入坑經驗之后,我決定將其編撰成書,將這些看似零散的技術融合起來。
內容介紹
“蟲術”是一門綜合性的技術,涉及的知識面很廣,為了不讓你在一大堆的技術面前感到茫然,我將這門“術”分成了三個運用階段,一步步由淺入深地進行敘述。
本書共5章,前3章為初階部分,第4章為中階部分,第5章為高階部分。
第1章 爬蟲初步
本章首先介紹爬蟲在目前大數據生態下的地位,還提供了一份關于學習蟲術的詳盡的技術線路圖,最后講述爬蟲基本的實現方法與實際運用示例,目的在于讓讀者對蟲術建立一個基本的概念并能從示例中引起對這門技術的興趣。
第2章 Scrapy基礎
蟲術以Scrapy架構為核心基礎,本章對Scrapy的架構和各個模塊的作用進行了詳細的介紹。
第3章 Scrapy工程管理與部署
本章介紹如何在Scrapy工程中運用Scrapyd將本地工程部署到實際運行環境中,詳細地講述Scrapyd安裝配置及其附帶的scrapyd-client和scrapyd-deploy工具的使用方法。
第4章 中階蟲術
本章包含的內容非常豐富,是針對將蟲術運用于實際項目展開的。從Scrapy的蜘蛛內部實現開始,深入HTTP底層,實現對Scrapy中間件的支持,運用Selenium或Splash處理棘手的JavaScript網頁,最后詳細講述如何處理采集到的數據。
第5章 高階蟲術
本章是對中階蟲術的深化,聚焦于爬蟲系統的性能,講解如何讓爬蟲變得更加隱蔽,如何讓爬蟲看懂圖片,如何訓練它們使之變得更加聰明,最后講解如何掌握蟲術的大招“分布式爬蟲”來應對大規模的數據集采工作與數據存儲任務。
勘誤
本書如有勘誤,會發布。由于筆者能力有限,時間倉促,書中難免有錯漏,歡迎讀者批評指正。
梁睿坤
內容簡介:

本書以大數據應用方面常用的語言Python為基礎,從網絡爬蟲的實現原理入手,逐步引領讀者進入網絡爬蟲的世界。在各類爬蟲框架中,將Scrapy作為軸心,從多個維度揭開爬蟲技術的面紗。例如,爬取規則的制定技巧,設計高速爬蟲,如何讓爬蟲更“聰明”地獲取數據,將海量數據進行分布式存儲的技術,設計具有高隱匿性的爬蟲,大規模、高并發的分布式爬蟲技術。

目錄:

第1章 爬蟲初步
1.1 爬蟲與大數據
1.1.1 大數據架構
1.1.2 爬蟲的作用與地位
1.1.3 Python與爬蟲
1.1.4 Python的網絡爬蟲框架
1.1.5 蟲術技術路線圖
1.2 實例:簡單的爬蟲
1.3 內容分析進階
1.3.1 選擇器
1.3.2 深入BeautifulSoup
1.3.3 元素的搜尋
1.3.4 亂碼與中文編碼
1.4 新聞供稿的爬取實例
1.5 小結
第2章 Scrapy基礎知識
2.1 Scrapy架構
2.2 Scrapy快速入手
2.3 數據模型Item
2.4 蜘蛛—Spiders
2.5 管道—Item Pipeline
2.6 Scrapy的運行與配置
2.7 新聞供稿爬蟲的Scrapy實現
2.8 小結
第3章 Scrapy的工程管理
3.1 Scrapyd
3.2 scrapyd-client及部署
3.3 搭建爬蟲服務器
第4章 中階蟲術
4.1 蜘蛛的演化
4.1.1 蜘蛛的本質—深入Spider
4.1.2 通用蜘蛛
4.1.3 蜘蛛中間件
4.2 爬蟲系統的測試與調試
4.2.1 開發期調試
4.2.2 蜘蛛的測試
4.2.3 蜘蛛的運行期調試
4.2.4 調試內存溢出
4.3 處理HTTP請求
4.3.1 HTTP請求
4.3.2 Scrapy的Request對象
4.3.3 表單處理
4.3.4 下載器中間件
4.4 處理HTTP響應
4.4.1 HTTP響應
4.4.2 Scrapy的響應對象
4.4.3 深入選擇器
4.4.4 非結構化數據的提取
4.4.5 黑夜中的眼睛
4.5 處理JavaScript
4.5.1 示例:電商產品爬蟲
4.5.2 Selenium和PhantomJS
4.5.3 Scrapy與Splash
4.6 數據存儲與后處理
4.6.1 圖片的下載與存儲
4.6.2 示例:產品圖片采集
4.6.3 導出到數據文件
4.6.4 導出到數據庫
4.6.5 示例:基于阿里云的存儲后端
第5章 高階蟲術
5.1 增量式爬網
5.1.1 推演路由
5.1.2 時機的重要性
5.1.3 去重處理
5.1.4 布隆過濾器
5.1.5 基于Redis的布隆過濾器
5.2 突破封印
5.2.1 封禁淺析
5.2.2 客戶端仿真
5.2.3 化身萬千—蜘蛛世界的易容術
5.2.4 反跟蹤
5.2.5 繞開蜜罐
5.3 蟲海
5.3.1 分布式爬蟲架構
5.3.2 認識scrapy-redis
5.3.3 示例:分布式電商爬蟲
5.4 可視化爬蟲
5.4.1 示例:某點評網爬蟲
5.4.2 解讀Portia爬蟲代碼
5.4.3 數據項加載器—Item Loaders
5.4.4 最后的工作
序: