-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

大數據分析的道與術

( 簡體 字)
作者:畢然類別:1. -> 程式設計 -> 大數據
譯者:
出版社:電子工業出版社大數據分析的道與術 3dWoo書號: 43762
詢問書籍請說出此書號!

缺書
NT售價: 225

出版日:4/1/2016
頁數:360
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121283512
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:


李 湛
自從2011年麥肯錫提出大數據是未來之星,這幾年里,大數據儼然越來越火。不同于其他轉瞬即逝的概念,大數據能持續火爆,的確有緣由在。信息產業的發展,使數字化記錄變得容易;互聯網的爆發,使越來越多社會和個人的行為轉移到線上,線上化又天然是數字化的過程。如今若不考慮隱私問題,通過線上數據準確勾勒一個人已非常容易。另一方面,硬件計算能力的提升,以及以Hadoop為代表的分布式軟件計算能力的提升,使超大規模數據存儲和計算不再成為瓶頸。自然語言、聲音、圖像和視頻技術近年發展迅猛,充分反映了軟硬件能力的提升。同時,大數據也在確確實實地革新行業,比如營銷領域。短短十幾年,以Google為首的互聯網媒體,充分挖掘了數據的價值,實踐和發揚了計算廣告這一新興領域,顛覆了營銷行業格局,以營收計,Google已經成為世界上最大的廣告公司。大數據的價值,已經被事實證明。
從營銷行業的經驗看,數據想要產生價值,有兩個關鍵點:
第一,特征能被數字化;
第二,目標能量化。
大數據的目的是通過數據解決業務問題,這就首先需要業務能被數字化地描述和記錄。而且,數據的價值跟其充分程度是乘數級關系,數據越“大”越有價值。同時,業務上要解決的問題需要是清晰的,目標量化就是清晰化。有了量化的目標,形成優化的閉環,數據的價值就能不斷加強。數字營銷領域,數據化程度高,覆蓋人群充分,具備了第一個要素。數字營銷的目標又很清楚:媒體獲得最大的媒體價值、廣告主獲得最具性價比的投資回報,這些可以用CPM、ROI等做較為準確的量化描述。這樣,又具備了第二個要素。金融領域、電商領域也是類似。只要能充分數據化,目標能量化,能不斷持續優化,數據就能發揮巨大的價值。
在營銷領域,大數據提升的是精準性,本質是效率改進。在內部運營領域,大數據也能提升精準性,本質也是效率改進。這也解釋了大數據在中國為什么會上升到國家戰略:大數據的本質是對效率的提升,是對精細化的追求。我國的很多行業過去享受了太多政策、人口之類的紅利,粗放經營也能發展得很快。可如今面臨經濟轉型,精細化才有競爭力。在中國,大數據是一個雙肩Gartener曲線,第二個熱度就是來自于政府在2015年的大力提倡。為什么提倡?就是因為大數據是促進經濟轉型的發動機。
數據的另一層價值,在于“連接”。不同的行業,就好像不同的語言,如果沒有翻譯,就很難做信息交換,自然很難碰撞出價值。而業務數據化的過程,就是翻譯的過程,不同的行業、業務問題,都被統一的語言——“數據”來描述了,跨行業的交流就變得容易,創造價值的機會也出現了。此時,數據的互通互聯還要解決抽象層次、結構化、交換標準等問題,但解決這些問題就像解決方言問題一樣,難度已經降維成工作量了。如今的大數據創業,基于數據交換和交易、公私數據結合進行價值挖掘的方向發展得很快,就是因為其能創造“連接”的價值。這也解釋了,為什么大數據與互聯網+的結合是天然有機的。跨行業跨領域的創新,數據化程度本已很高的互聯網和數據潛力巨大的實體行業的碰撞和創新,自然需要大數據作為基礎支撐。
大數據的熱度之一體現在資本的角度。不管A股市場還是創投領域,大數據類的企業都受到追捧,經常能獲得高溢價。熱度之二體現在注意力的角度。如今“大數據”這個詞幾乎已是家喻戶曉,雖然事實上很多人還不太明白大數據本質是什么。這些熱度有副作用,但也有好處:資本會加速市場的成熟,注意力會使得市場教育的難度降低。市場的發展既有必然性又有偶然性,這兩個熱度都會增加必然性的概率,終究是好事。
當市場環境大好,自身的判斷力就變得重要。如何去提升對大數據的判斷力?本書就是最好的途徑。細細讀下來,感覺本書有以下幾個特點。
第一,重根本。本書不堆砌概念,不講求大而全,甚至不講求論述的嚴謹性和行文上的優美,但善于從原理講起,重在剖析根本。“知其所以然”是最好的理解和記憶。
第二,娓娓道來。本書的話題其實嚴肅甚至深奧,但作者把自己學習、思考的過程分享出來,從容而自然,讓讀者有很強的代入感。學習可以是教科書式的枯燥,也可以是娓娓道來的輕松,考驗的就是作者的功力。
第三,重實戰。作者在廣告大數據領域浸潤多年,書中到處可見實戰而來的經驗或者示例,鮮活而深刻。
在輕輕松松中學習,理解其本質,輔以實戰的案例,閱讀本書的過程,愉快而又受益。
我之前與作者共事時,同事們都稱作者為“畢老師”。看似玩笑,卻十分貼切。作者樂于分享,更重要的是擅長分享,本來復雜的概念,在他一剖一析之間,聽者茅塞頓開。這種感覺,在我多年求學的生涯里,只寥寥數次。
非常欣喜地看到作者新書的問世,直接向身邊的人分享,范圍始終有限,沉淀為書,分享的能力圈就大了很多。寫書從來不是個輕松的生意,機會成本高,性價比差,也只有責任感和享受分享的樂趣才是作者最大的動機。為人師,樂分享,善莫大焉。
李湛(曾任百度研發總監,現任游族首席技術官)


自 序
我在互聯網行業工作7年,雖然很早就開始積累本書的內容,相關講座也大受歡迎,但并沒有成書的想法。由于一個偶然的契機,感覺需要通過成書來更好地使自己的積累體系化,同時為數據技術的傳播貢獻一點自己的力量,所以有了此書的面試。
數據分析是一種非常通用的技能,所有存在數據分析需求的產品、研發、銷售、運營及管理人員等都是本書的受眾。尤其適合有一定的基礎或實踐,想系統化地提升能力和擴大視野的同學。另外,本書的后半部分適合期望了解大數據理念和技術精髓的高層管理者。
全書按照“先道后術,以道馭術”的結構組織。第一篇:數據分析之道分為“業務調研”、“創新思考”、“邏輯推理”、“可行建議”四個關鍵要素來講述,從“業務”出發到“業務”落地,完整地介紹有效數據分析的核心原則,對應本書的第一章。第二篇:數據分析之術按照“統計指標是怎樣被發明的”,“能否相信統計推斷”、“如何運用統計分析”和“統計建模等高級工具”四個要素來組織,內容由淺入深,遵循人類了解事物的邏輯:“怎么來的→能使用嗎→怎么使用→深入方法”,分別對應第二、三、四、五章。第三篇:數據分析之釋,談談一些數據技術從業者的常見問題,包括大數據的價值、企業如何向數據技術轉型、個人在數據行業中的職業選擇、以及數據技術團隊的管理經驗,對應書籍的第六、七章。
我創作本書有三個鮮明的風格。
風格1:寫一本既講“是什么”也講“為什么”的書,談“知識”也談“思考”的書。
在《蘇菲的世界》一書中關于“哲學家和好奇心”有一段話:“盡管我們都想過哲學性的問題,卻并不一定每個人都會成為哲學家。由于種種理由,大多數人都忙于日常生活的瑣事,因此他們對于這世界的好奇心都受到壓抑。”孩子和哲學家均持有對世界的好奇心,只是大部分孩子在成長的過程中失去了它,而哲學家則一直沒有放棄。
在現實生活中,普通人太習慣于生活周圍發生的事情了,導致我們只是被動地接受知識和事實,卻甚少思考“為什么”。如我學習游泳和滑雪的親身經歷,教練在蛙泳教學時,指示手腳要在時間上間隔開運動,但從未解釋為什么要這樣做。實際上,在手劃水的時候腿處于伸直、夾緊的狀態(腿的阻力最小),而蹬腿劃水的時候,手處于向前伸直的狀態(手的阻力最小),使得兩者推進的力氣不互相干擾,身體一直處于直線型,運動效率最高。很多初學者都愛犯這個錯誤,手腳滑動頻率很高、很費力,但速度快不起來,因為手腳互為阻力,身體總處于張開的狀態。教練在滑雪教學的時候,講述拐彎的做法是將身體重心轉移到單腳上,另外一只腳虛懸,即單腳滑雪,但他同樣沒有解釋為什么。實際原因是重力較大的那只滑板速度會變快,而一只滑雪板速度快,另一只滑雪板速度慢,整個身體自然會發生旋轉。如果兩位教練能把這些原理的前因后果講清楚,相信大家學習游泳和滑雪的時候會更有體會,也學得更快。
很多事情的結果很重要,但思考過程更重要。以我個人感覺,數學史比數學更啟迪人的思維。真心期望在高中和大學的數學課本中,減少一些知識的教學,而增加數學史的內容。因為數學知識只是思考的成果,而數學史才是思考的過程。例如翻開高中代數或幾何的課本,翻開大學微積分或線性代數的課本,會發現教科書以非常清晰的結構,完整地組織了這些知識成果。但科學家是怎樣研究發明這些知識的?研究過程是從第一章到最后一章順序進行的嗎?他們碰到了什么實際問題,怎樣進行思考的?為何這些學科的知識呈現出現在的樣子?這些內容才是真正重要的,因為它使我們學習到科學家的思考方式,而不是思考結果。近兩年一些領域出現的科學史作品,如《上帝擲篩子嗎:量子物理史話》,正是這樣的寫作方式,給我帶來很大啟發。
所以,本書是一本注重講解數據分析思想的書。相信讀者先學習數據統計的思想,再去學習數據統計知識,會有庖丁解牛之感,如果這本書能夠達到這樣的效果,也是我最大的期望。
風格2:寫一本“快樂”的書,而不是“刻苦”的書。
先與大家分享兩個故事和自己的心得。
故事1:有個老人習慣每天在公園的角落靜靜地享受靜謐時光。突然某天來了一群孩子,非常快樂、非常吵鬧地在公園角落這玩泥巴。由于小孩子天天大聲吵鬧,老人感覺自己的生活被嚴重打擾了,于是想了一個辦法。第一天和孩子們說,“你們歡樂地玩耍讓我看著非常舒心,以后你們每天都來玩吧,我給你們10美元一天”。孩子們樂壞了,很高興地答應了。到了第二周,老人又說“我最近手頭有點拮據,只能每天給5美元了”。孩子們想了想也可以接受,依然每天來玩耍。到了第三周老人把金額降到了2美元,直到第四周老人和孩子們說“我的經濟條件其實不太好,以后能不能就不給大家錢了,讓我免費看大家玩耍呢?”。孩子們紛紛大怒“我們這么用心、這么累地玩耍,容易嗎?!”,之后再也不來公園這邊玩了。老人最終獲得了自己想要的清凈。
故事2:小時候寫作文,老師擬定的題目是《愛迪生:成功是99%的汗水+1%的靈感》,記得所有同學的文章都從各種角度寫“愛迪生平時工作多么多么的刻苦,毅力是多么多么的強大,值得我們學習!”,總結一句話:人要想成功,必須十分刻苦才可以!長大以后,發現實際上并不完全是這么回事。愛迪生每天工作12個小時以上,晚上還要花3∼4個小時讀書,這難道真的是意志和刻苦所致的嗎?他自己坦承:“在探索世界的途中,我感受到了極大的愉悅和樂趣”。換句話說,我們不應該說他是在“刻苦”工作,而是在“快樂”工作。他每天做實驗、讀書和研究的過程是一種樂趣和享受。
這兩個故事給我觸動很大,工作和生活是有一些原始的興趣和快樂的,但這個社會不斷地將薪酬、地位、名聲等一些價值觀強加到我們頭上,逐漸讓我們認為工作就是為了薪酬、地位、名聲,就如故事1中的老人改變孩子們的想法一樣。在這個過程中,人很容易迷失自己,使得努力做事的原因由樂趣變成“有用”這樣功利性的衡量準則。與大家分享這兩個故事的目的,并不是說追求“有用”就不對,而是在追求的過程中不應該忘記做事本身的樂趣。很多人在這個過程中,變成了為了被灌輸的“人生目標”不斷“刻苦”忍耐過程的人。而我希望自己成為,為了自己確定的“人生目標”不斷享受過程的人,也期望向往后一種生活的人越來越多。
回到本書內容的寫作上,這本書的目的是讓大家理解做好數據分析的關鍵和技術方法,但期望大家能以“快樂”的學習方式達成這個目標。所以這是一本輕松的書,刻意避開數學公式與大家談談數據分析背后的思想,并穿插我個人對很多事物的思考,輔以有趣的漫畫故事。大家可能會發現本書的用例不那么正統,除了與數據分析主題直接相關的統計技術,間接相關的經濟學、心理學、營銷學和企業經營之外,還會有相當多的歷史、文學和哲學方面的例子。這一方面是由于數據分析本身是一個輻射很廣的學科,另一方面是因為:同一個思想,只有從決然不同的多個角度去認知,才能達到透徹的理解。所以我有意進行了發散的思考。當然,這也注定了這本書在某些環節欠完備。整個數學體系構建的過程也是數學思想的表達不斷嚴謹、完備的過程,同樣這個過程使數學離普通人越來越遠。而我期望能夠反其道而行之,與大家“快樂”享受探索數據分析技術知識的過程。
風格3:寫一本實用的書而不是泛泛概念的書。
創作這本書的過程中,我與很多業界好友討論這個話題,不少人都提到“數據技術的書,學術界有很多人寫,在統計理論和算法模型方面確實講解得非常清晰、詳細,但如何應用到具體業務中往往沒有提及,使用的案例也非常陳舊”。也就是說,大家缺少的不是統計知識,而是如何應用技術的實務方法。工業界一些講新的數據技術的書籍又容易走另一個極端:大談概念和發展,但沒有講技術實現的細節。
我很喜歡一些以“自傳體”來講道理的書,比如馮侖的《野蠻生長》、老雕的《MBA教不了的創富課》。可能這類書籍的內容的確不夠系統和全面,但是有著極強的生命力,兼具獨創性和實用性。我期望以我這些年的工作經歷和積累為藍本,寫一本有獨特心得的實用書籍。
這本書承載的最后一個作用是對我個人成長的幫助。在互聯網從業7年,讀過很多書、經歷過很多項目,發現如果不早日形成自己的知識體系,所學知識和項目經驗就如向桌子上倒水,倒再多的水也積存不住。一旦形成了自己的知識體系,通過沉淀成書來強化,就如有了一個盛水的杯子,所學知識和項目經歷會源源不斷地注入其中。將更本質的知識從歷史的應用場景遷移到未來的應用場景,需要對知識有更深層次的抽象,所以本書體系化方法論的總結對我自身也有很大幫助。
近些年,我的研究方向會集中在:數據技術(數據分析、機器學習)、經濟學與商業、互聯網產品這幾個領域,所以向大家預告,未來幾年,我還會寫一本機器學習的書(用漫畫故事的方式講解機器學習原理和應用心得)與一本從經濟學、心理學和統計學角度思考互聯網產品設計的書,請大家期待!
可以通過“在行”搜索我的姓名來約見我,當面探討與數據技術相關的業務布局和思考;亦可以發郵件,互相分享與產品技術相關的內容。



感 謝
首先,感謝百度,生活在互聯網大發展的壯闊時代,處于百度這樣的頂尖企業,是我最幸運的經歷。出色的平臺、厲害的同事,前沿的項目,使我每天都在成長,這是本書得以沉淀的首要原因。
感謝我經歷過的領導:陳清陽、田楓、劉子正、張文斌、李湛、鄭子斌、付徐軍、毛楓華、吳甜、孫雯玉(相識的時間順序),和你們相處使我受益匪淺。感謝田楓,帶我進入了數據分析的領域。感謝李湛,以一貫“廣闊而深刻”的思考視角為本書做序。
感謝技術上同行的朋友們:田浩、趙世奇、夏粉、孫琳、張釙、候俊琦,為本書做了很多貢獻。感謝田浩幫我梳理機器學習的框架,使得本書的第五章能夠更清晰地呈現。感謝孫琳和候俊琦,不僅提出了很多詳實的建議,還在寫書的過程中不斷給予認可和鼓勵,讓我能夠堅持完成。
感謝產品上合作過的朋友們:戎文晉、余昌遠、汪牧遠、俞海,數據分析是改進產品的重要工具,感謝你們的意見,使得本書在很多方面更加“接地氣”。感謝俞海專門為本書書名題字,“道”和“術”兩字盡顯神韻。
感謝百度技術學院(BIT)的朋友們(部分是曾經):孫群芳、李黎、趙云寬、張軒,以及幫我做漫畫圖標的魏婷。在BIT授課分享是一個愉悅的、教學相長的過程。
感謝戴文淵、吳茗,以及4paradigam的伙伴們,和你們的思維碰撞,產生了書中相當重要且有趣的一些內容。
感謝成長路上對我有諸多幫助的伙伴們,林戰剛、黃晶、王瑜、王熙、陳炯、閆覓、祝文祥,生命的經歷由你們構成。
感謝王海峰、余凱、何海文老師,對本書高層面的指導,使得本書的內容更加專業。
感謝北京郵電大學的吳斌、王柏、張雷老師,加入實驗室使我走上了數據技術這條道路,從事自己喜歡并擅長的事情,在今天回顧是多么的幸運。感謝人民大學的吳喜之教授,在百忙之中抽時間幫忙審閱文章中的統計內容,使得很多說法更加準確。
感謝袁曉潔為本書做了配畫,對數據技術的深刻理解+形象的畫筆,使得整個故事增色不少。感謝電子工業出版社的張瑞喜編輯,面對首次出書無經驗的我,不厭其煩地進行修改,保證了內容的高質量。
最后,感謝我的家人,妻子和岳母對我生活的照料,能夠讓我專心致志。感謝我的父母,尤其是學地質的父親花了很多精力校驗了文稿。
愿與更多的朋友一道,專注“大數據技術”,探索世界并有所創造。

畢然
2016年 農歷春節
內容簡介:

我們能相信統計么? 拋了5次硬幣,結果都是正面,拋硬幣是否肯定是正面?如何從高層的統計指標看透數據后面的本質?如何在大數據時代獲取戰略制高點,確定自己的職業發展定位?從一個互聯網公司數據分析師的成長經歷,為您娓娓道來,數據分析中的奇聞趣事、心得總結、方法技巧與哲學感悟。

目錄:

第一篇 道 1
第1章 大數據分析之道 2
1.1 做好數據分析的關鍵 3
1.2 業務調研 10
1.3 創新思考 14
1.4 邏輯推理 25
1.5 可行建議 48
1.6 補充閱讀:數據分析報告的撰寫要點 51
第二篇 術 63
第2章 統計是怎么發明的? 64
2.1 重啟思維模式 65
2.2 統計的意義及指標 71
2.3 統計圖形是如何設計的? 102
第3章 我們能相信統計嗎? 115
3.1 統計可信嗎? 116
3.2 基于概率的信任 120
3.3 如何實現基于概率的信任? 126
3.4 應用理念:細致與置信的權衡之道 140
3.5 評估:正確的認識世界 144
3.6 設計統計方案中的方法論 156
第4章 統計分析方法 159
4.1 拆指標-1 分布分析 161
4.2 拆指標-2 趨勢分析 165
4.3 拆指標-3 因素分析 177
4.4 拆數據-1 個案分析 186
4.5 拆數據-2 異常分析 188
4.6 拆數據-3 分組分析 193
4.7 附加閱讀:消費者偏好和企業差異化戰略 197
4.8 不同分析方法的結合與創新 209
4.9 與領域相關的分析方法 213
第5章 數據分析的高級工具:OLAP與機器學習 220
5.1 OLAP技術 221
5.2 無監督學習模型 225
5.3 監督學習模型 234
第三篇 釋 287
第6章 大數據時代 288
6.1 大數據的價值 289
6.2 企業如何向數據技術轉型? 301
6.3 數據技術的職業發展 315
第7章 數據技術團隊組建和發展 331
7.1 自我修煉與領導團隊 332
7.2 數據技術團隊的組織結構 334
7.3 數據技術團隊發展中的優劣勢 336
序: