-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

預測分析中的建模技術:商務問題與R語言解決方案

( 簡體 字)
作者:陳宇紅類別:1. -> 程式設計 -> R語言
譯者:
出版社:電子工業出版社預測分析中的建模技術:商務問題與R語言解決方案 3dWoo書號: 44646
詢問書籍請說出此書號!

缺書
NT售價: 345

出版日:7/1/2016
頁數:300
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121292071
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

譯者序



大數據與商務智能
大數據(Big Data)是 2012 年開始炒作起來的一個新“詞匯”。記得當時我有個在硅谷從事 IT 投資工作的朋友到紐約參加投資商會,她說,上一年度的會議,所有的話題都是社交網絡(彼時 Facebook 如日中天),現在呢,人人說的都是大數據。
任何行業大致都差不多,隔上一段時間,總會有個新東西出來炒作一下,無論是911 后的容災系統、dot com,還是社交網絡、大數據,到今天的“云”。這也是社會進步的一種方式吧。
在大數據這個概念出來之后,我曾經不止一次被問到大數據的問題。比方之前有一次被問到大數據的問題時,一開始我完全不知道對方問的是什么,幾個回合下來,才了解到對方的問題完全是商務智能 Business Intelligence方面的; 還有一次和一些從業IT 技術十幾二十年的同行聊天,有人說,大數據把人忽悠得云里霧里,弄不清楚到底是什么東西。于是,許多人就很簡單地把所有數據相關的東西,統統都說成是大數據,因此,商務智能也是大數據。
我們知道,傳統的數據,多是指結構化的數據,如早期的dBase、FoxPro,到現在普遍使用的關系型數據庫 SQL Server、Oracle或者DB2,存儲的都是結構化的數據。這些數據都可以用兩維的行和列的表格形式表現出來。隨著互聯網技術的飛速發展,出現了很多非結構化的數據,比如音像數碼文件、博客文章、網站搜索索引、社交網絡的留言,對這些數據的收集和使用,是我所認知的“大數據”技術。人們對“大數據”有各種各樣的定義,其中有一個定義是“大數據是不能用傳統的數據庫工具管理的所有數據—— big data is any data that can’t be managed using conventional database tools”。我頗以為然。在當前的自然數據中,結構化的數據還不足兩成,絕大部分的數據,都是非結構化的數據。
商務智能(Business Intelligence,BI)和商務分析(Business Analytics)卻不是一個新興的概念。根據相關資料的記述,商務智能這個詞匯早在 1988 年就出現了,到了20世紀90年代,關系型數據開始被廣泛使用后,SQL查詢語言報表成為了常規,這便是最早的商務智能實例。商務智能在過去的這些年里發展迅速,如我們后來熟知的數據倉庫(data warehouse)、數據集市(data mart)、建造數據倉庫的抽取-轉換-加載(ETL)技術、在線分析處理(OLTP)、數據可視化(data visualization)、信息中心化(dashboard)等,都可看作是商務智能的組成部分。
收集到了數據后,需要進行商務分析,回答商務問題,進行數據驅動的商務決策。按照商務問題的種類,數據分析劃分為三種類型:第一種是描述分析(descriptive analytics),從歷史數據中,總結過去的商務行為都發生了什么事情,是什么時候、什么原因,怎樣發生的;第二種是預測分析(predictive analytics),是通過數據分析預測將來的商務行為中可能會發生什么樣的事情;最后一種是規范分析(prescriptive analytics),是基于描述分析和預測分析的結果來推薦的未來的商務行為。有些數據科學家還提出,在描述分析和預測分析中間,應該加入一種新的分析類型—診斷分析(diagnostic analytics),通過對歷史數據的分析創建模型,為預測分析打下基礎。
對原始數據進行上述各種分析的過程,就是我們熟知的數據挖掘(data mining)。習慣上,我們把數據挖掘的過程分為四大類:分類(classes),類聚(clusters),關聯(associations),序列模式 (sequential patterns)。在本書中,與這四種過程相關的技術,會使用經典統計(classical statistics)、貝葉斯方法(Bayesian Statistics)、回歸(regression)、分類(classification)、機器學習(machine leaning),等等。
那么大數據和商務智能之間是否有關聯呢?美國的一些數據科學家是這樣說的,商務智能是幫你找到你想要知道的問題的答案,大數據是幫你發現那些你不知道要問的問題。這個答案也是蠻可愛的。商務智能分析的數據是結構化數據,大數據技術則需要分析所有的結構化,連同非結構化的數據。商務智能和大數據對數據的存儲方式和對數據的分析手段的要求是不同的。但無論大數據也好,商務智能也好,數據存在的目的就是讓我們通過分析,得到盡可能好的分析且結果為相關的商務服務。從這點上看,大數據和商務智能都有一個共同的目標,這大概就是大數據和商務智能常常被合二為一的原因吧。現在,有諸多數據專家致力于開發商務智能應用于大數據的數據分析技術,希望這一技術能早日成熟。
有人問過我,如果沒有任何統計學基礎,數學的根底也很有限,可以學習商務分析嗎?誠如本書的作者米勒教授在前言中所說,在這本書里可以了解到,數據分析可以在哪些不同商務領域中解決什么樣的問題。認識到哪些問題可以從現有的數據中找到答案,是利用商務智能的起點。如果你從事數據分析工作,或者是程序員,則可以通過本書的案例,認知到如何一步一步地分析問題、解決問題、找出問題的答案所在。
本書的所有案例都是在R語言環境下實現的。R語言最初是為生物統計開發的一個開源軟件。記得多年之前,我在紐約大學上生物統計的課程時,第一次接觸到R語言。當時我們的教授是這樣描述R語言的:R環境不依賴計算機操作系統,你可以在UNIX、Linux、Windows 或者 Macintosh 甚至OS X 系統下使用;R語言很容易學習,即使沒有任何編程基礎的人,也可以掌握;在R環境下可以很輕松地進行數據分析,并繪制出可供圖書出版級別的數據可視化圖表。因為R語言的這些優勢,R的用戶不斷開發出各種增強功能的軟件包,現在R語言已經被廣泛用于經濟計量、財經分析和商務智能等各個領域。
本書的作者米勒先生是美國西北大學的教授,他酷愛運動和電影。書中的案例包含了非常多的美國文化。例如在每個章節的開頭,都以一段美國電影對白開始,如果了解這些電影,或者了解這段對白出現的場景,便會知道這段對白跟這個章節所講述的內容之間的契合。在“文本分析”和“情緒分析”的章節,原始的數據都是非結構化的文本數據,需要先格式化處理,并使用“語料庫”的技術進行分析,因為英文這種語言的特性,會讓我們的讀者很難理解將文本數據格式化所采用的方式。
非常感謝“煉數成金dataguru.cn”社區的創始人黃志洪先生,在我翻譯本書的過程中給予我諸多的建議和幫助。感謝“煉數成金”社區的何翠儀小姐、張曉儀小姐和吳仕燦先生的校閱。非常感謝我的家人,支持我在過去的這段日子僅因我個人的興趣而花費的大量時間。感謝我的父母從小對我嚴謹的治學態度的培養,他們一向是我進步的榜樣。也感謝我身邊一直鼓勵我的所有朋友。
作為這本書的譯者,我盡力對書中的一些美國文化的背景做了一些注釋。能使讀者們最大程度地從這本譯著中獲益,是我的初衷。

陳宇紅
2016年1月于紐約



前言



“托托,我覺得我們已經不在堪薩斯城了哦。”
——陶樂思?高爾(茱蒂?格蘭特飾演),美國電影《綠野仙蹤》(The Wizard of Oz 1939)

數據和算法統治了當下。歡迎您來到這個嶄新的商務世界,一個必須通過強大的分析能力和信息的交流,才能取得稍縱即逝的競爭優勢的、快節奏的、數據密集的開源環境。
現有的許多論述預測分析或數據科學的書籍,談論的是戰略和管理;還有一部分著眼于方法和模型;其余的著重于信息技術和代碼。本書少有的試圖將上述三者結合起來,深受建模人員、程序員和商務經理的喜愛。
我們已經意識到了通過分析的手段來獲得競爭優勢的重要性。我們為研究人員和分析師提供一個現成的資源和建模技術參考指南;我們為程序員展示如何編寫解決實際商務問題的基本代碼;我們將模型運行的結果轉化成管理人員可以理解的文字和圖片;我們解釋數據和模型的含義。
隨著數據采集和儲存數量的快速增長,隨著各種可用于分析的數據的增長,隨著每日數據的更新頻率及需要分析的數據的增長,相較往日,數據分析變得至為重要。要獲取競爭優勢,就意味著必須實施新的信息管理和分析系統。這也同樣意味著要改變經營的方式。
數據科學這個領域擁有巨大的文獻資料,來自于諸多的學科和應用程序。相關的開源代碼也在迅速增長。事實上,這是對我們撰寫一本全面的預測分析和數據科學指南書籍的挑戰。
我們著眼于真實的案例和真實的數據。我們提供一系列范例:在本書中的每一章,將針對一個特定的商務問題作出分析并附上應用程序。我們提供有意義的解決方案。通過對建模技術和編程工具的實際演示,把抽象化的概念轉化為具體的例子,讓完全可以成功運行的案例程序易于理解。
我們的目標是對預測分析和數據科學做一個概述,讓大多數的讀者能夠讀懂。本書沒有很多數學理論,統計人員和建模人員可以從參考文獻獲取詳細的推導方法。我們這里僅僅使用簡單的文字和可視化的數據來顯示商務問題的解決方案。
看過了這本書的主題之后,可能會有人想知道我到底是經典統計的擁護者還是貝葉斯陣營的。在美國明尼蘇達大學統計學院時,我創立一個對經典統計及貝葉斯理論都予以尊重的觀點。無論是采用經驗貝葉斯方法,還是從經典統計學習的方法入手,都會存在一個結合機器學習和經典統計學的領域,這個觀點我深以為然。當涉及建模和推理這樣的問題時,我是一個實用主義者。我希望大家能夠理解我所做的工作,以及我所表達的不確定性。
在世界各地成千上萬的專家的幫助下,讓我們能夠出版這本書。他們對開源環境貢獻了時間和想法。開源環境的增長及易于發展的特點,確保了已開發出的解決方案將會成為未來許多年的中心所在。阿拉丁神燈里面的精靈已經跳出油燈獲得自由,在帷幕的后面施展魔術——高深的科學不再神奇,秘密正在顯露。這本書正是這個進程中的一部分。
本書采用的大多數數據是從公共數據資源中取得的。美國職棒大聯盟的促銷和上座率數據來自埃里卡?科斯特洛(Erica Costello)先生。莎朗?張伯倫(Sharon Chamberlain)女士對計算機選擇研究數據方面的工作給予了有力的支持。阿維?曼德爾鮑姆(AviMandelbaum)和宜蘭?高迪(IlanGuedj)提供了“匿名銀行”呼叫中心的數據。每章開頭的電影對白,承蒙互聯網電影數據庫的許可使用。斯坦福大學的安德魯?L?摩斯(Andrew L. Mass)和他的同事承擔了獲取互聯網電影數據庫(IMDb)電影評論數據許可的工作。本書的某些范例的靈感來自于同下面公司的合作項目:佛羅里達 ToutBay of Tampa 公司、NCR Comten、聯合惠普(HP)公司、紐約網站分析公司、威斯康星州麥迪遜市的 Sunseed Research LLC,以及麥迪遜市聯合出租車公司Union Cab Cooperative of Madison。
我們都工作在開源的社區,彼此分享程序資源。我們所做的真實工作以我們編寫的程序代碼呈現。所有的人都可以看,如果你們愿意,還可以調試這些程序代碼。為了便于學生的學習,每段程序代碼均包含逐句注釋和建議,可供更深入的研究。本書所涉及的所有數據集和計算機程序代碼可以從本書的網站http://www.ftpress.com/miller/ 上下載。
在過去的很多年,有許多人對我的人生發展影響頗大,他們都是優秀的思想家和善良的人,是我的老師和導師,我永遠銘謝。難過的是,伍爾西斯學院(Ursinus College)哲學系的杰拉爾德?哈恩?欣克爾(Gerald Hahn Hinkle)、語言學系的 艾倫?雷克?萊斯(Allan Lake Rice)、明尼蘇達大學哲學系的赫伯特?費格爾(Herbert Feigl)已經離開了我們。我亦非常感謝明尼蘇達大學心理測量學系的戴維?J?魏斯(David J. Weiss),以及經濟學系的凱利?埃金(Kelly Eakin),她之前就職于俄勒岡大學。好老師是這樣的偉大,使我受益終生。
感謝邁克爾?L?洛希爾(Michael L. Rothschild)、尼爾?M?福特(Meal M. Ford)、彼得?R?迪克森(Peter R. Dickson)和珍妮特?克里(Janet Christopher),在我們共同為威斯康星-麥迪遜大學,以及A. C. 尼爾森市場研究中心工作期間提供的寶貴支持。
我居住在美國加利福尼亞州,位于道奇體育場北面四英里處。我在伊利諾伊州埃文斯頓市的西北大學任教,并且兼任佛羅里達州坦帕市 ToutBay 公司的產品開發總監,ToutBay 是一家數據科學公司。這所有的一切都受益于高速的互聯網絡。
我很幸運地參與了美國西北大學進修學院的研究生遠程教育項目。感謝格倫?佛格提(Glen Fogerty)給了我在西北大學預測分析專業任教并擔任領導者的機會。感謝我的同事和職員們,和我一起承擔這個卓越的研究生專業的工作。感謝我的學生和資深教師,他們令我受教頗多。
ToutBay是一家數據科學領域的新興公司。我期許這家公司在其聯合創始人Greg Blence先生的領導下,在今后的幾年中大展宏圖。非常感謝Greg邀請我加入他們,一起為公司的發展而努力,這也令我能夠在實際的商務需求中進行演練,讓學術研究和數據科學模型得以深遠的發展。我們最終所期待的作為,就是要實施我們的理念和模型,讓所有需要的人彼此分享。
感謝德科納米公司(Texnology Inc.)的艾米?亨德里克森(Amy Hendrickson),她的美工使文字、表格、圖表印刷得十分精美,這是另一種開源的成功。感謝高德納(Donald Knuth)及TEX / LATEX社區貢獻的這個美妙排版和出版系統。
感謝讀者和審稿人提供的諸多幫助,他們是蘇珊娜?卡倫德(Suzanne Callender)、菲利普?M?戈德費德(Philip M. Goldfeder)、梅爾文?奧特(Melvin Ott)和托馬斯?P?瑞恩(Thomas P. Ryan)。在編寫這一修訂版時,洛雷娜?馬丁(Lorena Martin)為本書的改進提供了諸多的反饋和建議。康迪斯?布拉德利(Candice Bradley)承擔了審稿和文字編輯的雙重工作。羅伊?L?桑福德(Roy L. Sanford)給予了有關統計模型和方案的專業建議。我非常感謝他們的反饋和鼓勵。感謝我的編輯,珍妮?格拉瑟?萊文(Jeanne Glasser Levine),出版商培生教育出版社,使這本書能夠出版。當然了,本書的任何文字問題、任何錯誤,或尚未完成的商務方案,由我個人負責。
我的好朋友布蘭妮和她的女兒杰尼婭在時間允許時一直陪伴我。我的兒子丹尼爾不計我脾氣的好壞,容忍并照料我的生活。他們的信任是我最大的負疚。

托馬斯?米勒(Thomas W. Miller)
于加利福尼亞州的格倫代爾
內容簡介:

本書著眼于真實的案例和真實的數據。每章通過對一個實際問題的描述和討論引出特定的預測分析模型,分析的結果通過可視化圖表進行展示,章節末尾提供了R語言編寫的應用程序。通過對建模技術和編程工具的實際演示,把抽象化的概念轉化為具體的例子,讓這些可以成功運行的案例程序更易于理解。 本書不但適合計算機、統計等相關專業選作教材,還適合進行公司決策分析、大數據分析等的相關人員參考閱讀。

目錄:

第1章 分析和數據科學 1
第2章 廣告和促銷 11
第3章 偏好與選擇 25
第4章 購物籃分析 33
第5章 經濟數據分析 44
第6章 運營管理 56
第7章 文本分析 71
第8章 情緒分析 93
第9章 體育分析 129
第10章 空間數據分析 148
第11章 品牌和定價 167
第12章 大數據的小游戲 200
附錄A 數據科學的方法 203
A.1 數據庫和數據準備 204
A.2 經典統計與貝葉斯統計 206
A.3 回歸與分類 208
A.4 機器學習 212
A.5 互聯網和社交網絡分析 213
A.6 推薦系統 215
A.7 產品定位 216
A.8 市場細分 218
A.9 選址 219
A.10 金融數據科學 220
附錄B 測量 222
附錄C 個案分析 232
C.1 回到我們的“搖頭娃娃”個案 232
C.2 DriveTime 公司的轎車銷售 233
C.3 鉆石價更高 237
C.4 威斯康星Dells 度假中心 240
C.5 個人電腦選擇研究 244
附錄D 代碼和實用程序 248
序: