3dwoo大學簡體電腦書店
統計之美:人工智能時代的科學思維
( 簡體 字)
作者:李艦,海恩類別:1. -> 程式設計 -> 人工智慧
出版社:電子工業出版社統計之美:人工智能時代的科學思維 3dWoo書號: 50760
詢問書籍請說出此書號!
有庫存
NT售價: 295
出版日:3/1/2019
頁數:228
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 字 )
ISBN:9787121354045 加入購物車加到我的最愛 (請先登入會員)
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社)
第1 章 統計與科學1
1.1 隨機的世界 2
1.1.1 打臺球的物理學家,確定、不確定與隨機2
1.1.2 上帝擲骰子嗎,決定論與隨機性4
1.1.3 連環殺手的歸案,隨機與均勻 6
1.1.4 扔硬幣的數學家們,大數定律9
1.2 認識概率 11
1.2.1 游戲獎金的分配,概率論的發展 11
1.2.2 6 連號和14 連號,概率的計算 13
1.2.3 主持人背后的山羊,條件概率 16
1.2.4 尋找失蹤的核潛艇,貝葉斯概率18
1.3 統計思想和模型 20
1.3.1 女士品茶,假設檢驗 20
1.3.2 “渣男”去死,最大似然 23
1.3.3 六西格瑪的奇跡,小概率 25
1.3.4 牛頓的蘋果,模型擬合27
1.4 統計與科學 29
1.4.1 智多星與神機軍師,統計預測29
1.4.2 深藍與阿爾法狗,歸納和演繹 31
1.4.3 中藥與西藥,臨床試驗33
1.4.4 所有模型都是錯的,科學和否定 36

第2 章 數據與數學38
2.1 數據與空間 39
2.1.1 多維世界的蟲子,坐標和向量 39
2.1.2 黑客帝國和變形金剛,矩陣簡介 42
2.1.3 九章算術與線性方程,線性方程組 45
2.1.4 二十八宿與黃道十二宮,線性變換 48
2.2 隨機變量和分布 51
2.2.1 伯努利的硬幣,隨機分布 51
2.2.2 相親多少次與神奇的37,離散型分布 54
2.2.3 棣莫弗的正態,連續型分布 56
2.2.4 醉鬼的步伐,隨機過程 58
2.3 認識數據 59
2.3.1 忒修斯之船,數據、測量與變量 59
2.3.2 從性別到體重,數據的尺度 61
2.3.3 周歲與虛歲,連續變量與離散變量 63
2.3.4 一份體檢記錄,數據分析的基本數據結構 65
2.4 數理統計基礎 66
2.4.1 管中窺豹與一葉知秋,總體和樣本 66
2.4.2 惡賭鬼的詭計,數字特征 68
2.4.3 被平均的工資,統計量 70
2.4.4 小李飛刀與孔雀翎,參數估計 72

第3 章 數據可視化76
3.1 歷史上的統計圖形 77
3.1.1 河圖與洛書,可視化簡介 77
3.1.2 倫敦霍亂的防治,空間可視化 78
3.1.3 南丁格爾的玫瑰,玫瑰花瓣圖 79
3.1.4 拿破侖遠征,自定義統計圖形 81
3.2 數據與可視化 83
3.2.1 女王的裙子,數據可視化83
3.2.2 畫布與宣紙,圖形設備 84
3.2.3 深水王子與針眼畫師,繪圖語言的變遷 86
3.2.4 “挑戰者”號航天飛機,直觀的可視化 88
3.3 基礎統計圖形 90
3.3.1 老忠實噴泉的秘密,分布圖 90
3.3.2 統計圖形的奠基人,條形圖和餅圖 91
3.3.3 古老國度的詩云,坐標變換 93
3.3.4 飛翔的動態氣泡圖,動態可視化 95
3.4 數據之間的關系 97
3.4.1 東上相的軌道,散點圖 97
3.4.2 五十州的最高峰,箱線圖 99
3.4.3 泰坦尼克號的幸存者,馬賽克圖 100
3.4.4 切爾諾夫的笑臉,樣本關系的可視化 102

第4 章 模型與方法104
4.1 常用統計模型 105
4.1.1 穿楊與射雕,回歸模型 105
4.1.2 降維攻擊,主成分分析 108
4.1.3 顧客就是上帝,路徑模型110
4.1.4 股票的走勢,時間序列114
4.2 機器學習 116
4.2.1 啤酒和尿布的傳說,關聯規則 116
4.2.2 尋找“白富美” ,聚類分析118
4.2.3 寧可錯殺與絕不放過,分類效果評估121
4.2.4 樹木與森林,常用分類算法124
4.3 人工智能 128
4.3.1 人工智能的三起兩落,AI 發展史128
4.3.2 深度學習的前生今世,深度學習簡史 130
4.3.3 神秘的神經,神經網絡簡介 132
4.3.4 美麗的濾鏡,卷積神經網絡與深度學習135
4.4 其他分析方法 139
4.4.1 茶、酒與百事可樂,隨機試驗方法 139
4.4.2 蒙特卡羅和原子彈,蒙特卡羅方法142
4.4.3 醫生的筆跡,文本分析 143
4.4.4 沙漠里的飛碟,最優化方法 146

第5 章 大數據時代 149
5.1 技術的變遷 150
5.1.1 統計學的濫觴統計學簡介150
5.1.2 信息時代的來臨計算機科學簡介151
5.1.3 數據挖掘和商業智能,商業智能簡介153
5.1.4 大數據時代新紀元,大數據簡介154
5.2 分析工具 156
5.2.1 誰說菜鳥不會數據分析Excel 簡介156
5.2.2 群雄逐鹿的分析軟件統計軟件和BI 系統158
5.2.3 全棧工程師的最愛,Python 簡介160
5.2.4 本書作者最愛的R ,R語言簡介162
5.3 計算框架 164
5.3.1 冰箱里的大象,可擴容的數據分析164
5.3.2 將兵與將將,并行計算 165
5.3.3 電老虎和電螞蟻,大型機和云計算 167
5.3.4 摩爾定律的未來GPU ,計算框架170
5.4 大數據行業應用 172
5.4.1 互聯網的興起,互聯網概覽 172
5.4.2 流量的起點,搜索引擎173
5.4.3 收入的來源,精準廣告 175
5.4.4 猜你喜歡和投其所好,推薦系統 177

第6 章 數據的陷阱180
6.1 一葉障目 181
6.1.1 神奇的天蝎座,規律的背后 181
6.1.2 贏家的詛咒,悖論與分布182
6.1.3 打飛機的油價,選擇性關注184
6.1.4 和女神的緣分,頻率與巧合 185
6.2 相關與因果 187
6.2.1 芳華與熱飲,遺漏的關鍵變量187
6.2.2 熱帖的秘密,不存在的相關 188
6.2.3 雪與火的城市,地理決定的因果 189
6.2.4 名字很重要嗎,背后的關鍵因素 190
6.3 樣本和調查192
6.3.1 測不準的美國大選,選擇性抽樣 192
6.3.2 不對稱的杜蕾斯,數據無反應偏差194
6.3.3 幸運兒的傳奇,幸存者偏差195
6.3.4 哈佛校長的辭職,樣本方差的影響197
6.4 圖形的誤導 198
6.4.1 收入的變化,被掩蓋的數據 198
6.4.2 收費站與汽車站,視覺的誤區200
6.4.3 東莞的逃亡,隱含信息的誤導201
6.4.4 有毒的擬合,圖形與模型203

參考文獻207
索引211
本書基于經典統計學的知識體系,結合數據科學的應用經驗,使用歷史經典故事、網絡熱點事件、行業真實案例等素材進行介紹,聚焦于科學思維的訓練,并對應到具體的理論和技術點,能夠幫助讀者輕松掌握各種分析方法的背景和思想,并能快速地將相關知識應用到實際的工作中去。本書深入淺出,所舉例子通俗有趣,有助于讀者理解人工智能時代的思維模式,應對這迅速變化的世界。


序言

統計學可真是一個尷尬的存在,常常處在各種鄙視鏈的低端。從數學的角度看,統計學中的數學原理太膚淺,撐死也就一個大數定律,一個中心極限定律,這也能算數學?從應用學科的角度看(例如,計算機、管理學),統計學太數學,一點也不應用。分析數據就好好分析數據,還要整什么大數定律,什么中心極限定律,這也能算應用?作為一名統計學的工作者,對這樣的觀點雖然并不茍同,但確實很慚愧。常常為此,反省自問:問題到底出在哪里?我輩應該如何作為?
我有一個樸素的信念,任何東西只要是美的,就一定會被大家接受甚至追捧。但是,這里有兩個非常具有挑戰性的問題。第一、統計學的美到底是什么?第二、她那獨特的美如何被大眾感知?這是兩個非常樸素的問題,作為一名統計學教員,我常常用這兩個問題來檢討自己。統計學作為一個歷史非常短的學科,在它的發展歷史中,有不少杰出的學者做出了卓著的貢獻。是他們的卓著努力為統計學建立了扎實的理論基礎,為統計學的應用開疆拓土。在這個過程中,產生了很多有用的統計學思想,閃爍著統計學智慧的光芒,解決了太多的實際問題。因此,統計學的美是毋庸置疑的,但為什么大家感受不到?對此,作為一名統計學教員,我沒有理由去埋怨大眾,而應該做自我批評,自我檢討。如果,我們有能力把統計學中最閃光的智慧,用最樸素而有趣的語言,結合生動而有趣的故事表述出來,那世界又會怎樣?如果能夠做到,統計學的美就可以被大家感受到。屆時,統計學是不是數學重要嗎?統計學是不是應用重要嗎?統計學就是統計學,她既有理論,又有應用。關鍵是,她很美,她真的很美,美得令人窒息,美得令人流連忘返,而我們都陶醉于她那獨特的美。請問,到哪里去找這樣一本書,專攻統計學之美?
要寫這樣一本書的難度可想而知。首先,你要對統計學的宏觀理論框架,從歷史到最新前沿,非常熟悉。說來慚愧,我做不到。其次,你要對推動統計學理論發展的重要故事、案例,甚至歷史性事件如數家珍。太慚愧,我也做不到。還有,你需要很強的語言文字能力。讓文字和數學公式自由穿插,流暢而優美地交織在一起。這對我來說也很難。這樣一本書一定是跨學科的。與數據科學相關的領域可不僅僅是統計學,還有計算機科學、經濟學、管理學等。不同學科的交叉融合,也極大地促進了統計學的發展。要對這么多學科有所研究,也不是一件簡單的事情。
正當我一籌莫展的時候,突然老天眷顧,統計之都大俠艦哥送給我他的新書《統計之美》。首先,我一下子就被目錄吸引了。從統計學科學入手,談到數據與數學,討論了數據可視化,當然也有模型與方法,還有大數據技術,以及數據的陷阱。每一章的立意都是如此獨特,跟任何現有專著或者教材完全不同。這些章節的框架設計恢宏壯美,討論的問題深刻而樸素,覆蓋的內容從過去到未來。這樣的框架設計,散發著強烈的艦哥獨有的大俠風范。從微觀處看,每個章節下面都是一個又一個短小、精煉、經典而深刻的小故事或者案例。這些小故事(或案例)有:上帝擲骰子、女士喝茶、尋找失蹤的核潛艇等。每個小故事都突出講述了一個統計學的智慧,一個知識點。通過這樣精煉而經典的小故事,讓人們感受到統計學之美,她美在哪里?她美就美在統計學的智慧上,這些智慧變成了統計學思想,統計學思想變成了統計學理論,統計學理論變成了統計學的模型算法。噢,這個路途太長了,難怪當人們看到模型算法的時候,實在是想不起她原來的美了。
不過,別著急,沒關系。艦哥的《統計之美》為你揭開這層面紗,讓你重新領略統計學的獨特之美!為艦哥鼓掌,為《統計之美》點贊,我輩加油!
王漢生
北京大學光華管理學院教授 2018年 12月

前言

英國學者李約瑟研究中國科技史時提出了一個問題:“盡管中國古代對人類科技發展做出了很多重要貢獻,但為什么科學和工業革命沒有在近代的中國發生?”這就是著名的李約瑟難題( Needham’s Grand Question)。具體地說,是問“為什么近代科學沒有產生在中國,而是在 17世紀的西方,特別是文藝復興之后的歐洲?”李約瑟通過對中國科學技術史的研究,在社會制度和地理環境中尋找答案。但這個問題一直被國人拿來反思自己的文化和傳統,很多人都分析出了各種原因,大多數人認為中國的傳統文化中缺少科學精神、甚至沒有能夠產生現代科學的基因,再結合現實生活中的各種亂象,無不痛心疾首,都想治病救人。
讓我們把時間拉回到百年前的中國,轟轟烈烈的新文化運動已經開始,“德先生”和“賽先生”進了中國。國人深切地認識到了科學的威力,無數仁人志士立志向學, 1923年的“科玄之爭”更是加速了科學在全民中的普及。當時“科學派”的觀點不僅僅是科學在實業中的價值,更是要全面介入人們的生活。當然,當時的“玄學”也不是指魏晉那套老莊玄學和今天人們認為的舊中國玄學,而是“在歐洲鬼混了二千多年的無賴鬼” ,也就是形而上學。這次科玄之爭可以說力度非常大,當時國人對科學的信仰程度超乎今天人們的想象。中華人民共和國成立后,對全民進行科學教育的成就更是有目共睹,中國的科技水平也是發展神速,但是如今國民科學素質的情況似乎仍然不容樂觀,很多科普作者越科普越心焦,質疑中國科學精神的言論也仍然甚囂塵上。
國民的科學素養真的這么差嗎?科學素養的缺失真的是傳統文化帶來的嗎?我看都不見得。梁啟超在東南大學時,學生羅時實認為國粹將亡,因為讀經的人太少了,梁啟超聞聲大怒,拍案道:“從古就是這么少”。當然,科學相比于經學更值得普及,但是對普通民眾缺乏專業的科學知識不應苛責,這是正常現象,不同科學領域、不同知識內容的科普是一項漫長而有意義的事業,更需要普及的可能是科學思維。科學思維雖然與任何形式的玄學都水火不容,但也并不等于“死理性派”,也不是“死的機械論”,不能說演繹法是科學而歸納法就不是科學,也不能說理性主義是科學而經驗主義就不是科學。不同的歷史文化可能側重不同,我們不能因為中國歷史上三百年的特殊時期就質疑整個歷史的科技成就,也不能因為中國傳統公理體系的缺失就否認整個文化的科學精神,這是不科學的做法,也屬于沒有文化自信的表現。
盧瑟福曾說過“如果你的實驗需要統計學,那么你應該再做一個更好的實驗”,波普爾強烈排斥歸納邏輯 并力求以可證偽性為劃界的標準,喬姆斯基高舉理性主義的大旗并自創“笛卡爾語言學”
,這些觀點曾經都是主流并且影響了很多人。但是需要指出的是,如今大數據時代下已經充分證明了經驗主義、歸納推理的強大之處,即使是如日中天的人工智能實際上也是大數據加上深度學習的歸納方法的成功。我們無意對大師們進行臧否,也不參與具體路線的爭論。實際上,無論是傾向于經驗主義還是理性主義、歸納主義還是演繹主義,都不會動搖科學的根基。庫恩認為,科學很重要的特點在于其獨特的范式,在科學領域里大部分時間并沒有競爭學派在質問彼此的目的和標準,因此相比其他領域能夠取得明顯的進步 。在不同的領域,大家遵循公認的科學范式進行研究,不管認識論和推理邏輯方面有何不同的傾向,都是科學的。但是由于歐幾里得、笛卡兒那一類的完美體系實在太迷人,容易導致很多人忽視了一種重要的科學思維方式,也就是統計思維。
巧合的是,當年科玄論戰中“科學派”的主要理論基礎就是統計學大宗師卡爾·皮爾遜早期的代表作《科學的規范》。當年的皮爾遜還沒有發展出后來的很多統計學經典理論,該書是一本科學哲學著作,堅定地表達了對科學的信仰,他認為科學的領域是無限的,科學方法是通向整個知識區域的唯一門徑。但是他也認為無論在哪種情況下科學都不能證明任何固有的必然性,也不能以絕對的確定性證明它必須重復,科學對過去是描述,對未來是信仰。有些精密科學靠明晰的定義和邏輯可以發展,有些問題要靠近似的測量來解決,需要測量理論、誤差理論、概率論、統計理論來實現。后來隨著統計學的發展成熟,直到今天大數據和人工智能成為顯學,都驗證了皮爾遜當年的觀點。
也許是因為科學這個詞聽起來太高端,也可能是科學比較接近真理,現在很多科普過于強調精確科學或者“硬”科學,有時候站在了普通人直覺或者經驗的對立面,更側重理性主義和演繹推理。這種精神放在一百年前的蒙昧期是合適的,放在今天全民教育水平不低的情形下可能有些矯枉過正,我覺得還是允執厥中比較好。能夠在概念世界和知覺世界中達到和諧、能夠在演繹法與歸納法中達到平衡,統計學可能是一個很好的橋梁。如今無論是自然科學還是社會科學都離不開統計學,尤其在應用領域,直接掀起了大數據的熱潮,技術層面的威力已經深入人心,但是思維方面的普及還有所不足。實際上,對中國人來說,理解統計思維似乎是一件非常輕松的事,無論是上古伏羲觀天法地的歸納精神,或者神農嘗百草的試驗精神,還是后世天人合一的整體思維、觀過知仁的結果導向、未戰而廟算的預測習慣,都是深合統計之道的。
很多人受到各種原因的誤導之后對中國的文化不自信,易于走向崇洋媚外的極端,這是不對的。即使是作為很多科學基礎的數學,也不止一種思維方式。數學家吳文俊院士說過“我國古代數學并沒有發展出一套演繹推理的形式系統,但卻另有一套更有生命力的系統”,這個生命力就是“從實際中發現問題,提煉問題,進而分析問題和解決問題” ,完全不同于希臘幾何學純邏輯推理的形式主義道路,中國數學的經典著作大都是以問題集的形式出現的,對結果不是用定理來表達的,而是用“術”來表達的,用現代的話來講就是程序,與近代計算機的使用融合無間。可見中國傳統的數學思維是非常適合現在這個算法時代的。算法與統計的結合造就了機器學習、人工智能的大爆發,甚至可以說是主導了這個時代的科技應用方向。統計學家約翰·圖基 1962年的文章中指出,任何數理統計學工作都應該在純數學或者數據分析的實踐中二選一,兩個標準都不符合的工作必然只是一時的過客。陳希孺院士也曾預測“新一輪的突破性進展正在孕育中,它也許就是數據分析? ”如今大師們的論斷都已言中,統計學與算法結合解決實際問題,已經漸成主流,甚至發展出了一門新的學科——數據科學。
卡瓦列里原理在西方數學史中被認為是微積分發明前的重要基礎,而中國的祖暅原理與之等價。萊布尼茨在提出二進制的那篇著名文章里直接引用了伏羲八卦,他還認為“如果說我們(歐洲人)在手工技能上與他們(中國)不分上下、在理論科學方面超過他們的話,那么,在實踐哲學方面……我不得不汗顏地承認他們遠勝于我們” 。在這里我們無意比較中西的優劣,也并不是為了說明中國有多厲害(如果是這個目的的話,可以舉更多例子或者寫另一本書),僅僅只是為了澄清一些誤解,這些誤解既是對中國傳統的某種誤讀,同時也是科學思維上的某類誤區。我們追求理性和完美的體系,也希望能止于至善,但我們也不應忽視經驗主義和觀察、試驗、歸納、計算的力量,這些都是科學,不應偏頗。尤其對于普通人來說,多從觀察身邊的小事、解決實際問題的角度訓練科學思維,可能效果更好,畢竟“刻鵠不成尚類鶩,畫虎不成反類狗”。
在如今這個理性與經驗、理論與實踐、演繹與歸納、公理體系與算法程序和諧統一的大好時代里,我們多了解一些統計學,關注一下數據科學在新時代的發展,類比一下我們祖先的思維方式,是很有必要的。作者不敢妄圖進行全面的科普,只能摘錄一些平時讀書、工作、看新聞時注意到的例子,嘗試介紹統計學的發展歷程、理論方法和應用實務。受本人的經驗和學識所限,很多例子并不是最好的,也肯定存在各種疏漏,但是希望能做一些嘗試,和更多的人一起探索統計中的美,分享科學思維中比較人性化的一面。
本書假設讀者具有中學的數學基礎,如果從書中介紹的概率與隨機的角度去理解統計的基本方法,可以作為統計學的入門參考。另外,結合作者的行業經驗,比較偏重統計思維方式和大數據應用實務的介紹,如果完全避開書中的所有公式,也不大影響閱讀,可以作為這個大數據或者人工智能時代下的統計學科普資料。本書對于基礎的數學盡量用最簡單的公式來描述,對于更深入的知識提供了參考資料,可以通過正文中類似“ [1]”的符號對應到圖書最后的“參考文獻”中查找。全書中重要的概念和人名也可以到書末的“索引”中查找相應的頁碼。這本書計劃了很久,也拖延了很久,感謝本書的策劃人成都道然科技有限責任公司的姚新軍先生,幫助我們謀篇布局、規劃時間以及處理各種雜事。也感謝“統計之都”和“狗熊會”的各位朋友,本書中的很多案例都來自社區中的各種線上線下的交流與討論。還要感謝我的寶貝女兒從動筆之初就開始的陪伴。當然,最需要的是提前感謝讀者的寬宏大量,本人才疏學淺,難免或有所遺漏或偏頗,希望能多多海涵和多多指正。
李艦 2018年 8月
pagetop