大數據智能:數據驅動的自然語言處理技術 ( 簡體 字) |
作者:劉知遠,崔安頎 等 | 類別:1. -> 程式設計 -> 大數據 2. -> 程式設計 -> 自然語言 |
譯者: |
出版社:電子工業出版社 | 3dWoo書號: 52087 詢問書籍請說出此書號!【有庫存】 NT售價: 445 元 |
出版日:11/1/2019 |
頁數:368 |
光碟數:0 |
|
站長推薦: |
印刷:黑白印刷 | 語系: ( 簡體 版 ) |
|
加入購物車 │加到我的最愛 (請先登入會員) |
ISBN:9787121375385 |
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 序 |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證) |
作者序: |
譯者序: |
前言:大數據時代與人工智能
在進入 21 世紀前,很多人預測 21 世紀將會是怎樣的世紀。有人說 21 世紀將是生命科學的時代,也有人說 21 世紀將是知識經濟的時代,不一而足。隨著互聯網的高速發展,大量的事實強有力地告訴我們,21 世紀必將是大數據的時代,是智能信息處理的黃金時代。
美國奧巴馬政府于 2012 年發布大數據研發倡議以來,關于大數據的研究與思考在全球蔚然成風,已經有很多專著面世,既有側重趨勢分析的,如舍恩伯格和庫克耶的《大數據時代》(盛楊燕和周濤教授譯)、涂子沛的《大數據》和《數據之巔》,也有偏重技術講解的,如萊斯科夫等人的《大數據》(王斌教授譯)、張俊林的《大數據日知錄》、楊巨龍的《大數據技術全解》,等等。相信隨著大數據革命的不斷深入推進,會有更多的專著出版。
前人已對大數據的內涵進行過很多探討與總結,其中比較著名的是所謂的“3V”定義:大容量(volume)、高速度(velocity)和多形態(variety)。3V 的概念于 2001 年由麥塔集團(Meta Group)分析師道格·萊尼(Doug Laney)提出,后來被高德納咨詢公司(Gartner Group)正式用來描述大數據。此外,還有很多研究者提出更多的“V”來描述大數據,如真實性(veracity),等等。既然有如此眾多的“珠玉”在前,我們推出本書,當然希望講一點不同的東西,這點不同的東西就是智能。
人工智能一直是研究者們非常感興趣的話題,并且由于眾多科幻電影和小說作品的影響而廣為人知。1946 年,第一臺電子計算機問世之后不久,英國數學家艾倫·麥席森·圖靈就發表了一篇名為《計算機器與智能》(Computing Machinery and Intelligence)的重要論文,探討了創造具有智能的機器的可能性,并提出了著名的“圖靈測試”,即如果一臺機器與人類進行對話,能夠不被分辨出其機器的身份,就可以認為這臺機器具有了智能。自 1956 年在美國達特茅斯舉行的研討會上正式提出“人工智能”的研究提案以來,人們開始了長達半個多世紀的曲折探索。且不去糾結“什么是智能”這樣哲學層面的命題〔有興趣的讀者可以參閱羅素和諾維格的《人工智能——一種現代方法》(Artificial Intelligence: A Modern Approach),以及
杰夫·霍金斯的《智能時代》(On Intelligence)〕,我們先來談談人工智能與大數據的關系。要回答這個問題,我們先來看一個人是如何獲得智能的。一個呱呱墜地、只會哭泣的嬰兒,長成思維健全的成人,至少要經歷十幾年與周圍世界交互和學習的過程。從降臨到這個世界的那一刻起,嬰兒無時無刻不在通過眼睛、耳朵、鼻子、皮膚接收著這個世界的數據信息:圖像、聲音、味道、觸感,等等。你有沒有發現,這些數據無論從規模、速度還是形態來看,無疑是典型的大數據。可以說,人類習得語言、思維等智能的
過程,就是利用大數據學習的過程。智能不是無源之水,它并不是憑空從人腦中生長出來的。同樣,人工智能希望讓機器擁有智能,也需要以大數據作為學習的素材。可以說,大數據將是實現人工智能的重要支撐,而人工智能是大數據研究的重要目標之一。但是,在人工智能研究早期,人們并不是這樣認為的。早在 1957 年,由于人工智能系統在簡單實例上的優越性能,研究者們曾信心滿懷地認為,計算機將在 10 年內成為國際象棋冠軍,而通過簡單的句法規則變換和單詞替換就可以實現機器翻譯。事實證明:人們遠遠低估了人類智能的復雜性。即使在國際象棋這樣規則和目標極為簡單清晰的任務上,直到 40 年后的 1997 年,由 IBM 推出的深藍超級計算機才宣告打敗人類世界頂級國際象棋大師卡斯帕羅夫。而在機器翻譯這樣更加復雜的任務上(人們甚至在優質翻譯的標準上都無法達成共識,更無法清晰地告訴機器),計算機至今還無法與人類翻譯的水平相提并論。當時的問題在于,人們低估了智能的深度和復雜度。智能是分不同層次的。對于簡單的智能任務(如對有限句式的翻譯等),我們簡單制定幾條規則就能完成。但是對于語言理解、邏輯推理等高級智能,簡單方法就顯得力不從心。生物界中,從簡單的單細胞生物進化到人類的過程,也是智能不斷進化的過程。最簡單的單細胞生物草履蟲,雖然沒有神經系統,卻已經能夠根據外界信號和刺激進行反應,實現趨利避害——我們可以將其視作最簡單的智能。而俄國高級神經活動生理學奠
基人伊萬·彼得羅維奇·巴甫洛夫的關于狗的條件反射實驗,則向我們證明了相對更高級的智能水平:能根據鈴聲推斷食物即將出現,也就是可以根據兩種外界信號(鈴聲與食物)的關聯關系實現簡單的因果推理。人類智能則是智能的最高級形式,擁有語言理解、邏輯推理與想象等獨特的能力。我們可以發現,低級智能只需小規模的簡單數據或規則的支持,而高級智能則需要大規模的復雜數據的支持。
同樣重要的,高級智能還需要獨特計算架構的支持。很顯然,人腦結構就與狗等動物有著本質的不同,因此,即使將一只狗像嬰兒一樣撫育,也不能指望它能完全學會和理解人類的語言,并像人一樣思維。受到生物智能的啟發,我們可以總結出如下圖所示的基本結論:不同規模數據的處理,需要不同的計算框架,產生不同級別的智能。
關于人工智能是否要完全照搬人類智能的工作原理,目前仍然爭論不休。有人舉例:雖然人們受到飛鳥的啟發發明了飛機,但其飛行原理(空氣動力學)與飛鳥有本質不同;同樣,生物界都在用雙腳或四腿行走、奔跑,人們卻發明了輪子和汽車實現快速移動。然而不可否認,大自然無疑是我們最好的老師。人工智能固然不必完全復制人類智能,但是知己知彼,方能百戰不殆。生物智能帶來的啟示已經在信息處理技術發展中得到了印證。谷歌研究員、美國工程院院士 Jeff Dean 曾對大數據做出過類似結論:“對處理數
據規模 X 的合理設計可能在 10X 或 100X 規模下就會變得不合理。(Right design at X may be very wrong at 10X or 100X.)”也就是說,大數據處理也需要專門設計新穎的計算架構。
而與人工智能密切相關的機器學習、自然語言處理、圖像處理、語音處理等領域,近年來都在大規模數據的支持下取得了驚人的進展。我們可以確信,大數據是人工智能發展的必由之路。
大數據智能如何成真
雖然大數據是實現人工智能的重要支持,但如何實現大數據智能,卻并非顯而易見。近年來,計算機硬件、大數據處理技術和深度學習等領域取得了突破性進展,涌現出了一批在技術上和商業上影響巨大的智能應用,讓人工智能發展道路日益清晰。觸手可及的人類社會大數據、高性能的計算能力,以及合理的智能計算框架,為大數據智能的實現提供了有力的支持。
人類社會大數據觸手可及。如前所述,這是大數據的時代,互聯網的興起、手機等便攜設備的普及,讓人類社會的行為數據越來越多地匯聚到網上。這讓機器從這些大數據中自動學習成為可能。但是,大數據(如大氣數據、地震數據等)并非現在才出現,只是在過去,我們限于計算能力和計算框架,難以從中萃取精華。因此,大數據智能的實現還依賴以下兩個方面的發展。
一方面,計算能力突飛猛進。受到摩爾定律的支配,近半個世紀以來,計算機的計算和存儲能力一直在以令人目眩的速度提高。摩爾定律最早由英特爾(Intel)創始人之一戈登·摩爾提出,其基本思想是:保持價格不變的情況下,集成電路上可容納的元器件的數目大約每隔 18 到 24 個月就會增加一倍,性能也將隨之提升一倍。也就是說,每一塊錢能買到的計算機性能將每隔 18 到 24 個月提升一倍以上。雖然人們一直擔心,隨著微處理器器件尺寸逐漸變小,摩爾定律會受量子效應影響而失效,但至少從已有發展歷程來看,隨著多核、多機并行等框架的提出,計算機已經能夠較好地提供大規模數據處理所需的計算能力了。
另一方面,計算框架返璞歸真。近年來,深度學習在圖像、語音和自然語言處理領域掀起了一場革命,在圖像分類、語音識別等重要任務上取得了驚人的性能突破,在實際上催生了蘋果 Siri 等語音助手的出現,在國內則涌現了科大訊飛、Face++等高科技公司。然而我們可能很難想象,深度學習的基礎——人工神經網絡技術,此前曾長期處于無人問津的境地。在深度學習興起以前,人工神經網絡常因存在可解釋性差、學習穩定性差、難以找到最優解等問題而被詬病。然而,正是由于大規模數據和高性能計算能力的支持,以人工神經網絡為代表的機器學習技術才得以在大數據時代煥發出勃勃生機。
人工智能的下一個里程碑
當下,以深度學習為代表的計算框架在很多具體任務上取得了重大的成果,甚至有媒體和公眾已經開始因人工智能取代人類的可能性而恐慌。然而,理性地看,深度學習的處理能力和效率與人類大腦相比仍有巨大差距。因此,大數據智能并非孕育人工智能的終極之道。隨著技術的進步和研究的深入,現有解決方案必然觸及天花板,進入瓶頸期。
人腦擁有現有計算框架不可比擬的優勢。例如,雖然人腦中的信號傳輸速度要遠低于計算機中的信息傳遞速度,但是人腦在很多智能任務上的處理效率遠高于計算機,例如在眾多聲音中快速識別出叫自己名字的聲音,通過線條漫畫認出名人,復雜數學問題的推導求解,快速閱讀理解一篇文章,等等。可見,在計算速度受限的情況下,人腦一定擁有某種獨特的計算框架,才能完成這些令人嘆為觀止的智能任務。
那么人工智能的下一個里程碑是什么呢?我們猜想,可能是神經科學及其相關學科。一直以來,神經科學都在探索各種觀測大腦活動的工具和方法,并做出了大量的實證和建模工作。隨著光控基因技術(optogenetics)和藥理基因技術(pharmacogenetics)等新技術的發展,人們擁有了在時間和空間上更加精確地監測和控制大腦活動的能力,從而有望徹底發現人腦的神經機制。一旦人腦的神經機制被發現,有理由相信,人們可以迅速通過仿真等方式,在計算機中實現類似甚至更高效的計算框架,從而推動實現人工智
能的最終目標。此外,量子計算、生物計算、新型芯片材料等領域的發展,都為我們展現出無限可能的未來。
當社會大數據、計算能力和計算框架三方面發展到一定階段,融合產生了大數據智能。相信隨著更大規模數據、更強計算能力和更合理計算框架的推出,人工智能也會不斷向前發展。然而,正如前幾年社會各界對物聯網、云計算的追捧,最近社會上對大數據和人工智能概念的炒作愈演愈烈,產生了很多不切實際的幻想和泡沫。對于這個領域重新得到青睞,我們當然感到欣慰,但是,也不妨多一些謹慎和冷靜。鑒古知今,回顧人工智能的曲折發展史(《人工智能——一種現代方法》一書中有詳細介紹),我們看到,在過度的期望破滅之后,隨之而來的就是嚴冬。在大數據智能萬眾矚目的今天,我們不妨心中常存對于凜冬將至的警惕。
事物總是在不斷自我否定中螺旋式前進的,人工智能的探求之路也是如此。我們相信大數據是獲得智能的必由之路,但現在的做法不見得就一定正確。多年之后,我們也許會用截然不同的辦法處理大數據。然而這些都不重要,重要的是一顆執著的心和堅持不懈的信念。就像深度學習領域的巨人 Geoffrey Hinton、Yann LeCun 等,曾坐了十幾年的冷板凳,研究成果屢屢被拒,到了 2019 年才榮膺計算機領域最高獎“圖靈獎”。對真正的學者而言,研究領域是冷門還是熱門也許不重要,反而會成為對從業者的試金石——只有在寒冬中堅持下來的種子,才能等到春天綻放。
關于本書
本書前身《大數據智能——互聯網時代的機器學習和自然語言處理技術》出版于2016 年,作為一本技術科普書,在社會上得到了一些正面的反響。于是,我們邀請更多作者加入,在原有的 8 章內容基礎上新增了 6 章內容。此外,對原有章節內容進行了適當更新,使內容更加全面。
本書并不想在已經熊熊燃燒的大數據火堆上再添一把柴。本書希望從人工智能這個新的角度,總結大數據智能取得的成果、局限性及未來可能的發展前景。本書共分 14 章,從大數據智能基礎、技術和應用三個方面展開介紹。本書基礎部分有 3 章。第 1 章以深度學習為例介紹大數據智能的計算框架;第 2 章以知識圖譜為例介紹大數據智能的知識庫;第 3 章介紹大數據的計算處理系統。在大數據智能的技術和應用部分,我們選擇文本大數據作為主要場景進行介紹,主要原因在于,語言是人類智能的集中體現,語言理解也是人工智能的終極目標,圖靈測試的設置是以語言作為媒介的。技術部分有 6 章,分別介紹主題模型、機器翻譯、情感分析與意見挖掘、智能問答與對話系統、個性化推薦系統、機器寫作等數據智能關鍵技術。應用部分有 5 章,分別介紹社交商業數據挖掘、智慧醫療、智慧司法、智能金融、計算社會學等
典型應用場景。
大數據智能仍然是一個高速發展的領域。為了讓讀者能夠了解這個領域的前沿進展,本書專門設置后記,為初學者追蹤大數據智能的最新學術資料提供了建議。大數據智能方向眾多,每位學者術業有專攻,很難獨力完成所有章節內容。因此,我們邀請了多位作者撰寫他們所擅長方向的章節。他們都在相關領域開展了多年研究工作,發表過高水平的論文。
致謝
本書能夠出版,無疑得到了很多人的支持和幫助。首先,感謝本書的幾位合作者:丁效、韓文弢、蘇勁松、湯步洲、涂存超、嚴睿、張開旭、張永鋒、趙鑫。他們的熱情、無私與認真,讓我們相信本書能夠真的為讀者提供及時、有用的知識。還要感謝各位同事、同學和好友,在本書撰寫過程中提供了很多最新研究資料和熱情的幫助。
我們特別感謝電子工業出版社副總編輯兼博文視點公司總經理郭立老師的熱情邀請和大力支持,以及本書策劃兼特約編輯、清華大學計算機系 1964 屆學長顧慧芳老師的不斷激勵和鼎力相助,讓我們鼓起勇氣接下這個選題,也能在我們拖延癥反復發作時耐心地等待。在書稿的準備過程中,特別感謝本書責任編輯鄭柳潔老師對書稿的悉心修改,對封面設計和每章內容都提供了大量中肯的建議,讓本書煥然一新。
歡迎交流
當今世界,大數據智能是一個涉及面非常廣泛、發展非常迅猛的領域,而且這個領域的研究成果將加速人類認識世界、探索宇宙,也將極大地影響人們日常生活的方方面面。因此,筆者想在從事學習和自然語言處理等基礎技術和最新進展研究工作的同時撰寫一本介紹這一領域的科普書籍,拋磚引玉,旨在為需要了解與學習大數據智能技術的朋友提供幫助,使更多有志之士加入大數據智能分析這一充滿驚奇和魅力的領域中。
筆者盡量以開放的態度梳理每個方向的相關成果和進展,然而大數據智能日新月異,而我們所知有限,難免有掛一漏萬之憾。如有重要進展或成果沒有涉及,絕非作者故意為之,敬請大家批評指正。我們歡迎讀者對本書做出任何反饋,無論是指出錯誤還是改進建議,請直接發郵件至 。我們會在書中改正所有發現的錯誤。
劉知遠 崔安頎
2019 年 11 月于北京 |
內容簡介:本書是介紹大數據智能、人工智能技術的科普書籍,旨在讓更多人了解和學習互聯網時代的人工智能技術——自然語言處理技術,讓大數據智能技術更好地為我們服務。全書包括大數據智能基礎、技術和應用三部分,共14章。基礎部分有3章:第1章以深度學習為例介紹大數據智能的計算框架;第2章以知識圖譜為例介紹大數據智能的知識庫;第3章介紹大數據的計算處理系統。技術部分有6章,分別介紹機器翻譯、主題模型、情感分析與意見挖掘、智能問答與對話系統、個性化推薦、機器寫作。應用部分有5章,分別介紹社交商業數據挖掘、智慧醫療、智慧司法、智慧金融、計算社會科學。本書后記部分為讀者追蹤大數據智能的最新學術資料提供了建議。 |
目錄:1 深度計算——機器大腦的結構 1 1.1 驚人的深度學習 ............................. 1 1.1.1 可以做酸奶的面包機:通用機器的概念 ............ 2 1.1.2 連接主義 ............................ 4 1.1.3 用機器設計機器 ........................ 5 1.1.4 深度網絡 ............................ 6 1.1.5 深度學習的用武之地 ...................... 6 1.2 從人腦神經元到人工神經元 ..................... 8 1.2.1 生物神經元中的計算靈感 .................... 8 1.2.2 激活函數 ............................ 9 1.3 參數學習 ............................... 10 1.3.1 模型的評價 .......................... 11 1.3.2 有監督學習 .......................... 11 1.3.3 梯度下降法 .......................... 12 1.4 多層前饋網絡 ............................. 14 1.4.1 多層前饋網絡 .......................... 14 1.4.2 后向傳播算法計算梯度 .................... 16 1.5 逐層預訓練 ............................... 17 1.6 深度學習是終極神器嗎 ....................... 20 1.6.1 深度學習帶來了什么 ...................... 20 1.6.2 深度學習尚未做到什么 .................... 21 1.7 內容回顧與推薦閱讀 ......................... 22 1.8 參考文獻 ............................... 23 2 知識圖譜——機器大腦中的知識庫 25 2.1 什么是知識圖譜 ........................... 25 2.2 知識圖譜的構建 ........................... 28 2.2.1 大規模知識庫 .......................... 28 2.2.2 互聯網鏈接數據 ........................ 29 2.2.3 互聯網網頁文本數據 ...................... 30 2.2.4 多數據源的知識融合 ...................... 31 2.3 知識圖譜的典型應用 ......................... 32 2.3.1 查詢理解 ............................ 32 2.3.2 自動問答 ............................ 34 2.3.3 文檔表示 ............................ 35 2.4 知識圖譜的主要技術 ......................... 36 2.4.1 實體鏈指 ............................ 36 2.4.2 關系抽取 ............................ 37 2.4.3 知識推理 ............................ 39 2.4.4 知識表示 ............................ 40 2.5 前景與挑戰 ............................... 42 2.6 內容回顧與推薦閱讀 ......................... 45 2.7 參考文獻 ............................... 45 3 大數據系統——大數據背后的支撐技術 47 3.1 大數據有多大 ............................. 47 3.2 高性能計算技術 ........................... 49 3.2.1 超級計算機的組成 ...................... 49 3.2.2 并行計算的系統支持 ...................... 51 3.3 虛擬化和云計算技術 ......................... 55 3.3.1 虛擬化技術 .......................... 56 3.3.2 云計算服務 .......................... 58 3.4 基于分布式計算的大數據系統 ................... 59 3.4.1 Hadoop 生態系統 ........................ 60 3.4.2 Spark .............................. 67 3.4.3 典型的大數據基礎架構 .................... 68 3.5 大規模圖計算 ............................. 69 3.5.1 分布式圖計算框架 ...................... 70 3.5.2 高效的單機圖計算框架 .................... 71 3.6 NoSQL ................................ 72 3.6.1 NoSQL 數據庫的類別 .................... 72 3.6.2 MongoDB 簡介 ........................ 74 3.7 內容回顧與推薦閱讀 ......................... 76 3.8 參考文獻 ............................... 77 4 主題模型——機器的智能摘要利器 78 4.1 由文檔到主題 ............................. 78 4.2 主題模型出現的背景 ......................... 80 4.3 第一個主題模型:潛在語義分析 ................... 81 4.4 第一個正式的概率主題模型 ..................... 84 4.5 第一個正式的貝葉斯主題模型 ................... 85 4.6 LDA 的概要介紹 ............................ 86 4.6.1 LDA 的延伸理解:主題模型廣義理解 ........... 90 4.6.2 模型求解 ............................ 92 4.6.3 模型評估 ............................ 93 4.6.4 模型選擇:主題數目的確定 .................. 94 4.7 主題模型的變形與應用 ....................... 95 4.7.1 基于 LDA 的變種模型 .................... 95 4.7.2 基于 LDA 的典型應用 .................... 97 4.7.3 基于主題模型的新浪名人話題排行榜應用 ........ 100 4.8 內容回顧與推薦閱讀 ......................... 104 4.9 參考文獻 ............................... 105 5 機器翻譯——機器如何跨越語言障礙 110 5.1 機器翻譯的意義 ........................... 110 5.2 機器翻譯的發展歷史 ......................... 111 5.2.1 基于規則的機器翻譯 .................... 112 5.2.2 基于語料庫的機器翻譯 .................... 112 5.2.3 基于神經網絡的機器翻譯 .................. 114 5.3 經典的神經網絡機器翻譯模型 ................... 114 5.3.1 基于循環神經網絡的神經網絡機器翻譯 .......... 114 5.3.2 從卷積序列到序列模型 .................... 117 5.3.3 基于自注意力機制的 Transformer 模型 .......... 118 5.4 機器翻譯譯文質量評價 ....................... 120 5.5 機器翻譯面臨的挑戰 ......................... 121 5.6 參考文獻 ............................... 123 6 情感分析與意見挖掘——機器如何了解人類情感 125 6.1 情感可以計算嗎 ........................... 125 6.2 哪里需要文本情感分析 ....................... 126 6.2.1 情感分析的宏觀反映 .................... 127 6.2.2 情感分析的微觀特征 .................... 128 6.3 情感分析的主要研究問題 ..................... 129 6.4 情感分析的主要方法 ......................... 132 6.4.1 構成情感和觀點的基本元素 ................ 132 6.4.2 情感極性與情感詞典 .................... 134 6.4.3 屬性-觀點對 ........................ 141 6.4.4 情感極性分析 ........................ 143 6.5 主要的情感分析資源 ......................... 148 6.6 前景與挑戰 ............................. 149 6.7 內容回顧與推薦閱讀 ......................... 150 6.8 參考文獻 ............................... 151 7 智能問答與對話系統——智能助手是如何煉成的 154 7.1 問答:圖靈測試的基本形式 ..................... 154 7.2 從問答到對話 ............................. 155 7.2.1 對話系統的基本過程 .................... 156 7.2.2 文本對話系統的常見場景 .................. 157 7.3 問答系統的主要組成 ......................... 159 7.4 文本問答系統 ............................. 161 7.4.1 問題理解 ............................ 161 7.4.2 知識檢索 ............................ 165 7.4.3 答案生成 ............................ 169 7.5 端到端的閱讀理解問答技術 ..................... 169 7.5.1 什么是閱讀理解任務 .................... 170 7.5.2 閱讀理解任務的模型 .................... 172 7.5.3 閱讀理解任務的其他工程技巧 ................ 173 7.6 社區問答系統 ............................. 174 7.6.1 社區問答系統的結構 .................... 174 7.6.2 相似問題檢索 ........................ 175 7.6.3 答案過濾 ............................ 177 7.6.4 社區問答的應用 ........................ 177 7.7 多媒體問答系統 ........................... 179 7.8 大型問答系統案例:IBM 沃森問答系統 .............. 181 7.8.1 沃森的總體結構 ........................ 182 7.8.2 問題解析 ............................ 182 7.8.3 知識儲備 ............................ 183 7.8.4 檢索和候選答案生成 .................... 184 7.8.5 可信答案確定 ........................ 184 7.9 前景與挑戰 ............................. 186 7.10 內容回顧與推薦閱讀 ....................... 186 7.11 參考文獻 ............................... 187 8 個性化推薦系統——如何了解計算機背后的他 190 8.1 什么是推薦系統 ........................... 190 8.2 推薦系統的發展歷史 ......................... 191 8.2.1 推薦無處不在 ........................ 192 8.2.2 從千人一面到千人千面 .................... 193 8.3 個性化推薦的基本問題 ....................... 194 8.3.1 推薦系統的輸入 ........................ 194 8.3.2 推薦系統的輸出 ........................ 196 8.3.3 個性化推薦的基本形式 .................... 197 8.3.4 推薦系統的三大核心問題 .................. 198 8.4 典型推薦算法淺析 ......................... 199 8.4.1 推薦算法的分類 ........................ 199 8.4.2 典型推薦算法介紹 ...................... 200 8.4.3 基于矩陣分解的打分預測 .................. 207 8.4.4 基于神經網絡的推薦算法 .................. 213 8.5 推薦的可解釋性 ........................... 214 8.6 推薦算法的評價 ........................... 217 8.6.1 評分預測的評價 ........................ 218 8.6.2 推薦列表的評價 ........................ 219 8.6.3 推薦理由的評價 ........................ 220 8.7 前景與挑戰:我們走了多遠 ..................... 221 8.7.1 推薦系統面臨的問題 .................... 221 8.7.2 推薦系統的新方向 ...................... 223 8.8 內容回顧與推薦閱讀 ......................... 225 8.9 參考文獻 ............................... 226 9 機器寫作——從分析到創造 228 9.1 什么是機器寫作 ........................... 228 9.2 藝術寫作 ............................... 229 9.2.1 機器寫詩 ............................ 229 9.2.2 AI 對聯 ............................. 233 9.3 當代寫作 ............................... 236 9.3.1 機器寫稿 ............................ 236 9.3.2 機器故事生成 ........................ 239 9.4 內容回顧 ............................... 241 9.5 參考文獻 ............................... 242 10 社交商業數據挖掘——從用戶數據挖掘到商業智能應用 243 10.1 社交媒體平臺中的數據寶藏 ................... 243 10.2 打通網絡社區的束縛:用戶網絡社區身份的鏈指與融合 ... 245 10.3 揭開社交用戶的面紗:用戶畫像的構建 ............. 247 10.3.1 基于顯式社交屬性的構建方法 .............. 247 10.3.2 基于網絡表示學習的構建方法 .............. 249 10.3.3 產品受眾畫像的構建 .................... 250 10.4 了解用戶的需求:用戶消費意圖的識別 ............. 254 10.4.1 個體消費意圖識別 ...................... 254 10.4.2 群體消費意圖識別 ...................... 256 10.5 精準的供需匹配:面向社交平臺的產品推薦算法 ....... 258 10.5.1 候選產品列表生成 ...................... 258 10.5.2 基于學習排序算法的推薦框架 .............. 259 10.5.3 基于用戶屬性的排序特征構建 .............. 260 10.5.4 推薦系統的整體設計概覽 .................. 261 10.6 前景與挑戰 ............................. 262 10.7 內容回顧與推薦閱讀 ....................... 263 10.8 參考文獻 ............................... 264 11 智慧醫療——信息技術在醫療領域應用的結晶 265 11.1 智慧醫療的起源 ........................... 265 11.2 智慧醫療的廬山真面目 ....................... 267 11.3 智慧醫療中的人工智能應用 ................... 268 11.3.1 醫療過程中的人工智能應用 ................ 268 11.3.2 醫療研究中的人工智能應用 ................ 272 11.4 前景與挑戰 ............................. 273 11.5 內容回顧與推薦閱讀 ....................... 275 11.6 參考文獻 ............................... 275 12 智慧司法——智能技術促進司法公正 276 12.1 智能技術與法律的碰撞 ....................... 276 12.2 智慧司法相關研究 ......................... 277 12.2.1 法律智能的早期研究 .................... 278 12.2.2 判決預測:虛擬法官的誕生與未來 ............ 279 12.2.3 文書生成:司法過程簡化 .................. 283 12.2.4 要素提取:司法結構化 .................. 285 12.2.5 類案匹配:解決一案多判 .................. 289 12.2.6 司法問答:讓機器理解法律 ................ 292 12.3 智慧司法的期望偏差與應用挑戰 ................. 293 12.3.1 智慧司法的期望偏差 .................... 293 12.3.2 智慧司法的應用挑戰 .................... 294 12.4 內容回顧與推薦閱讀 ....................... 295 12.5 參考文獻 ............................... 295 13 智能金融——機器金融大腦 298 13.1 智能金融正當其時 ......................... 298 13.1.1 什么是智能金融 ...................... 298 13.1.2 智能金融與金融科技、互聯網金融的異同 ........ 298 13.1.3 智能金融適時而生 ...................... 299 13.2 智能金融技術 ........................... 301 13.2.1 大數據的機遇與挑戰 .................... 301 13.2.2 智能金融中的自然語言處理 ................ 303 13.2.3 金融事理圖譜 ........................ 307 13.2.4 智能金融中的深度學習 .................. 310 13.3 智能金融應用 ........................... 314 13.3.1 智能投顧 .......................... 314 13.3.2 智能研報 .......................... 315 13.3.3 智能客服 .......................... 316 13.4 前景與挑戰 ............................. 317 13.5 內容回顧與推薦閱讀 ....................... 319 13.6 參考文獻 ............................... 319 14 計算社會學——透過大數據了解人類社會 320 14.1 透過數據了解人類社會 ....................... 320 14.2 面向社會媒體的自然語言使用分析 ............... 321 14.2.1 詞匯的時空傳播與演化 .................. 322 14.2.2 語言使用與個體差異 .................... 325 14.2.3 語言使用與社會地位 .................... 326 14.2.4 語言使用與群體分析 .................... 328 14.3 面向社會媒體的自然語言分析應用 ............... 330 14.3.1 社會預測 .......................... 330 14.3.2 霸凌現象定量分析 ...................... 331 14.4 未來研究的挑戰與展望 ....................... 332 14.5 參考文獻 ............................... 333 后記 334 |
序: |