【有庫存】NT售價: 395 元
為什么要寫這本書2015年我跳出一家傳統的軟件公司,重新做回文本挖掘的相關工作。那個時候心中的執念是想把自己讀碩士時的研究方向繼續下去。跳出人生的舒適區,發現周圍的技術真的是日新月異,從而感嘆自己的落伍和脫節。于是開始從最簡單的分詞做起,職業生涯起起伏伏,在那段歲月中依然保持著心中的執念和對求知的渴望。有幸的是,在這個過程中結識了一些業內的好友,在他們的不斷指引下,感覺每天都小有進步。在學習的過程中,我正好也趕上了自然語言處理技術的浪潮,在AI技術深入人心的階段入行實是我人生的一大幸事!對話系統是自然語言處理(NLP)領域的一顆璀璨明珠,它源于專家庫系統。從技術的角度講,它集結了自然語言理解(NLU)技術和自然語言生成(NLG)技術,而自然語言處理又恰恰是人工智能(AI)最難破解的領域。就是在那段時間里,我萌發了要做對話系統的想法。萬事開頭難,在這個過程中翻閱了不少參考資料,但是發現一個問題,市場上專門寫對話系統的書寥寥無幾,介紹自然語言處理的專業書籍也特別少。所以只能翻看一些論文,但論文的理論性很強,實操性又太差,對初學者和基礎薄弱者來講很不友好。當時市場上流行的自然語言處理的書籍可以分以下幾種類型:第一,經典的教材,如宗成慶老師的《統計自然語言處理》;第二,經典實操教材,如《Python自然語言處理》;第三,經典的翻譯教材,如《統計自然語言處理基礎》。而講解中文自然語言處理的實操性的書籍著實太少了。2018年冬天的一個午后,我和郭師光幾個人一起吃飯,茶余飯后聊起聊天機器人,大家有很多共同的想法。在自然語言處理、深度學習以及人工智能領域,大家都積累了一些經驗,所以我就提議:大家能不能圍繞自然語言處理和對話系統寫一本書,寫寫大家對自然語言處理技術以及對話系統的認識,幫初學者歸納總結一些在中文文本挖掘方面的知識點和成功經驗。我的提議很快得到了崔燕紅博士的響應和支持,就這樣,本書的創作團隊正式成立。不過,在創作過程中也遇到了很多問題。對話系統本身要求技術人員對算法和工程都要有一個清晰和完整的認識,而且需要有很強的工程實踐能力。我在書中這部分的講解過程中提到,在不同公司的應用場景和數據集上做優化就會誕生不同的對話系統。但是,對話系統也有一些共同的部分,比如通用的自然語言處理方法、通用的架構,以及針對不同業務場景所采用的相同的解決方法。所以本書旨在幫助讀者梳理相關知識點和思考問題的方式。許多個不眠之夜的奮筆疾書,許多個節假日的思考和資料的查閱,將我們的分享像涓涓細流,澆灌在每一個讀者心間,我想我們的這些努力就是最大的價值。讀者對象 自然語言處理入門者和愛好者 初中級自然語言處理工程師 AI技術入門者和愛好者 開設相關課程的大專院校的師生如何閱讀本書本書按內容可分為三大部分。第一部分(第1章)為基礎篇,簡單地介紹數學和統計的基本相關理論,幫助讀者了解一些基礎背景知識,并熟悉一些基礎的數學理論知識。第二部分(第2~9章)為自然語言處理的技術篇,著重講解自然語言處理的模型和技術。它們是構成對話系統的基礎。一些模型可以用在自然語言理解模塊(NLU)和自然語言生成模塊(NLG)。同時幫助讀者整理對話系統的工程和架構知識。第三部分(第10~12章)為實例篇,通過對三個對話系統典型案例的講解,讓讀者完整了解一個架構、設計和實現對話系統的流程。勘誤和支持由于作者的水平有限,編寫時間倉促,書中難免會出現一些錯誤或者不準確的地方,懇請讀者批評指正。你可以將書中的錯誤或寶貴意見發送至郵箱yfc@hzbook.com,期待能夠得到你們的真摯反饋。致謝首先要感謝偉大的人工智能之父艾倫·麥席森·圖靈,是他開創了整個AI領域。感謝清華大學對我的培養。感謝崔燕紅、郭師光、黨習歌對本書付出的巨大努力。感謝機械工業出版社華章分社的編輯楊福川,在這一年的時間中始終支持著我的寫作,你的鼓勵和幫助引導我順利完成全部書稿。感謝唯品會的黃惠燕女士對我的支持和幫助。最后感謝我的老婆和兩位可愛的女兒,感謝你們時時刻刻為我灌輸著信心和力量!謹以此書獻給我最親愛的家人,以及眾多熱愛人工智能和自然語言處理的朋友們!劉宇
這是一部能指導初學者輕松進入聊天機器人領域并快速實現進階的實戰型著作。4位作者都是資深的NLP技術專家,在聊天機器人領域有豐富的工程實踐經驗,曾在唯品會等公司有大規模的成功實踐。這本書原理、技術、實戰3個層面講解了聊天機器人的數學與統計原理、NLP模型和技術、算法與實現、工程架構,以及案例實踐。全書共13章,可分為三大部分。第一部分(第1章) 基礎篇簡單介紹了數學和統計的基本理論,如概率統計和應用數學等。第二部分(第2~9章) 技術篇著重講解了NLP的模型和技術,它們是構成對話系統的基礎,一些模型可以用在自然語言理解模塊(NLU)和自然語言生成模塊(NLG),同時幫助讀者整理對話系統的工程架構知識。第三部分(第10~12章) 實例篇通過對三個典型的對話系統案例的講解,讓讀者完整了解架構、設計和實現對話系統的流程和方法。
推薦序一推薦序二前言第1章概率統計與應用數學的基礎知識1.1概率的定義1.2條件概率與貝葉斯公式1.3隨機變量與分布函數1.4概率分布與參數估計1.5隨機過程與馬爾可夫模型1.6信息熵1.7本章小結第2章語言模型與多元文法2.1詞袋模型2.2N-Gram模型2.2.1N-Gram簡介2.2.2N-Gram算法2.2.3N-Gram用途2.3數據平滑2.3.1加法平滑方法2.3.2Good-Turing估計法2.3.3組合平滑方法第3章序列標注模型3.1中文分詞3.1.1條件隨機場3.1.2條件隨機場進行中文分詞3.2詞性標注3.2.1詞性標注的標準3.2.2利用隱馬爾可夫進行詞性標注3.3命名實體識別3.3.1利用條件隨機場模型進行命名實體識別3.3.2命名實體識別在對話系統中的作用3.4序列標注模型3.5本章小結第4章文本分析4.1關鍵詞抽取4.1.1詞頻-逆文檔頻次算法4.1.2Text Rank4.2文本分類4.2.1貝葉斯文本分類模型4.2.2決策樹文本分類模型4.2.3SVM文本分類模型4.3主題模型4.3.1基礎知識回顧4.3.2吉布斯采樣4.3.3隱狄利克雷分配模型4.4本章小結第5章深度學習模型5.1基于深度學習的自然語言模型5.1.1神經網絡自然語言模型與詞向量5.1.2A Neural Probabilistic Language Model5.1.3CBOW和Skip-Gram5.1.4Huffman編碼與Huffman tree5.1.5CBOW-Hierarchical Softmax5.1.6Skip-Gram-Hierarchical Softmax5.1.7FastText5.1.8詞的全局向量表示5.2卷積網絡CNN5.2.1卷積網絡CNN理論5.2.2利用CNN進行文本分類5.3循環網絡RNN5.3.1循環網絡RNN(LSTM,GRU)理論5.3.2利用RNN 進行情感分析5.3.3Sequence-to-Sequence with Attention Model5.4Transformer5.4.1ResNet(Residual Network)殘差網絡模型5.4.2Attention is all you need(Transformer)5.5預訓練模型5.5.1Embeddings from Language Models(ELMo)5.5.2BERT第6章對話機器人的發展綜述6.1對話機器人發展史6.1.1對話機器人的近況6.1.2開放域6.1.3垂直領域6.1.4對話機器人的未來發展趨勢6.2人工智能在對話機器人中的應用6.2.1深度學習在機器人方面的應用6.2.2強化學習在機器人方面的應用6.2.3知識圖譜在機器人方面的應用第7章自然語言理解與知識圖譜7.1知識圖譜的表示:三元組模型7.2知識抽取7.2.1知識抽取-命名實體識別7.2.2利用CRF模型識別 NER7.2.3利用BiLSTM+CRF模型進行命名實體識別7.3知識抽取-實體關系抽取:Relation Extraction7.4知識圖譜的構建第8章答案生成與多輪對話8.1預測會話與答案生成8.1.1信息檢索:利用搜索來預測答案8.1.2句型模板匹配標準問題生成答案8.1.3根據知識圖譜推理得到答案8.2多輪對話8.2.1多輪對話概述8.2.2任務型多輪對話的控制和生成8.2.3多主題多輪對話第9章對話系統的工程架構9.1對話系統的工程技術9.1.1常用技術9.1.2對話系統的分類9.1.3主要系統軟件介紹9.1.4系統運維相關9.2對話系統的架構實現9.2.1阿里小蜜9.2.2百度對話系統9.2.3垂直領域對話系統的架構9.2.4開放領域對話系統的架構9.3本章小結第10章實戰場景之一——客服機器人10.1客服機器人架構10.1.1功能需求10.1.2系統邏輯架構圖10.2客服機器人設計10.2.1FAQ的設計10.2.2導購機器人的設計10.2.3實例分析10.3本章小結第11章實戰場景之二——開放域的QA問答11.1開放領域問答機器人的架構11.2開放領域問答機器人的開發流程和方案11.3開放領域問答機器人的開發案例第12章實戰場景之三——聊天機器人12.1Seq2Seq以及Attention機制12.2Beam Search12.3基于Seq2Seq的聊天機器人開發流程12.3.1語料準備12.3.2定義Encoder和Decoder12.3.3模型訓練和評估模塊12.3.4模型預測和Beam Search模塊12.4本章小結