智能聊天機器人——核心技術與算法( 簡體 字) | |
作者:黃申 | 類別:1. -> 程式設計 -> 綜合 |
出版社:清華大學出版社 | 3dWoo書號: 54635 詢問書籍請說出此書號! 有庫存 NT售價: 640 元 |
出版日:6/1/2021 | |
頁數:354 | |
光碟數:0 | |
站長推薦: | |
印刷:黑白印刷 | 語系: ( 簡體 字 ) |
ISBN:9787302570783 | 加入購物車 │加到我的最愛 (請先登入會員) |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社) | |
第1章聊天機器人概述 1
1.1聊天機器人的發展歷史 1 1.2聊天機器人的類型和應用 3 1.3聊天機器人的模塊和框架 4 第2章自動語音識別 7 2.1自動語音識別的發展概述 7 2.2隱馬爾可夫模型 8 2.2.1 概率論基礎知識 9 2.2.2 隱馬爾可夫模型是怎么來的 18 2.2.3 求解隱馬爾可夫模型 25 2.3Python實戰 28 第3章自然語言處理 33 3.1自然語言處理的發展概述 33 3.2常見的自然語言處理技術 34 3.2.1 停用詞 34 3.2.2 同義詞和近義詞 37 3.2.3 多元語法 39 3.2.4 詞袋模型和TF-IDF機制 40 3.2.5 語義相關的詞 44 3.2.6詞性標注 61 3.2.7實體識別 64 3.2.8語法分析和語義分析 66 3.3針對中英文的特殊處理 70 3.3.1 取詞干和詞形還原 71 3.3.2 中文分詞 72 第4章基于信息檢索的問答系統 78 4.1問答系統的發展概述 78 4.2信息檢索 78 4.2.1 如何高效地找到信息 79 4.2.2 相關性模型 84 4.2.3 其他擴展 95 4.2.4 基于信息檢索的問答系統架構 99 4.3基于Elasticsearch搜索引擎的問答系統 103 4.3.1 軟件和數據的準備 103 4.3.2 Elasticsearch的基本概念和使用 105 4.3.3 在Elasticsearch中處理自然語言 114 4.3.4 自定義Elasticsearch的排序 123 4.3.5 Elasticsearch中搜索結果的統計 126 4.3.6 Elasticsearch集群 129 4.3.7 集成的問答系統 136 第5章用機器學習提升基于信息檢索的問答系統 141 5.1如何提升問答系統 141 5.2分析用戶提出的問題 142 5.2.1 分類模型和算法 142 5.2.2 利用樸素貝葉斯模型進行文本分類 148 5.2.3 問題分類的Python實戰 152 5.2.4 實體識別及其Python實戰 159 5.3檢索結果的優化 166 5.3.1 線性回歸的基本概念 166 5.3.2 線性回歸的求解和擬合度的評估 168 5.3.3 線性回歸的Python實戰 181 5.3.4 聚類模型和算法 184 5.3.5 向量空間模型上的聚類 189 第6章基于社區和推薦的問答系統 195 6.1什么是社區和推薦 195 6.2基于社區的問答系統 195 6.3推薦系統的原理和算法 199 6.3.1 推薦系統 199 6.3.2 協同過濾 206 6.3.3 使用Python實現協同過濾 211 6.4基于推薦的問答系統 214 6.5答案的摘要 218 6.5.1 文本摘要原理和算法 218 6.5.2 文本摘要的Python實戰 219 第7章 使用深度學習加強問答系統 227 7.1 神經網絡 227 7.1.1 神經網絡的基礎知識 227 7.1.2 使用TensorFlow實現基本的神經網絡 234 7.2 深度學習 243 7.2.1 卷積神經網絡 243 7.2.2 深度學習在問答系統上的應用 248 第8章 使用知識圖譜構建問答系統 261 8.1 什么是知識圖譜 261 8.1.1 知識圖譜的起源 261 8.1.2 知識圖譜的應用 263 8.1.3 知識圖譜的關鍵要素 264 8.2 基于模板的知識圖譜問答 269 8.2.1 基于模板方法的主要步驟 269 8.2.2 使用SPARQL和Python實戰 271 8.2.3 可能的改進 304 第9章 打造任務型和閑聊型聊天系統 306 9.1 什么是任務型聊天系統 306 9.2 理解用戶的意圖 307 9.2.1 基本方法 307 9.2.2 Python實戰 308 9.3 識別任務相關的屬性 314 9.4 對話流程的管理 324 9.4.1 基于規則的方法 325 9.4.2 基于數據統計的方法 334 9.5 閑聊型聊天系統的情感分析 342 隨著人工智能技術的發展,人類對智能化服務更加渴望,聊天機器人成為研發熱門之一。本
書從聊天機器人所涉及的多個方面出發,先理論后實踐,讓讀者不僅能了解其中的原理,還能自 己動手編程。全書共9 章,第1 章以該領域的背景知識作為開篇,重點介紹了聊天系統中的主要 模塊;第2 章闡述了語音識別和隱馬爾可夫模型;第3 章側重于通用的自然語言處理技術;第4 章講解如何使用信息檢索技術,來實現問答型的聊天系統;第5 章介紹一些主流的機器學習算 法,以及如何使用這些算法來提升基于信息檢索的問答系統;第6 章介紹推薦系統相關的知識以 及常見的推薦算法,并將其應用到問答系統中;第7 章介紹如何使用深度學習來優化問答系統; 第8 章講述了聊天系統的前沿領域—知識圖譜;第9 章討論任務型和閑聊型聊天系統中更有挑 戰性的幾個課題。 本書可為高等院校計算機科學、信息科學、電子工程和人工智能等領域的科研人員提供參考, 也可作為相關專業本科生和研究生教學的參考書,對于從事深度學習及其應用的開發人員同樣具 有參考價值。 毋庸置疑,聊天機器人是最近幾年最火的人工智能領域之一,各種智能家居和語音助手層出不窮。可是,中國真正有實力構建此類系統的公司并不多。筆者閱讀了不少業界的觀察性文章,也走訪了一些業內的專家,發現導致這一現狀的原因主要在于以下幾點:
涉及的技術范圍廣,技術人才數量有限。聊天系統需要“理解”人類的語音和語意,然后進行一定的“思考”,甚至幫助用戶“完成”任務。這其中就涉及了語音識別、自然語言處理和理解、信息檢索、推薦、知識圖譜、機器學習、深度學習等多個領域的專業知識,而精通所有這些領域的人才少之又少。 發展速度快,技術含量高。如果說語音識別、自然語言處理和信息檢索領域相對成熟,那么機器學習、深度學習、知識圖譜領域仍處于高速發展中,這類技術相對于普通的應用開發而言,需要更多理論知識和實踐經驗的積累。而商業價值的挖掘程度,往往取決于使用的技術深度。越是鉆研得深入,所產生的價值就會越大。 成熟方案少。很多智能的和大數據的技術是免費的,這對于盈利模式而言無疑是重大利好。不過代價就是其中存在穩定性和易用性問題。現在有一些大型技術公司提供更成熟的解決方案,但是價格高昂,對于經費并不寬裕的初創公司而言,選擇余地太小。 以上這些因素,都會形成進入智能聊天領域的門檻,而高門檻勢必導致相關技術在工業界應用的步伐放緩。為了解決這個問題,企業需要培養自己的復合型技術人才,才能讓企業使用適合的工具、獲得準確的數據、制定合理的實現方案。為此,筆者萌生了一個想法:通過本書幫助企業快速建立復合型團隊,并搭建基礎的智能聊天系統。筆者在寫作過程中,力求做到以下幾點: 覆蓋面更全。聊天系統涉及的技術棧很多,本書嘗試涵蓋最為關鍵的領域,讓讀者在理解了這些知識之后,能夠對整個系統有一個全局性的認識。 易讀易懂。通過生動的案例和形象的比喻來解讀難點,降低技術理解的門檻。這樣能夠讓剛入門的技術人員更容易理解聊天系統其中的運行原理。 可實踐性強。通過大量實踐才能積累寶貴的經驗,最大限度地根據理論知識彌補技術方案的空白。這有利于技術人員針對不同的業務需求,制定更為合理的技術方案。 本書通過多個案例,逐步介紹聊天機器人開發各個階段可能遇到的技術難題、業務需求以及相對應的技術解決方案和實踐解析,讓讀者身臨其境,探尋智能聊天機器人的奧秘。 勘誤和支持 正如前文所述,人工智能技術發展得實在是太快了。可能就在你閱讀這些文字的同時,又有一項新的技術誕生了,N項技術升級了,M項技術被淘汰了。筆者的水平有限,書中難免會出現一些不夠準確或者遺漏的地方,懇請讀者積極建議和斧正,我們很期待能夠聽到你們的反饋。 致謝 首先要感謝上海交通大學的俞勇教授,給予我不斷學習的機會,帶領我進入了人工智能的世界。同時,感謝天鑲智能的創始人薛貴榮,你的指導讓我樹立了良好的科研態度。 其次,要感謝IBM美國研究院的Guangjie Ren,給我很多機會參與到IBM Waston聊天系統的設計和研發中,積累了不少實戰的經驗。 另外,還要感謝微軟亞洲研究院、eBay中國研發中心、沃爾瑪1號店、大潤發飛牛網和IBM中國研發中心,在這些公司十多年的實戰經驗讓我收獲頗豐,也為本書的完成打下了堅實基礎。 感謝曾經的微軟戰友陳正、孫建濤、Ling Bao、周明、曾華軍、張本宇、沈抖、劉寧、嚴峻、曹云波、王瓊華、康亞濱、胡健、季蕾等,eBay的戰友逄偉、王強、王驍、沈丹、Yongzheng Zhang、Catherine Baudin、Alvaro Bolivar、Xiaodi Zhang、吳曉元、周洋、胡文彥、宋榮、劉文、Lily Yu等,沃爾瑪1號店的戰友韓軍、王欣磊、胡茂華、付艷超、張旭強、黃哲鏗、沙燕霖、郭占星、聶巍、邵漢成、張珺、胡毅、邱仔松、孫靈飛、凌昱、王善良、廖川、楊平、余遷、周航、吳敏、李峰等,大潤發飛牛網的戰友王俊杰、陳俞安、蔡伯璟、陳慧文、夏吉吉、文燕軍、楊立生、張飛、代偉、陳靜、趙瑜、李航等,IBM的戰友李偉、謝欣、周健、馬堅、劉鈞、唐顯莉等。要感謝的同仁太多,如有遺漏敬請諒解,很懷念和你們并肩作戰的日子,讓我學習到了很多。 感謝清華大學出版社的編輯王莉老師,在最近的大半年時間中始終支持我的寫作,幫助引導我順利完成全部書稿。 最后,感謝我的太太、兒子和雙方父母,為了此書的寫作,我周末陪伴你們的時間更少了,感謝你們對我的理解和支持。 謹以此書獻給我最親愛的家人以及眾多熱愛人工智能的朋友們。 黃申 于美國硅谷 2020年8月 |