Python自然語言處理與開發( 簡體 字) | |
作者:葉虎 | 類別:1. -> 程式設計 -> Python 2. -> 程式設計 -> 自然語言 |
出版社:清華大學出版社 | 3dWoo書號: 52323 詢問書籍請說出此書號! 有庫存 NT售價: 445 元 |
出版日:1/1/2020 | |
頁數:286 | |
光碟數:0 | |
站長推薦: | |
印刷:黑白印刷 | 語系: ( 簡體 字 ) |
ISBN:9787302543428 | 加入購物車 │加到我的最愛 (請先登入會員) |
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社) | |
第1章Python自然語言處理技術基礎 1
1.1體驗自然語言處理技術 1 1.2Linux基礎 3 1.2.1常用命令 3 1.2.2Micro編輯器 5 1.3開發環境 5 1.4變量 6 1.5注釋 6 1.6簡單數據類型 6 1.6.1數值 6 1.6.2字符串 9 1.6.3數組 10 1.7字面值 11 1.8控制流 11 1.8.1if語句 12 1.8.2循環 13 1.9列表 14 1.10元組 14 1.11集合 16 1.12字典 17 1.13位數組 18 1.14模塊 19 1.15函數 20 1.15.1print函數 20 1.15.2定義函數 22 1.16面向對象編程 24 1.17文件操作 26 1.17.1讀寫文件 26 1.17.2重命名文件 28 1.17.3遍歷文件 28 1.18迭代器 29 1.18.1zip函數 30 1.18.2itertools模塊 31 1.19數據庫 32 1.20讀取Excel文件 34 1.21pytest單元測試 36 1.22異常處理 37 1.23日志 37 1.24FlaskWeb框架 39 1.25本章小結 40 第2章中文分詞原理與實現 41 2.1切分方案 41 2.2查找詞典算法 42 2.2.1標準檢索樹 42 2.2.2三叉檢索樹 45 2.3最長匹配中文分詞 51 2.3.1正向最大長度匹配法 51 2.3.2逆向最大長度匹配法 53 2.4概率語言模型的分詞方法 57 2.4.1一元模型 58 2.4.2數據基礎 67 2.4.3二元詞典 70 2.4.4用二元連接改進一元模型 75 2.4.5N元模型 79 2.4.6N元分詞 80 2.4.7生成語言模型 84 2.4.8評估語言模型 85 2.4.9有限狀態機識別未登錄串 87 2.4.10概率分詞的流程與結構 94 2.5詞性標注 95 2.5.1數據基礎 99 2.5.2隱馬爾可夫模型 99 2.5.3存儲數據 108 2.5.4整合切分與詞性標注 114 2.5.5基于轉換的錯誤學習方法 118 2.6詞類模型 119 2.7命名實體識別 120 2.7.1人名識別 121 2.7.2地名識別 140 2.8地名切分 140 2.8.1識別未登錄地名 141 2.8.2整體流程 145 2.9結果評測 147 2.10本章小結 148 第3章文檔分析 150 3.1自動校對 150 3.1.1讀取Word文檔 150 3.1.2ARPA文件格式 151 3.1.3使用KenLM語言模型工具包 157 3.1.4拼寫糾錯 161 3.1.5模糊匹配問題 162 3.1.6正確詞表 172 3.1.7英文拼寫檢查 173 3.1.8中文拼寫檢查 174 3.2句子結構分析 175 3.2.1句法分析樹 175 3.2.2依存文法 180 3.2.3中文依存文法 180 3.2.4英文依存文法 185 3.2.5機器學習的方法 196 3.3本章小結 196 第4章文檔排重 197 4.1相似度計算 197 4.1.1夾角余弦 198 4.1.2最長公共子串 203 4.1.3同義詞替換 205 4.2SimHash文檔排重 206 4.3本章小結 213 第5章信息提取 214 5.1指代消解 214 5.2關鍵詞提取 216 5.2.1關鍵詞提取的TF-IDF算法 216 5.2.2textrank算法 218 5.2.3從網頁中提取關鍵詞 221 5.3從互聯網提取信息 222 5.4從日期字符串提取信息 223 5.5本章小結 223 第6章自動摘要 224 6.1自動摘要技術 224 6.1.1英文文本摘要 226 6.1.2中文文本摘要 229 6.1.3基于篇章結構的自動摘要 231 6.1.4句子壓縮 231 6.2評測 232 6.3本章小結 233 第7章文本分類 234 7.1樸素貝葉斯 235 7.2TensorFlow實現文本分類 240 7.3本章小結 242 第8章情感分析 243 8.1情感詞 246 8.1.1確定詞語的褒貶傾向 246 8.1.2匹配情感詞 247 8.2情感識別 248 8.3本章小結 248 第9章語音識別 249 9.1語音信號處理 249 9.1.1WAV文件格式 249 9.1.2語音活動檢測 250 9.2JSGF語言模型 251 9.3DeepSpeech語音識別引擎 253 9.4強制對齊 254 9.5本章小結 256 第10章開發聊天機器人 257 10.1問答系統 257 10.1.1問句類型 258 10.1.2答案提取 259 10.2AIML聊天機器人 259 10.3意圖 261 10.4使用DeepPavlov構建對話系統 266 10.5本章小結 267 第11章機器翻譯 268 11.1語言檢測 268 11.2信道模型 268 11.3詞表 269 11.4詞義消歧 270 11.5詞對齊 271 11.6神經網絡機器翻譯 276 11.7機器翻譯的評價 286 11.8本章小結 286 后記 287 參考文獻 288 參考網址 288 自然語言處理技術在構建智能社會中發揮越來越重要的作用。本書介紹如何學習和使用流行的Python編程語言開發自然語言處理應用。主要內容包括面向自然語言處理開發的Python編程語言入門,使用Python開發中文分詞,實現Word文檔自動校對基礎,文本相似度計算和排重的原理與實現,文本摘要的原理與實現,問答式聊天機器人算法與代碼實現、機器翻譯技術及其實現與評測。本書是獵兔搜索技術在Python自然語言處理領域的實際應用。
自然語言處理(Natural Language Processing,NLP)指用計算機對自然語言信息進行處理的方法和技術。
NLP技術的典型應用包括自動語音識別(Automatic Speech Recognition)、機器翻譯(Machine Translation)、自動摘要(Text Summarization)、信息抽取(Information Extraction)、情感分析(Sentiment Analysis)、聊天機器人(Chatter Bot)等。 在包括自動語音識別、文本校對、機器翻譯在內的一些自然語言處理應用中,出現越來越多的開源Python代碼。 結合獵兔搜索在自然語言處理相關領域10多年的研發、實踐和教學經驗,本書嘗試用易懂的方式介紹使用Python編程語言解決NLP相關問題。 本書第1章介紹開發自然語言處理應用可以采用的Python開發環境及其相關技術基礎;第2章介紹中文分詞原理與命名實體識別;第3章介紹文檔分析及自動校對方法;第4章介紹文本相似度計算與文檔排重;第5章介紹信息提取及關鍵詞提取;第6章介紹自動摘要與評測;第7章介紹文本分類;第8章介紹情感分析;第9章介紹語音識別應用開發;第10章介紹聊天機器人開發;第11章介紹機器翻譯及自動評價。 本書中的一些內容和現有的一些開源項目spaCy等共同成長和發展。本書相關的參考軟件和代碼在讀者QQ群777171593的附件中可以找到。一些具體的細節也可以在讀者QQ群或者微信群討論。由于作者水平有限,錯漏之處敬請直接和作者聯系。 感謝早期合著者、合作伙伴、員工、學員、讀者的支持,給我們提供了良好的工作基礎。就像玻璃容器中的水培植物一樣,這是一個持久可用的成長基礎。技術的融合與創新無止境。歡迎一起探索。 隨著可獲得語音和文本數據的日益增多,自然語言處理技術在生產和生活中發揮越來越重要的作用。 本書適合需要具體實現自然語言處理應用的開發人員或者對人工智能等相關領域感興趣的讀者參考,同時獵兔搜索技術團隊已經開發出本書配套的培訓課程和商業軟件。 編者 |