-- 會員 / 註冊 --  
 帳號:
 密碼:
  | 註冊 | 忘記密碼
3/26 新書到! 3/19 新書到! 3/14 新書到! 12/12 新書到!
購書流程Q & A站務留言版客服信箱
3ds MaxMayaRhinoAfter EffectsSketchUpZBrushPainterUnity
PhotoShopAutoCadMasterCamSolidWorksCreoUGRevitNuke
C#CC++Java遊戲程式Linux嵌入式PLCFPGAMatlab
駭客資料庫搜索引擎影像處理FluentVR+ARANSYS深度學習
單晶片AVROpenGLArduinoRaspberry Pi電路設計CadenceProtel
HadoopPythonStm32CortexLabview手機程式AndroidiPhone
可查書名,作者,ISBN,3dwoo書號
詳細書籍分類

深度學習圖像搜索與識別

( 簡體 字)
作者:潘攀類別:1. -> 程式設計 -> 深度學習
   2. -> 教材 -> 數位影像處理
譯者:
出版社:電子工業出版社深度學習圖像搜索與識別 3dWoo書號: 54330
詢問書籍請說出此書號!

缺書
NT售價: 545

出版日:3/1/2021
頁數:228
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 版 )
加入購物車 加到我的最愛
(請先登入會員)
ISBN:9787121407499
作者序 | 譯者序 | 前言 | 內容簡介 | 目錄 | 
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證)
作者序:

譯者序:

前言:

推薦序1
自20世紀90年代末以來,圖像搜索,即基于圖像內容的圖像檢索,在計算機視覺領域吸引了廣泛的關注,研究人員展開了大量的研究。圖像搜索的研究工作中一個核心問題就是如何有效地表征圖像的視覺內容,使得在給定檢索圖像的情況下,具有相似物體或視覺表現的圖像在表征空間的距離較近,反之,視覺內容不相似的圖像則距離較遠。
在深度學習技術被廣泛應用之前,業界嘗試了很多基于傳統視覺技術的方法。傳統的方法一般依賴人工設計的視覺特征,但此種特征通常無法有效地表征自然界中多樣的視覺內容,導致在圖像搜索時通常效果不佳。與此不同的是,深度學習,準確而言是深度特征學習,能自動從數據中挖掘并學習到圖像的緊致視覺表征,這種表征可以同時描述圖像的低層結構和高層語義信息,從而能更加有效地處理多樣的視覺內容。
在幾十年的艱難求索之后,深度學習的成功應用終于給圖像搜索領域帶來了新的生機。如今,圖像搜索已經滲透到人們的日常生活中。比如阿里巴巴的拍立淘產品,能夠讓用戶通過對商品拍照就輕松地找到相同或者相似的商品,這極大地方便了人們的日常購物。
雖然深度學習是圖像搜索在多種場景的實際應用中取得較好效果的關鍵技術,但是要搭建一個成功有效的圖像搜索系統還需要很多方法和技巧,這正是本書所要闡述的。本書詳細介紹了圖像處理和計算機視覺的核心算法模塊,如目標檢測、圖像分類和圖像分割等。圖像搜索系統在實際場景中能穩定可靠地運行,離不開本書列出的每一個技術模塊。本書也包含了一些深度學習的基礎學習材料,尤其是卷積神經網絡在大規模圖像搜索和識別中的應用。
雖然市面上有很多關于深度學習的資料,但無論是入門介紹還是深入講解的,大部分很少談及大規模圖像搜索和識別的重要技巧。和很多的研究論文不一樣,本書深入闡述了大規模圖像搜索工程系統的核心模塊——向量檢索。如果沒有一個穩定的、大規模的向量檢索系統,大規模的圖像搜索就很難在實際中應用。因為一個用戶查詢可能會花費幾分鐘甚至幾小時的時間,這通常取決于查詢庫的大小。在本書的最后,作者以阿里巴巴圖像搜索和識別系統拍立淘為應用示例,介紹了這些算法在實際產品中是如何實現、配合和部署的。
作者不僅在書中介紹了大規模圖像搜索和識別的相關基礎技術知識,作為拍立淘的創始人和負責人,他還分享了成功構建圖像搜索和識別系統的經驗,這就是本書獨一無二的地方。
金榕
阿里巴巴集團副總裁,達摩院副院長

推薦序2
基于圖像內容的搜索,也就是Content Based Image Retrieval(CBIR)是一個有著悠久研究歷史,需要跨越圖像理解、機器學習和搜索引擎等技術的交叉研究方向。
首先很高興看到這本圍繞最新深度學習技術的圖像搜索應用實踐之作問世。經過6年之久的持續打磨,阿里巴巴的視覺算法團隊在超大規模圖像搜索方向取得了引人注目的成績。
回顧阿里巴巴以圖搜圖技術的演進過程,在超大規模分類(Extreme Classification)、領域自適應的表征學習、端側高效的檢測和分割、高維向量空間索引,以及多模態表征融合等一系列課題上都取得了實質性的突破,并在實際的業務系統中發揮了重要作用。整本書圍繞圖像搜索技術,從底層的視覺感知、向量表征到高維向量空間索引都進行了體系性的介紹,相信本書無論對于初學圖像搜索的學生,還是對于希望在圖像搜索領域深耕的研發人員都將大有裨益,也期待更多優秀的成果應運而生。
本書基本按照構建一個圖像搜索系統所必備的技術能力逐一展開系統性的介紹,詳盡地介紹近年來具有代表性的工作并給出清晰的指引,其中涉及的核心模塊有:
第一,原始圖像集合的結構化理解,從單標簽/多標簽分類,到針對圖像細粒度分類模型的建立,兼顧圖像全局信息和局部細節的表征模型構建,書中對近年來具有代表性的工作做了詳細的介紹。
第二,針對查詢圖與數據庫圖的有效距離度量的表征學習,系統性地介紹了基于分類識別和度量學習的特征學習方法,基本涵蓋了目前業界有代表性的工作。
第三,高維向量空間索引是圖像搜索引擎所必備的核心模塊,本書圍繞近鄰和近似近鄰方法,對近幾年具有代表性的工作做了細致的闡述,并且給出了不同索引方法在系統建設層面的優缺點,供研發人員參考。
第四,構建一個高價值圖像搜索系統所要解決的一個問題是,如何能夠從圖中捕捉和匹配用戶興趣點,這背后需要進一步深化對圖像內容細節的理解。毋庸置疑,圖像檢測和分割技術是不可或缺的能力,是促進圖像搜索系統實現交互智能的關鍵組成部分。本書系統介紹了近年來檢測和分割技術方向的最新進展。
第五,在圖文理解章節,介紹了多模態領域中圖像搜索系統的一些學術和工業界有代表性的工作,起到拋磚引玉的作用。在視頻為主流消費內容的時代,多模態領域的研究是一個重要的方向。有理由相信,未來會有大量工作圍繞如何突破多模態融合、多模態映射、多模態對齊、多模態表征以及多模態學習這五個關鍵課題展開。
圖像/視頻搜索雖然是一個有很長研究歷史的技術方向,但仍然有很多值得我們思考和挑戰的問題,比如如何構建任意物體的實例搜索能力,如何解決搜索結果的可解釋性(Scene Graph Understanding),如何解決多模態交互、多模態匹配和多模態排序,如何在系統層面解決索引表征模型的低成本構建和更新,這些都有待同人持續地研究并在實際應用領域開花結果。
徐盈輝
阿里巴巴集團研究員,達摩院機器智能技術視覺技術負責人



近些年,隨著深度學習技術的發展,以及GPU和云計算等運算力的增強,計算機視覺技術逐漸進入實用階段。無論是在電商、安防、娛樂,還是在醫療、自動駕駛等領域,計算機視覺技術都扮演著重要的角色。計算機視覺技術是一個很廣的題目,涵蓋圖像搜索和識別、視頻理解、三維視覺等領域。圖像搜索和識別是計算機視覺里一個非常重要且基礎的題目。在深度學習的推動下,圖像搜索和識別的精度和效率都有了極大提升,使其不僅在學術圈非常火熱,在工業界也引人注目。
在阿里巴巴廣闊的商業和數據生態的發展中,圖像搜索和識別的技術研發與商業化落地一直密不可分。比如拍立淘利用圖像搜索和識別技術,幫助淘寶、天貓、AliExpress、Lazada等電商App的用戶在移動端通過拍照就能找到相同或相似的商品,從而方便購物;比如在線下新零售領域,阿里巴巴研發了人的追蹤和空間定位、貨架商品SKU識別等技術,以推動商場、超市、酒店的人—貨—場數字化,并在此基礎上做進一步的商業分析。在安防領域,阿里巴巴研發了人和車輛的搜索和識別等技術,幫助識別城市交通事故、判斷人流軌跡以及匯總交通數據樣本等。
2014年初我加入阿里巴巴。兩個月之后,阿里巴巴圖像搜索和識別產品拍立淘啟動,我非常有幸成為算法和項目負責人,見證了拍立淘從誕生到發展的過程。從拍立淘2014年首次上線開始,我們不斷打磨產品/工程/算法,以給用戶提供更精準和更高品質的搜索結果,至今,它已經成為每天的獨立訪客數超過兩千萬的應用。對于拍立淘,我們從第一天就使用深度學習技術來進行算法研發和系統設計。這些年,隨著拍立淘業務的發展,自己和團隊也在基于深度學習的圖像搜索和識別領域不斷學習、積累和創新。
相比2014年初,現在學習技術的條件好了很多。arxiv.org和各個學術會議上層出不窮的論文、深度學習的多種開源框架,以及開源社區上的各種代碼,都極大地降低了技術學習和研發的成本。但也因為現在是一個知識大爆炸的時代,初學者會感覺無從下手。僅CVPR2019就收錄了1294篇論文,如果每天看3篇,全部看完也需要大概一年多的時間。豐富的信息在提供便利的同時,給信息的篩選和迅速掌握帶來了一些困難。
當電子工業出版社的劉皎編輯聯系我寫一本圖像搜索和識別的書時,“回歸基礎”四個字首先浮現在我的腦海。本書對構成圖像搜索和識別系統的各個算法基礎模塊做了介紹,并在最后一章以拍立淘為例說明了各個模塊是怎樣一起工作的。對于每個算法模塊,本書不僅深入淺出地解釋算法的工作原理,還對算法背后的演進機理和不同方法的特點進行了說明,在第2至第8章最后均提供了經典算法的PyTorch代碼和相關參考資料。因此,本書既適合圖像搜索和識別領域的初學者,也適合在某個單一任務方面有經驗但是想擴充知識面的讀者。
本書的寫作過程耗時一年,在這期間拍立淘的技術和業務都取得了不錯的增長。感謝公司對我寫書的支持,感謝拍立淘算法團隊在技術討論中不斷幫助我提升技術水平。感謝謝晨偉、趙黎明、趙康、張嚴浩、張迎亞、王彬、鄭?在本書寫作和修改過程中的幫助。感謝我的父母、愛人和女兒一直以來的支持。
當下的計算機視覺技術無疑是AI浪潮中火熱的題目,廣受關注。視覺技術的滲透,既可能改造傳統商業、帶來新的商業機會,也可能創造全新的商業需求和市場。好的視覺技術不僅需要有好的方法指引,還需要在實際場景中形成數據閉環,并不斷打磨。未來的計算機視覺技術一定是理論探索和數據實踐的共同推進。希望本書能拋磚引玉,給學術界和工業界提供一些輸入,從而共同推進計算機視覺技術的發展。學海無涯,個人的知識有限,書中如有疏漏,還請各位讀者見諒和指正。
潘攀(啟磐)
阿里巴巴集團資深算法專家
2020年6月于北京
內容簡介:

圖像搜索和識別是計算機視覺領域一個非常重要且基礎的題目。本書對構成圖像搜索和識別系統的各個算法基礎模塊一一做了介紹,并在最后一章以拍立淘為例說明了各個模塊是怎樣一起工作的。針對每個算法模塊,本書不僅深入淺出地解釋了算法的工作原理,還對算法背后的演進機理和不同方法的特點進行了說明,在第2至第8章最后均提供了經典算法的PyTorch代碼和相關參考資料。本書既適合圖像搜索和識別領域的初學者,也適合在某個單一任務方面有經驗但是想擴充知識面的讀者。
目錄:

1 概述 1
1.1 圖像搜索與識別概述 1
1.2 圖像搜索與識別技術的發展和應用 3
1.3 深度學習與圖像搜索和識別 4
1.4 本書結構 6
2 深度卷積神經網絡 8
2.1 概述 8
2.1.1 深度學習背景 8
2.1.2 深度卷積神經網絡 9
2.2 CNN基礎操作 11
2.2.1 卷積操作 11
2.2.2 池化操作 12
2.2.3 全連接層 13
2.2.4 激活層 14
2.2.5 批歸一化層 14
2.2.6 小結 16
2.3 常見的CNN模型結構 16
2.3.1 網絡結構超參數 17
2.3.2 單分支網絡結構 19
2.3.3 多分支網絡結構 24
2.3.4 小結 38
2.4 常見目標損失函數 38
2.5 本章總結 40
2.6 參考資料 40
3 圖像分類 43
3.1 概述 43
3.2 單標記分類 44
3.2.1 常用數據集及評價指標 44
3.2.2 損失函數 45
3.2.3 提升分類精度的實用技巧 47
3.2.4 基于搜索的圖像分類 50
3.3 細粒度圖像分類 51
3.3.1 概述 51
3.3.2 基于部件對齊的細粒度分類方法 52
3.3.3 基于高階特征池化的細粒度分類方法 55
3.3.4 小結 56
3.4 多標記圖像分類 56
3.4.1 概述 56
3.4.2 baseline:一階方法 58
3.4.3 標記關系建模 59
3.4.4 小結 60
3.5 代碼實踐 61
3.6 本章總結 63
3.7 參考資料 63
4 目標檢測 66
4.1 概述 66
4.2 兩階段目標檢測算法 68
4.2.1 候選框生成 69
4.2.2 特征抽取 71
4.2.3 訓練策略 73
4.2.4 小結 76
4.3 單階段目標檢測算法 76
4.3.1 YOLO算法 76
4.3.2 SSD算法 78
4.3.3 RetinaNet算法 81
4.3.4 無錨點框檢測算法 83
4.3.5 小結 87
4.4 代碼實踐 88
4.5 本章總結 91
4.6 參考資料 92
5 圖像分割 95
5.1 概述 95
5.2 語義分割 96
5.2.1 概述 96
5.2.2 全卷積神經網絡 97
5.2.3 空洞卷積 99
5.2.4 U-Net結構 100
5.2.5 條件隨機場關系建模 101
5.2.6 Look Wider to See Better 103
5.2.7 Atrous Spatial Pyramid Pooling算法 104
5.2.8 Context Encoding for Semantic Segmentation 104
5.2.9 多卡同步批歸一化 107
5.2.10 小結 107
5.3 實例分割 108
5.3.1 概述 108
5.3.2 FCIS 109
5.3.3 Mask R-CNN 111
5.3.4 Hybrid Task Cascade框架 113
5.3.5 小結 115
5.4 代碼實踐 115
5.5 本章總結 120
5.6 參考資料 120
6 特征學習 124
6.1 概述 124
6.2 基于分類識別的特征訓練 126
6.2.1 Sigmoid函數 127
6.2.2 Softmax函數 128
6.2.3 Weighted Softmax函數 129
6.2.4 Large-Margin Softmax函數 130
6.2.5 ArcFace函數 132
6.2.6 小結 133
6.3 基于度量學習的特征訓練 134
6.3.1 Contrastive損失函數 135
6.3.2 Triplet損失函數 137
6.3.3 三元組損失函數在行人再識別中的應用 139
6.3.4 Quadruplet損失函數 140
6.3.5 Listwise Learning 141
6.3.6 組合損失函數 142
6.3.7 小結 142
6.4 代碼實踐 143
6.5 本章總結 143
6.6 參考資料 144
7 向量檢索 147
7.1 概述 147
7.2 局部敏感哈希算法 149
7.2.1 預處理 150
7.2.2 搜索 151
7.2.3 小結 152
7.3 乘積量化系列算法 152
7.3.1 PQ算法 153
7.3.2 IVFPQ算法 155
7.3.3 OPQ算法 156
7.3.4 小結 157
7.4 圖搜索算法 157
7.4.1 NSW算法 158
7.4.2 Kgraph算法 161
7.4.3 HNSW算法 163
7.4.4 圖搜索算法實驗對比 165
7.4.5 小結 165
7.5 代碼實踐 166
7.6 本章總結 167
7.7 參考資料 168
8 圖文理解 171
8.1 概述 171
8.2 圖文識別 172
8.2.1 概述 172
8.2.2 數據集和評測標準 174
8.2.3 特征融合方法 176
8.2.4 小結 182
8.3 圖文搜索 182
8.3.1 概述 182
8.3.2 數據集和評測標準 184
8.3.3 Dual Attention Networks 185
8.3.4 Bottom-Up Attention 187
8.3.5 圖文搜索的損失函數 189
8.3.6 小結 190
8.4 代碼實踐 191
8.5 本章總結 194
8.6 參考資料 194
9 阿里巴巴圖像搜索識別系統 197
9.1 概述 197
9.2 背景介紹 198
9.3 圖像搜索架構 200
9.3.1 類目預測模塊 200
9.3.2 目標檢測和特征聯合學習 201
9.3.3 圖像索引和檢索 205
9.4 實驗和結果分析 207
9.5 本章總結 210
9.6 參考資料 211
序: