3dwoo大學簡體電腦書店
人機交互中的體態語言理解
( 簡體 字)
作者:徐光祐,陶霖密,邸慧軍類別:1. -> 程式設計 -> 綜合
出版社:電子工業出版社人機交互中的體態語言理解 3dWoo書號: 39440
詢問書籍請說出此書號!
有庫存
NT售價: 640
出版日:8/1/2014
頁數:508
光碟數:0
站長推薦:
印刷:黑白印刷語系: ( 簡體 字 )
ISBN:9787121236259 加入購物車加到我的最愛 (請先登入會員)
(簡體書上所述之下載連結耗時費功, 恕不適用在台灣, 若讀者需要請自行嘗試, 恕不保證, 繁體書的下載亦請直接連絡出版社)
第1章 以人為中心的人機交互與體態語言理解 1
1.1 以人為中心的人機交互 1
1.1.1 普適計算和背景智能 3
1.1.2 物理—信息對偶空間 4
1.1.3 隱式人機交互和覺察上下境計算 11
1.2 非語言行為和體態語言 16
1.2.1 人際通信中的非語言行為 16
1.2.2 體態語言傳遞什么樣的信息 19
1.2.3 體態語言與語言通信的關系 20
1.2.4 體態語言的信息集群 21
1.3 非語言通信與社交行為 22
1.3.1 非語言行為線索與社交信號 24
1.3.2 面對面的社交行為 26
1.4 社交信息處理和社交智能 27
1.4.1 社交能力與動作理解 27
1.4.2 社交信息處理 28
1.4.3 社交智能 30
1.5 以人為中心的人機交互正在走向現實 32
1.5.1 “人—機器人交互” 32
1.5.2 計算機為媒介的遠程交互系統 35
1.5.3 背景智能和智能輔助生活 38
參考文獻 38
第2章 動作理解的心理和神經機制基礎 48
2.1 動作理解中所涉及的問題 49
2.2 共同編碼理論簡介 54
2.3 動作的表示和內容 59
2.3.1 動作是什么和動作的產生 60
2.3.2 運動想象是進入動作表示階段的窗口 61
2.3.3 動作意圖、規劃、準備和執行之間的關系 65
2.3.4 人類視覺系統中的子系統 66
2.3.5 動作表示內容 67
2.4 鏡面神經系統和它在動作識別中的作用 69
2.4.1 猴子和人體中的鏡面神經系統 70
2.4.2 鏡面神經系統在動作識別和理解中的功能 71
2.5 動作的共享表示 75
2.5.1 動作表示的不同層次 75
2.5.2 語義表示和實用表示 76
2.5.3 共享的是感知表示還是運動表示 77
2.5.4 動作表示的方式 78
2.6 人體與物體的交互與可承受性 80
2.6.1 Gibson的可承受性理論 81
2.6.2 可承受性與動作理解 83
2.6.3 可承受性和與物體交互 87
2.7 人類動作理解中的功能機理和神經網絡 89
2.7.1 視覺理解理論簡介 90
2.7.2 對基于計算機視覺的動作理解的啟發 92
參考文獻 95
第3章 基于覺察上下境計算的體態語言理解 103
3.1 體態語言理解問題的本質 104
3.1.1 體態語言是人類的自然行為 104
3.1.2 體態語言線索、體態語言信號和體態語言 105
3.1.3 體態語言理解需要覺察上下境計算的支持 107
3.2 體態語言線索檢測 108
3.3 體態語言信號檢測 110
3.4 上下境和上下境模型 112
3.4.1 上下境信息在體態語言理解中的作用 112
3.4.2 上下境的定義 113
3.4.3 上下境模型 116
3.5 覺察上下境計算與系統 119
3.5.1 覺察上下境系統組成 121
3.5.2 覺察上下境系統的應用和性能 124
3.5.3 人體行為理解的研究現狀和存在問題 125
3.6 視覺信息處理中上下境的影響 128
3.6.1 人類視覺系統中上下境影響的研究 129
3.6.2 基于上下境的計算機視覺處理 132
3.6.3 覺察上下境的計算機視覺處理 137
3.7 基于覺察上下境計算的體態語言理解 139
3.7.1 基于動態上下文模型的群體交互行為分析 139
3.7.2 基于覺察上下境計算的人體日常活動識別和理解 142
3.7.3 支持覺察上下境計算的分布式多模態信息處理系統 145
參考文獻 146
第4章 基于廣義彈性運動跟蹤的人體運動分析 155
4.1 研究現狀 157
4.1.1 彈性運動跟蹤的研究現狀以及本章研究思路的提出 157
4.1.2 與廣義彈性運動跟蹤相關的研究工作 158
4.2 基礎彈性運動模型 159
4.2.1 彈性運動的纖維束表示 159
4.2.2 基于纖維束的融合思路 160
4.2.3 混合的變換隱馬爾科夫模型(MTHMM) 161
4.2.4 模型的推理算法 165
4.2.5 實驗結果與討論 170
4.2.6 小結 176
4.3 具有分類機制的彈性運動模型 177
4.3.1 彈性運動的分段纖維束表示以及分類機制的思路 177
4.3.2 具有分類機制的混合變換隱馬爾科夫模型(MTHMM-C) 179
4.3.3 模型的推理算法 181
4.3.4 實驗結果與討論 187
4.3.5 小結 193
4.4 廣義彈性運動跟蹤的應用 194
4.4.1 (半)自動建模 194
4.4.2 人頭姿態估計 195
4.4.3 基于廣義彈性運動跟蹤的運動描述 196
參考文獻 198
第5章 人體定位與體態估計 201
5.1 基于多攝像機的人體粗定位 202
5.1.1 多攝像機環境下的幾何約束 203
5.1.2 多攝像機人體定位算法 205
5.1.3 實驗結果 207
5.1.4 小結 211
5.2 多攝像機下人體頭肩部輪廓跟蹤與朝向估計 212
5.2.1 多視角輪廓約束 213
5.2.2 頭肩部輪廓的形狀表示和概率模型 215
5.2.3 多視角聯合跟蹤模型 224
5.2.4 度量表示與圖像度量模型 229
5.2.6 實驗結果分析 230
5.2.7 小結 233
5.3 基于梯度朝向直方圖的頭部姿勢估計 234
5.3.1 基于梯度朝向直方圖的二階統計特征 237
5.3.2 線性子空間方法 238
5.3.3 實驗結果 239
5.3.4 小結 248
參考文獻 249
第6章 可容忍視角、位置變化的人體動作識別 251
6.1 基于時空表示的動作識別研究現狀 251
6.1.1 基于多視角樣本 255
6.1.2 基于不變量表示和不變量約束 256
6.2 容忍視角變化的體態表示——包容形狀 258
6.2.1 動作識別中的視角變化 258
6.2.2 預備分析 259
6.2.3 包容形狀的定義和推導 260
6.2.4 動作識別實驗 263
6.2.5 非正交下雙攝像機配置下的包容形狀 268
6.3 容忍位置變化和遮擋的自適應包容形狀 271
6.3.1 容忍位置變化的多攝像機系統 272
6.3.2 容忍遮擋的自適應包容形狀 279
6.4 動作識別系統 284
6.4.1 動作識別系統流程 284
6.4.2 人體檢測和特征提取 285
6.4.3 體態表示和數據預處理 286
6.5 結論和展望 291
參考文獻 292
第7章 日常生活動作識別與行為分析 295
7.1 基于計算機視覺的日常活動(ADL)識別和理解 296
7.1.1 ADL識別和理解所面臨的技術挑戰 296
7.1.2 ADL識別方法研究的現狀 300
7.1.3 基于計算機視覺的ADL識別的關鍵課題 305
7.1.4 日常生活行為理解 311
7.1.5 上下境信息的建模和使用 316
7.2 容忍視角和距離變化的動作識別 317
7.2.1 分層的動作識別 318
7.2.2 多視角數據庫IXMAS 319
7.2.3 關注“焦點運動”的動作識別 321
7.2.4 特征提取與動作表示 323
7.2.5 基于VSI-Surf表示的動作識別方法 332
7.3 支持覺察上下境計算的活動分析模型 336
7.3.1 日常生活場景中的上下境 338
7.3.2 覺察上下境的行為分析模型 341
7.4 基于ADL-DBN模型的行為在線推理 347
7.4.1 研究平臺與應用場景 348
7.4.2 底層視覺特征的提取 350
7.4.3 環境上下境 353
7.4.4 多層次動態貝葉斯網模型 354
7.4.5 實驗結果 359
7.5 結論與展望 364
參考文獻 365
第8章 基于動態上下境模型的群體行為分析 376
8.1 群體交互行為分析的關鍵問題及研究現狀 376
8.1.1 會議群體動作分析中的關鍵問題 377
8.1.2 會議動作自動分析的研究現狀 380
8.1.3 基于動態上下境模型的會議動作自動分析 382
8.2 面向群體交互行為分析的動態上下境模型 383
8.2.1 群體交互行為分析中的上下境定義 384
8.2.2 動態上下境的分層結構 385
8.2.3 動態上下境的模型的結構 388
8.2.4 動態上下境模型的運行機制 390
8.3 覺察上下境的多目標檢測與跟蹤算法 391
8.3.1 方法概述 393
8.3.2 人體檢測 396
8.3.3 人體跟蹤 399
8.3.4 高層上下境推理 402
8.3.5 個體局部特征檢測 403
8.3.6 實驗結果 404
8.4 事件驅動的多層次DBN模型 410
8.4.1 群體交互場景中的事件檢測 411
8.4.2 事件驅動的多層次DBN模型 412
8.4.3 實驗結果 420
8.5 基于動態上下境的多層次事件自適應檢測方法 426
8.5.1 群體交互場景中的事件層次與處理粒度 427
8.5.2 多層次事件自適應檢測方法 428
8.5.3 多層次事件自適應檢測方法在會議分析中的應用 433
8.6 小結 445
參考文獻 446
第9章 支持覺察上下境計算的分布式多模態信息系統 451
9.1 引論 451
9.2 面向應用的服務共享模型(A-SSM) 452
9.2.1 模型總體框架 452
9.2.2 模型組成定義 453
9.2.3 基于本體論的計算服務資源管理 455
9.3 基于服務質量(QoS)的計算服務資源選擇策略 458
9.3.1 QoS計算參考公式 458
9.3.2 基于層次分析法(AHP)理論估計屬性權重 459
9.3.3 計算服務資源選擇算法 460
9.4 適應服務共享模型的覺察上下境計算 461
9.4.1 覺察上下境計算的“基元” 461
9.4.2 覺察上下境計算算法的“基元”化組織 466
9.5 分布式覺察上下境計算系統的總體結構設計 467
9.6 分布式處理的總體結構設計 468
9.6.1 數據/信息處理分析 468
9.6.2 服務進程設計 469
9.7 通用化平臺的實現 471
9.8 日常行為理解與隱式交互實例研究 473
9.8.1 系統測試實驗 473
9.8.2 隱式交互實驗環境及硬件配置 475
9.8.3 實驗數據的采集 476
9.8.4 實驗數據的標注 479
9.8.5 知識輔助行為推理方法的實施 480
9.9 小結 482
參考文獻 483
附錄A 三維圓柱人體模型 486
附錄B 攝像機偏離引起的包容形狀誤差分析 488
以人為中心的人機交互,要求人機交互需要從目前占主導的,由用戶直接操作進行的“顯式交互”方式擴展到通過體態語言進行的“隱式交互”方式。體態語言理解是其中的關鍵問題。
本書論述了與此相關的心理學和腦神經學基本概念,通過多模態信息處理來識別和理解體態語言是從非結構化的多模態傳感器數據到高層語義的多層次特征檢測和推理過程,也是一個約束不充分的逆向求解問題。本書對覺察上下境計算支撐的視覺處理和理解做了系統的論述,同時也介紹了上下境定義、上下境模型和覺察上下境計算的基本概念。主要包括:基于廣義彈性運動跟蹤的人體動作分析,三維空間人體定位與體態估計,容忍視角和距離變化的人體動作識別,日常生活中動作(ADL)識別和理解,基于動態上下境模型的群體交互行為分析,支持覺察上下鏡計算的分布式多模態信息處理系統。典型應用是面向老人生活和健康看護的“日常生活動作識別”(ADL),和以會議自動分析為代表的群體行為分析。
本書創新性強,內容系統、全面,深入淺出。目前國內相關領域的理論著作尚屬于空白,在國際上也還缺乏系統的理論。本書的出版將對我國人機交互領域、體態語言理解的理論研究和學科發展具有重要的參考價值和指導意義。

序一
半個多世紀以來,隨著計算機技術的迅猛發展以及性能的不斷提高,與其相關的人機接口(人機界面、輸入輸出模式)也產生了巨大的變化。主機時代,當一臺計算機被多個用戶分享時,其工作程式是這樣的,用戶按預先約定的時間進入機房,把指令(程序)輸入計算機,并等待機器給出計算的結果。這一切在當時都是通過打在穿孔紙帶或者穿孔卡片上的符號(信息)實現的,當時把完成此項任務的設備,通稱為主機之外的“外部設備”。進入臺式機時代,又稱PC(個人計算機)時代后,一人用一臺計算機,人機接口有了變化。用戶的指令通過鍵盤、鼠標與(屏幕)視窗輸入,從屏幕顯示或打印機打印輸出計算的結果。當我們使用手持式平板電腦,進入所謂移動服務時代時,人機接口又進化成為觸摸式屏幕。人機接口的巨大變化,固然給使用者帶來越來越便捷的操作方法。但遺憾的是,這些變化都僅僅是表面上的,而通過接口對計算機進行操作的模式并沒有改變。在這類接口模式下,人們總是預先定義好一批計算機容易識別的指令,并通過不同的接口(穿孔紙帶、鍵盤、觸屏等)輸入機器,計算機嚴格地執行這些指令,最后輸出預期的結果。這種輸入輸出的模式對計算機來講是很方便的,因為機器很容易識別這些約定好的指令。但這種方式對用戶并不方便,他們需要事先熟悉指令的含義,學會如何操作;此外,由于機器只能執行事先定義的指令,因而不便于用戶與機器的交互。總之,這種以計算機為中心的人機接口,普通百姓很難掌握。
網絡時代,當千百萬臺計算機被網絡連接起來,數以千萬計的用戶涌向計算機的終端時,計算機真正進入了千家萬戶,人機關系也由此發生了質的變化。通過網絡(計算機)可以提供多種多樣的信息服務,如信息檢索、購物、娛樂、聊天等。為了保證服務質量,并滿足廣大普通用戶的需要,以機器為中心的人機接口需要做出根本性的變革,變為“以人為中心”的人機交互模式。在新的模式下,機器需要準確把握用戶的意圖、需求與興趣,從而提供個性化的服務。此外,在網絡環境下,計算機不僅需要與用戶交互,用戶還將通過計算機(網絡)實現人際之間的交流與互動。換句話講,人—機與人—人的交互發生在物理與信息這兩個聯合空間中。
主機與它的接口形影相隨地變化,提出了一個看似“雞與蛋”的難題,即究竟是主機的換代促成接口的變化,還是接口的創新帶來主機的換代?無論怎樣,不容質疑的一點是,人機交互在計算機科技中的地位不斷上升,已經成為它的重要組成部分。本書的出版是及時的,正好滿足了這一日益增長的需求。作者對人機交互的發展趨勢做了如下的闡述:為使人機交互擺脫必須在計算機面前操作的束縛,擴展到人們生活的三維物理空間中去的必要條件是,使三維空間成為“物理—信息對偶空間”,同時把人機交互從單純的顯式人機交互,擴展到包括隱式人機交互。在這些分析的基礎上,作者進一步指出以人為中心的人機交互正在走向現實。
本書圍繞“體態語言理解”的中心展開對人機交互基礎理論與關鍵技術的論述,在此強調一下此書出版的科學意義。20世紀30年代,英國數學家圖靈提出圖靈機(現代計算機的數學模型)的概念時,他用“可計算實數”(Computable Numbers)來定義計算機的可計算性,這清楚地表明,計算機僅是一臺從事數字(符號)機械計算的機器。雖然,隨后人工智能學者們,包括圖靈本人,提出各種機器(計算機)智能的概念,如著名的圖靈測試,那也只是從機器的表觀行為上定義“智能”,與智能的本質并無關系。事實上,在“智能”的框架下,計算機依然只扮演數字計算的角色。正因如此,傳統的計算理論總是避開“語義”這一難題,把理論建立在與“內容無關”(Meaning Independent)的假設之上。然而,當我們討論人機交互時,“語義”卻成為一個繞不開的話題,“體態語言理解”不就是這個話題嗎?當用戶通過語言或者肢體動作表達他的意見、訴求、喜好和愿望時,計算機能否從這些行為中獲得其背后隱含的語義,預測其他用戶對此行為的反應,并評估可能產生的影響?要完成這些任務,計算機至少需要解決三個層面上的問題:第一,識別這些信號,包括語音、圖像、表情、手勢等,可歸結為模式識別問題;第二,識別到這些信號之后,即“聽清”或“看清”這些信號之后,需要發現隱藏在信號背后的語義,如信號發送者的意圖,信號發送端所提供的信息等;第三,受眾對這些信息的反應,以及所產生的影響。回顧傳統信息處理理論的發展歷史,我們可以看到,過去所從事的有關研究工作,都僅集中在解決第一個層面的問題上。以臉部表情理解為例,首先需要了解的是,“他的臉部有何變化(動作)”,嘴唇上翹,還是閉合?眼睛睜開,還是瞇縫?即表情識別問題。即使這樣看似簡單的問題,由于光照、噪聲、陰影與視角等因素的影響,在傳統信息處理理論里,就已經是一個難解的不適定(病態,ill-posed)問題。因此僅就模式識別而言,目前仍有許多難題尚未解決。至于說到“理解”,我們需要解決的科學問題是,依據信息發送者發出的信號,預測和構造他本身以及信息接收者的認知模型。顯然,如果沒有周圍物理與社會環境的信息,沒有用戶心理狀態的知識,僅僅依靠建立在數學模型基礎上的數據處理,是不可能完成這一任務的。本書介紹的上下境模型以及覺察上下境的計算范式,是一個很好的解決方案。該計算范式把從底向上的數據驅動與自頂向下的知識導引結合起來,即將傳統的信息處理與人工智能的方法結合起來。本書匯集了國內外、本書作者及其團隊在這個領域的最新研究成果,從人體定位與體態估計、人體動作識別與分析,一直到群體行為分析、體態語言理解。并結合兩個典型場合,闡述它的解決方案和相關實驗系統。其中一個是,面向會議自動分析的基于動態上下文模型的群體交互行為分析;另一個是,日常生活動作(ADL)識別和理解系統。內容豐富、充實,既有基礎理論與關鍵技術,又有實驗系統與實際應用,理論聯系實際。
目前已有的出版物大多側重于語言通信,對在人際交往中占主導地位的非語言通信,即體態語言缺乏系統論述,為數不多的也僅限于人體動作識別,缺乏對用戶行為的分析和理解。本書雖然僅限于討論體態語言理解,但它所涉及的理論與技術是普適性的,可以推廣和應用到語言通信的分析與理解。
徐光祐教授是清華大學計算機系的資深教授,是我幾十年的同事。20世紀70年代他在外部設備教研組工作,很早就與人機接口打交道。隨著人機接口模式的改變,他及時地調整了研究方向,成為國內從事普適計算、多模態信息處理的先行者之一,在這些領域都有很深的學術造詣和豐富的實踐經驗。這本書匯集了作者及其所領導的團隊十多年來取得的系統科研成果。

中國科學院院士 張鈸
2014年4月于清華大學


序二
隨著計算機進入普適計算時代,體態已成為人機交互的重要形式,被學術界和產業界關注。從生物學、心理學和社會學的角度來描述和解釋體態語言的本質,它是根據人體對外部和內部的刺激集合做出反應時所顯示的體態語言信號,用來理解用戶的交互意圖、態度和情緒。體態語言理解是人機交互領域中的核心技術。
作者徐光祐教授長期從事圖像圖形處理、普適計算和人機交互的研究,圍繞以人為中心的人機交互,作者所在課題組十余年來以多模態信息處理和理解為重點,開展了系統的基礎研究,取了重要科研成果,把人機交互從單純的顯式人機交互,擴展到隱式人機交互,尤其在人機交互的體態語言理解方面,成果突出。
在上述成果基礎上,本書分析了人機交互領域的研究現狀,闡述體態語言的關鍵問題, 不僅對當前人機交互、人工智能、普適計算、計算視覺、環境智能等領域中的共性基本概念給予了清晰的解釋,而且對體態語言理解的相關技術做了較詳盡的論述,同時反映了課題組在技術和算法上的創新成果,提出了“物理—信息對偶空間”理論,給出了隱式人機交互的科學的定義,并論述體態語言識別和理解的關鍵技術和實現方法。本書涉及隱式人機交互的理論、方法和應用,理論有深度,內容全面,對從事隱式人機交互和體態語言理解的同行有很好的參考價值,能推進我國人機交互領域的科研發展。

戴國忠
2014年5月

前 言
在傳統的人機交互模式下,用戶需要在計算機面前,通過對鍵盤,鼠標這樣的設備進行顯式的操作才能得到服務或信息。以人為中心的計算的標志之一是使用戶能在生活的三維物理空間中無需專門的操作,通過隱式人機交互方式得到服務或信息。在人與人之間的人際信息交流(交互)中,人們無意識的非語言行為(non-verbal behavior)—體態語言(body language)傳遞了比語言通信更為豐富的信息,并與語言信息結合傳遞完整的語義。這是隱式人機交互的依據和基礎。因此首要研究的是人際交互中由語言通信和非語言通信組成的通信機制。要在人們生活的物理空間中得到信息服務,還需要使物理空間與通過網絡相互連接的信息空間融合成為一個整體,這就是“物理-信息對偶空間”。從20世紀90年代開始,人機交互研究的重點已經開始轉向計算機支持下的人們相互之間(人際)的通信,也就是說計算機將參與人際交互。因此在人機交互中還需要參照人類的社交行為規范,引入社交智能(social intelligence)。以上這些內容已成為在21世紀中研究和開發人機交互技術的基礎。
基于計算機的體態語言理解是涉及人機交互,計算機視覺,普適計算和人工智能的跨學科研究課題,國內還沒有相關的理論著作,在國際上也還缺乏系統的理論。本書是在作者所在研究組十余年以來結合多項國家重要研究項目,開展跨學科研究的成果總結撰寫而成的。所支撐的創新成果包括:基于混合變換隱馬爾科夫模型(MTHMM)的廣義彈性運動跟蹤,實時三維人體姿勢估計和跟蹤,基于包絡形狀和R變換的體態表示,基于ADL-DBN模型的行為在線推理,事件驅動的多層次動態貝葉斯網絡模型,基于動態上下境的多層次事件自適應檢測方法,動態上下境中群體動作分析等。希望本書能夠給有關同仁提供一些參考,并借此拋磚引玉,推動此領域的理論和方法研究工作。
全書共9章,分析了人機交互領域的技術研究現狀和關鍵問題,圍繞解決體態語言理解中的語義鴻溝,以覺察上下境的視覺計算理論為指導,通過與國內外同領域的技術成果進行廣泛的比對和分析,系統總結了本課題組多年的研究成果,提出了具有創新性的技術和算法。
第1章討論了以人為中心的人機交互、隱式人機交互、非語言通信,以及體態語言及其在人與人之間的交互,即人際交互中的作用。并在此基礎上討論體態語言的識別和理解及在以人為中心的人機交互,其中包括在計算機的社交智能中的作用。
研究表明人類的感知與感覺運動(sensorimotor)機制緊密相關。理解另一個人動作的必要條件是同時在個人內部和個人之間形成閉合的“動作-感知” 回路(action-perception loops)。探索“動作-感知”回路的運行機制是建立識別人體動作的計算機信息系統的理論基礎。為此第2章將討論動作理解的心理和神經機制基礎。
體態語言是人類對外部和內部刺激集合的反應。體態語言理解就是根據觀察到的體態語言線索,所顯示的體態語言信號,來理解用戶的交互意圖,態度和情緒。這是一個約束不充分的逆向求解問題。因此需要應用覺察上下境的視覺處理方法。目前基于上下境信息的計算機視覺算法已受到高度重視,但覺察上下境的視覺處理還沒有受到應有的重視。通過對體態語言理解的研究來推動這方面的研究也是本書的目的。在第3章中將對上述問題進行討論。
從多模態的傳感器數據到人體語言理解這樣的高層語義之間存在巨大的語義鴻溝。需要解決的關鍵問題包括:人體運動分析,動作識別和人體行為理解。第4,5,6,7章中將對這些關鍵技術分別進行討論。
人體運動分析通過檢測和跟蹤獲取關于人體動作的“時-空”信息,是進行體態語言理解的基礎。現有基于高層語義模型的方法難以適應現場人體動作識別時面臨的人體運動和成像條件的多樣性,為此第4章提出基于廣義彈性運動跟蹤的人體運動分析方法。采用自底向上的方式,在不依賴關于人體的特定先驗模型的條件下,從彈性運動的角度分析人體的整體運動規律。
在人機交互應用中,要求在現場、在線地識別人與人以及與周圍物體之間的交互行為。需要解決,“人—物”的空間關系分析(即人與哪些物體發生了交互)以及人體自身動作的識別(即人做了什么)這兩個基本問題。與此相關的關鍵課題是:人體定位以及從粗到細、多層次的的人體體態估計。為了探索新的人體姿勢估計和跟蹤的方法,本書第5章中介紹了基于多攝像機的人體三維空間定位和人體頭肩部的輪廓的三維姿勢估計和跟蹤。通過實時檢測人體三維定位、姿態和三維朝向并按照分層的檢測和推理策略,在上下境信息的指引下實現人體姿勢的實時估計和運動跟蹤。人體動作識別方法若要工作在現場環境下,必須具備處理以下因素:視角變化、位置變化、遮擋的能力。目前還缺乏相應的成熟方法。第6章討論可容忍視角、位置變化的人體動作識別。提出的基于“包容形狀”的表示和相應的動作識別方法,不需要進行對應點匹配并具有良好的容忍視角變化能力。把包容形狀表示與時域中的R變換(R-transform)相結合提出的具有視角和尺度恒常性的人體動作VSI-Surf表示以及分層的識別策略,在多視角動作庫IXMAS的數據上取得了高性能的實驗結果。把上述雙攝像機應用擴展到具有多攝像機的實際工作環境,可一體化解決人體自由運動造成的視角變化、觀察視野受限、遮擋等問題。
體態語言理解是一個綜合性、跨學科的長遠研究課題。目前在人體檢測,動作識別,覺察上下境計算等方面雖然已經開展的很多基礎研究,但離體態語言理解的要求還有較大距離。本書作者所在課題組十余年以來,圍繞兩個具有代表性的典型場景,開展以人為中心的人機交互和體態語言識別和理解的研究,建立了相應的實驗環境,取得了一些有發展前途的研究結果,為進一步的研究打下了良好基礎:(1)智能家居中的老人看護場景下的人體日常生活(Activity of Dairy living, ADL)動作識別與行為分析;(2)會議場景下群體交互行為的在線分析。這兩項應用分別是第7章和第8章的內容。通過這兩章中討論的典型應用場景和實驗環境檢驗和測試了各項相關方法和技術的可行性。
第9章探討將分布式計算結構用于以人為中心計算模式的覺察上下境應用系統的途徑。介紹了支持覺察上下鏡計算的分布式多模態信息系統。
本書全面整理了近年來最新的科研成果,創新性強,內容系統、全面,深入淺出,對從事多媒體信息處理,特別是計算機視覺、人機交互、人工智能和普適計算領域研究的科技工作者來說是很有用的參考書。這本書也適用于研究信息處理,人機交互和人工智能科學的研究生的教材。
本書的作者在研究中長期合作,相互分工配合。徐光祐是總體負責,陶霖密和邸慧軍分別在組織實施和方法探索方面發揮了重要作用。在本書的撰寫中邸慧軍負責第4,5章,陶霖密負責第9章,徐光祐負責其余各章并統稿。
在完成這些項目的教師合作者有陶霖密,史元春。參與這些項目研究,對本書的內容做出貢獻的,有從事人體動作識別和理解的博士后張翔,邸慧軍;博士生,戴鵬、黃飛躍、金國英、董力賡、孫洛、曹媛媛、白雪生、王強、任海兵、彭振云、張輝、謝峰、柳楊華、葉航軍,碩士生,李昕、王焱、朱藍天、宋剛、莊莉、羅明、劉亞等以外,還有參與智能環境和分布式信息系統的博士生,謝偉凱、王國意、董軒民、譚琨、王國建,碩士生,王垚、趙彥鈞等。由于這些同學的刻苦鉆研,開創性的工作和貢獻才使本書的出版成為可能。在此謹向他們表示我們誠摯的感謝。本文在撰寫過程中也參考了很多國內外同行的研究成果和資料,一并向他們表示感謝!
體態語言理解是一個多學科交叉的新興研究課題,同時由于我們的水平有限,書中如有疏漏或錯誤之處,敬請讀者不吝指正。

徐光祐
2014年5月于清華園
pagetop