天天看點

論文學習——《Affective Computing:A Review》關鍵技術的現狀目前的項目目前研究面對的挑戰結論

論文學習——《Affective Computing:A Review》

本文主要介紹了在情感計算方面近些年來的一些關鍵技術,分别從情感語音處理,面部表情,身體姿勢與動作,多模式系統和情感了解和生成這幾個方面進行講述。還介紹了目前世界上一些相關項目,和前沿研究。

關鍵技術的現狀

情感語音處理

在做情感語音處理時所用到的聲學特征是有所不同的,一些研究人員對一些韻律特征進行了分析,例如,音調變量、說話率,等參數被廣泛應用在模式識别方法中的情感識别研究中。例如,Dellaert 使用韻律特征并比較了三個分類器:最大似然貝葉斯分類,核回歸和k-最近鄰在情感識别中的悲傷,憤怒,幸福和恐懼感。 Petrushin 使用語音參數和計算機代理進行情緒識别。 Lee 使用高斯分類條件機率分布和k最近鄰方法進行的liear判别分類将話語分為消極和非消極兩種基本情緒狀态。Yu 使用SVM進行情緒檢測。 據報道平均準确度為73%。尼克提出了情感性語音發聲的感覺模型。

在語音合成産生情緒方面,Mozziconacci在調音方法的基礎上添加了情緒控制參數,進而提高了語音合成的性能。Cahn通過可視化的聲學參數編輯器,通過手動推理實作了情感語音的輸出。近來,關于大型語料庫的想法有了一些進展,坎貝爾完成了一個典型的系統,他用五年的大型語料庫建立了一個富有表現力的語音合成器。Schroeder,Eide生成了一個富有表現力的TTS引擎。Chuang和Tao使用情感關鍵詞和情感觸發詞來生成情感TTS系統。

面部表情

面部表情諸如微笑,點頭之類的可以實作一定的語義功能、傳達感情或者還可以作為對話線索。它與語音處理類似,面部表情的研究包括編碼、識别和生成,方面的工作,例如,Etcoff 通過37行參數化了人臉主要部分的結構,使人們可以大緻分辨出人臉的情感狀态; Ekman建立了面部動作編碼系統。目前,大多數面部特征可以從MPEG-4的定義中找到。MPEG-4通過提供與視聽内容的各種互動級别,通過允許系統配置的靈活性,允許使用者為許多應用程式配置和建構系統。 在該标準中,網格模型或肌肉模型都用于建立3-D面部模型。

為了進行面部表情分析,大多數面部特征都是通過光流或者活動外觀模型捕獲的。例如,Lyons應用監督的Fisher線性判别分析(FDA)。對于面部表情識别還有許多方法,例如,Gabor小波,神經網絡,隐馬爾可夫模型(HMM),點分布模型(PDM),光流,幾何跟蹤方法,EGM方法等。

關于面部動畫的開創性工作由弗雷德裡克·帕克(Frederic I. Parke)在1970年代完成。但是雖然相應的硬體軟體一直在進步,但做出逼真的動畫面孔仍然是很難解決的一個問題。許多研究人員使用了基于圖像,Visemes,FAP,PC,3D坐标,3D距離測量或光流的方法産生面部表情。還講述了關于面部表情與語音同步,采用視聽映射的兩種合成辦法:1、将語音信号劃分為語言機關,例如音素,音節,單詞,然後将這些機關直接映射到唇形并将它們連接配接起來。2、通過統計學習模型對雙峰資料進行分析,找出連續的聲學特征與面部控制參數之間的映射關系,進而通過新穎的語音直接驅動面部動畫。最近出現了新的一種映射方法就是通過串聯訓練資料庫中存儲的資料單元來構造新的資料流。其優點在于合成結果看起來非常自然和真實。但是盡管如此還是無法觸摸到完整的面部表情,依舊是目前研究的難題。

身體姿勢和動作

身體姿勢和動作由人體關節位置及其随時間的變化來定義,目前對手勢處理的工作主要集中于手部追蹤,傳統上有兩種方法:表觀方法和3-D模組化方法。現有的方法通常都會有一些限制。還通過人體解剖學知識确定人體架構,通過一些計算機方法捕獲面部和身體運動的資料等等。但這對計算機視覺來說依舊是一個挑戰,如何獲得更精确的資料是情感計算目前的緊迫難題。

多模态系統

人與人之間的互動定義為多模态互動,其中會有源源不斷的有意義的面部表情,身體姿勢,頭部單詞,語言等等,大多數研究人員都相信多模式系統可以改善情感識别的結果,并且可以在人機互動中産生更生動的表達。而多模式技術是近年來興起的,大多數系統都缺乏有效的方法來內建不同的通道。

情感了解與認知

情感了解子產品在邏輯上是情感識别子產品的下一步,情感了解包含一下功能:吸收資訊,記住資訊,對使用者目前的情緒進行模組化,對使用者的情感生活進行模組化,應用使用者情感模型,更新使用者情感模型,建立和維護使用者偏好的可編輯分類法實作與系統識别子產品的雙向通訊,最終建立和維護一個更完整的使用者模型,對使用者内容進行進行模組化,為生成綜合系統提供基礎依據,并確定其安全感和機密性。在這項工作中,做的最好的就是OCC模型了。但是OCC模型隻是把人們對事物的反應分為三組情緒,實際上人們在面對不一樣的事情會有很複雜的情緒反應,很多小組進行了實驗使得我們确定了情感與認知的關系,有了從初步架構到初步實驗,能夠幫助我們更好的深入大腦,了解情緒

目前的項目

(一) HUMAINE(歐盟項目)

HUMAINE(人機情感互動網絡),該項目旨在奠定歐洲開發可注冊,模組化和/或影響人類情緒以及與情緒相關的狀态和過程的系統的基礎-“面向情緒的系統”。 它确定了跨越傳統分組的六個主題領域,并為适當的劃分提供了架構-情感理論; 信号/信号接口; 具有情感色彩的互動的結構;認知和行動中的情感; 交流和說服中的情感; 面向情感的系統的可用性。

(二) 學習和決策的情感認知架構(麻省理工學院情感計算研究小組)

該項目旨在解決許多經典問題,但是大多數機器學習和決策模型均基于舊的純粹認知模型, 通過開發将情感與認知結合在一起的新模型,适應起來緩慢,脆弱,笨拙。 最終,此類改進将使機器能夠做出更明智,更像人的決策,進而實作更好的人機互動。

(三) Oz Project(CMU)

Oz項目(CMU)Oz是一個計算機系統,允許作者創作和示範互動戲劇。該項目的體系結構包括一個模拟的實體世界,幾個角色,一個互動器,一個示範理論和一個戲劇管理器。

(四) 青少年家庭的情緒,壓力和應對:在實驗性計算機遊戲中評估人格因素和情境方面(日内瓦情緒研究小組)

該項目研究青少年針對面對不同類型壓力環境而制定的行為應對政策,重點是 應對功能,并通過實驗室中的對照研究通過問卷補充應對研究。

(五) 認知與影響項目(伯明翰大學)

該項目的主要目标是了解能夠解釋人類(和非人類)心理狀态和過程的全部範圍的架構類型,不僅包括智能能力,,還包括情緒,情感,欲望等。

(六) BlueEyes(IBM)

該項目旨在建立具有人們認為理所當然的感覺能力的計算裝置。

(七) 人與機器人(CMU)

該項目針對社會中服務機器人的三個鮮為人知的方面:服務機器人的設計和行為;人與機器人互動的方式;服務機器人如何作為工作團隊的成員發揮作用。

(八) 情感敏感的人機協作(範德比爾特大學)

該項目涉及為人機協作開發一種新穎的情感敏感架構,該機器人有望識别人的心理狀态(例如壓力,恐慌,恐懼,參與任務)在眼前。該技術涉及使用可穿戴傳感器實時監測人類受試者的生理信号。

(九) 富有表現力的視覺語音合成(中國科學院自動化研究所,NLPR)

該項目旨在通過适應使用者的意圖和行為來增強多模式界面。

目前研究面對的挑戰

(一)	情感了解與适應
           

現有的情感模型都使用高度程式化的人格類型刻闆印象和情緒反應,與人類真實反應嚴重不符,關于如何定義情緒有很多争論。 可能有人認為無法建立情感模型,也無法進行情感了解。使用情感模型,情感計算的最終目的是幫助計算機在了解使用者的情感和含義之後做出正确的反應,然後習慣于使用者情感的變化。目前,有一些工作用途一種人工評估使用者感覺的方法。根據情感資訊的識别結果,如何分析使用者情感的動态特性以及如何使計算機做出适當的反應仍然是一個重要的問題。

(二) 基于多模型的情感資訊處理

在多模型條件下缺乏情感參數的協調機制極大地限制了情感了解和情感提示。不同管道的融合不僅僅是它們的結合,而是在所有管道資訊之間尋找互相關系。互相關系可以在互動階段為識别/了解和資訊生成提供更好的整合。

(三) 實際環境中的情感特征捕捉

目前大多數情感特征捕捉仍受實驗室或工作室的限制,它們不那麼複雜,背景噪音也較小。目前可用的資訊隻能用于資訊檢索和公共特征識别,這太粗糙了,無法對複雜的情感變化進行情感計算。

(四) 多智能體系統中的情感互動

(五) 情感資料庫

情感資料庫的不足是目前對情感計算的研究受到限制的原因之一。建立存儲大量情感資料,尤其是多模型情感資料的資料庫,對于情感計算是必要的,也是深入研究情感機制的前提。

結論

綜上所述,情感計算的概念提出時間雖然很久了,但是現有研究局限在語音和肢體語音等詳細而分散的領域,還缺少大量的情感資料資源、沒有有效的多特征情感計算機制以及相關的學習和控制算法,還缺少對自然場景的适應性,計算機無法準确判斷和産生類似人的情感狀态,并具有真實的效果。總之,設計情感計算的各種理論問題并不完善。

但是,仍然存在一些應用程式,利用計算機檢索系統中的情感概念分析功能,提高資訊檢索的準确性和效率。此外,情感計算也可以應用于數字娛樂,機器人和智能玩具等相關行業,以實作更個性化的風格 并建立更生動的場景。

繼續閱讀