情感計算：讓機器更加智能

在人們的認知中，機器與人的分界線是機器是否具有情感。舉個例子，如果一對情侶吵架，而有一方顯得過于冷漠，那麼另一方很有可能向對方說出類似于「你是一個沒有情感的機器」的話。是以，機器是否具有情感是機器人性化程度高低的關鍵因素之一。

早在 1997 年，MIT 媒體實驗室就提出了情感計算（Affective Computing）的概念，情感計算旨在通過賦予計算機識别、了解和表達人的情感的能力，使得計算機具有更高的智能。

情感智能是讓機器更加智能的關鍵，具有情感的機器不僅更通用，更強大，更有效，而且與人類的價值觀相一緻。人類的情感機制也使我們能夠完成太難程式設計或難以讓目前機器學習的任務 [1]。

例如，我們的恐懼情緒使我們能夠意識到危險并保持安全。我們感覺他人的情感并站在對方的角度思考問題使我們在複雜的世界中可以做出恰當的決策。饑餓、好奇心、驚喜和喜悅等情感使我們能夠規範自己的行為，并讓我們追求我們希望實作的目标。除此之外，我們通過情感表達自己内部狀态的能力是向他人溝通并可能影響他人決策的絕佳方式。

情感計算主要有「識别」，「表達」和「決策」這三個研究方向，「識别」主要是研究如何讓機器準确識人類的情感，并消除不确定性和歧義性。「表達」主要是研究如何把情感以合适的資訊載體表示出來，如語言、聲音、姿态和表情等。而「決策」則主要研究如何利用情感機制來進行更好地決策。

由于情感識别和表達都是研究曆史較長的領域，是以本文主要介紹情感識别和表達的相關概念，以及利用情感進行決策的最新進展。

1. 識别和表達

1.1. 識别

情感識别是一個曆史比較悠久的研究領域，最早可以追溯到上個世紀就有學者從各個角度研究情感識别，比如語音、語言、表情和姿态等。它旨在從不同的次元精确捕捉人類的情感表達，主要有兩種描述模型可以對情感空間進行描述，一種是離散情感空間，一種是次元情感空間。

圖 1-1 Ekman 基本情感 [3]

離散情感空間把每一種情感分為一個個獨立的标簽，互相之間沒有關聯性，如喜悅、難過、恐懼等情感。這種描述方式更符合人的認知與日常生活的表達形式，具有天然的可解釋性。但是缺點在于不同的情感标簽之間沒有類似于數值向量的連續性，于是不同标簽之間的差異和聯系性就無法更好地計算。

此外，由于在學術界尚未存在對情感的統一認識，這導緻了目前存在着各種不同版本的情感分類标簽。其中最為出名的當屬于美國心理學家 Ekman 提出的六大基本情感。如圖 1-1 所示，Ekman 列舉了六種基本的情感，依次是生氣、快樂、驚訝、厭惡、傷心和害怕。

圖 1-2 Valence-Arousal 模型 [9]

次元情感空間把不同的情感利用連續的多元向量表示，也稱作次元理論。在次元情感空間中，每一個點都表示一種情感，具有數值向量的連續性，可以友善地計算不同情感之間的差異和聯系，但是對于人來說，不具備很強的直覺可解釋性。

比較著名的次元情感模型是 Hanjalic 提出的激活度-效價（Valence-Arousal）空間理論，如圖 1-2 所示。激活度-效價理論把情感分為激活度和效價兩個次元，不同的激活度和效價表示不同的情感，激活度和效價越高則代表情感越積極，反之則越消極。

圖 1-3 Plutchik 情感輪 [11][12]

另一個著名的次元情感模型是 Plutchik 提出的 Plutchik 情感輪模型，如圖 1-3 所示。該模型把情感分為八種主要的情緒，位于圓圈的第二層，分别是喜悅、信任、恐懼、驚喜、傷心、厭惡、生氣和期望，其它所有複雜的情緒都是由這八種情緒組合而成的。越靠近圓圈裡面，情緒越強烈，顔色也會增強。移動到外層，顔色變得不那麼飽和，情緒的強度降低。

情感識别技術在許多領域都有比較好的應用，比如在教育領域，教師利用情感識别技術來幫助孤獨症患者或者抑郁症患者建立一個健康的身心，并提高學習能力。

情感識别在商業領域也有很大的用處，例如商業公司利用情感識别算法觀察消費者在觀看廣告時的表情，這可以幫助商家預測産品銷量的上升、下降或者是保持原狀，進而為下一步産品的開發做好準備。

1.2. 表達

人在與機器進行互動的時候，如果機器不能夠對人的情感進行合理的回報，即機器能夠表達自己的情感，那麼可能在人類看來機器總是冷冰冰的，不那麼智能。是以，在實作通用人工智能的過程中讓機器能夠合理的表達情感是一件非常重要的事情，情感表達旨在讓機器從不同的次元表達特定的情感，比如通過語音、肢體和表情等。

語音是表達情感的主要方式之一，因為我們人類總是能夠通過他人的語音輕易地判斷他人的情感狀态。語音的情感主要表現在兩個部分，一個是語音中所包含的語言内容，另一個是聲音本身所具有的特征，比如音調的高低變化等。我們可以利用特定的聲音風格加上文字内容合成語音，便可以表達特定的情感，帶有情感的語音可以讓消費者在使用的時候感覺更人性化、更溫暖。

圖 1-4 對抗和合作式語音合成 [6]

目前的語音合成通常都是通過将需要合成的文字内容和特定風格的語音輸入到神經網絡中，然後讓神經網絡合成特定風格的語音。然而，目前的神經網絡無法高效地将語音内容和風格分解。如圖 1-4 所示，微軟的研究者在最近提出利用博弈論中對抗和合作的思想來生成特定風格的語音資料，這個模型能夠有效地将語音内容和風格分解，進而使得在語音生成方面風格可控，該模型在風格遷移、情感模組化等任務上均取得了不錯的進展。生成樣例可參考 [7]。

肢體語言主要是指通過頭、眼、手和腿等人體部位的協調活動來表達人的想法。同樣地，我們也可以讓機器學會肢體語言來表達特定的情感。肢體情感表達主要是通過分析動作的基本單元，用運動單元之間的運動特征構造單元庫，然後再根據不同情感表達的動作需要合成相應的互動動作，并讓機器人執行相應的動作。

圖 1-5 NAO 機器人 [8]

如圖 1-5 所示，NAO 機器人是由 Aldebaran Robotics 公司推出的一款人形機器人，該機器人可以通過改變肢體的運動來表達不同的情感。它能模拟 1 歲小孩子的生氣、恐懼、傷感、喜悅等情緒，比如，你使勁抱它，它會感到緊張。或者你長時間不理它，它會感到焦慮。這個機器人可以較好地幫助治療自閉症患者。

面部表情是表現情感的一個重要途徑，主要通過臉部、眼睛或者肌肉位置的變化來表達情感。不同國家的人面部表情各不相同，亞洲人民的面部表情的強度相對較低，因為在亞洲文化中，面部表現出一些特殊情緒是不禮貌的。

圖 1-6 ExprGAN[10]

面部表情的生成是一項具有挑戰性的任務，因為它需要對輸入面部圖像進行進階語義了解。在傳統方法中，合成的面部分辨率通常很低。目前主要流行基于深度學習的方法進行面部表情圖像生成，比如有研究利用生成對抗網絡（GAN）進行帶有指定情緒的面部表情生成，如圖 1-6 所示，該模型可用于可控表情的面部表情生成，可以很好地表達不同的情感。

一個更為綜合的情感表達的例子是對話系統，圖靈在 1950 年就提出了著名的圖靈測試，他認為如果一台機器能夠與人類展開對話而不能被辨識出其機器身份，那麼稱這台機器具有智能。我們在文章的開頭談到，如果機器不具有情感表達，那麼人們可能會認為機器一點都不夠智能。

圖 1-7 情感表達對話 [13]

是以在與機器進行對話時，機器能夠識别和表達情感是一件非常重要的事情。來自哈佛和微軟的研究者們就嘗試着讓對話機器人能夠綜合語言資訊和視覺資訊進行帶有情感表達的對話，如圖 1-7 所示，針對問題「Did you have a good time?」，對話機器在看到不同的視覺場景會有不同情感表達。左邊的圖像是一個擡頭并帶有笑臉的小男孩，是以機器會回複「We had a great time at the beach!」，而右邊的圖像卻是一個低頭的小女孩，是以機器會回複「She just hates going for a walk!」。

2. 決策

大量的研究表明，人在解決某些問題的時候，純理性的決策過程并不是一個最優解，在決策的過程中，如果有生理反應（如情感）加入到決策過程中，這有可能幫助我們找到更優的解。如果我們将情感機制納入到強化學習算法的設計當中，那麼智能體（Agent）會發什麼有趣的事情？

舉個例子，我們人類在遇到不利于我們生存的情況下，我們的交感神經系統（Sympathetic Nervous System, SNS）會分泌一系列激素促使我們的心跳、血壓以及腎上腺素升高，并導緻我們産生恐懼的情緒，這種恐懼的情緒會加速我們對風險規避的學習。如果我們将這種恐懼情緒加入到強化學習的智能體并輔助智能體決策，智能體在探索效率上可能會發生一定的變化。

2.1. 算法

微軟的研究者在這個問題上給出了自己的答案，他們提出了一種基于周圍血管搏動測量（Peripheral Pulse Measurements）的内在獎勵的強化學習新方法，這種内在獎勵是與人類神經系統的響應相關的 [5]。作者的假設是這種獎勵函數可以幫助強化學習解決稀疏性（sparse）和傾斜性（skewed），以此提高采樣效率。

汽車駕駛是一個生活中很常見的任務，這既依賴于内部的獎勵，也依賴于外表的獎勵。當我們在高速駕駛汽車的時候，我們的神經系統是高度激活的，這有助于我們應對駕駛過程中出現的突發狀況，比如需要緊急調整方向來防止撞到突然走向道路中間的行人以避免事故。是以，當遇到突發情況時，這種生理内部的回報會有助于我們更好地評估目前的環境并幫助我們做出有利的決策。

作者在一個模拟的駕駛環境中進行了實驗，實驗表明這種獎勵在學習階段能夠提高學習速度以及減少碰撞次數，即有效減少獎勵信号的稀疏性。

圖 2-1 基于内在生理獎勵的強化學習 [5]

如圖 2-1 所示，與一般強化學習模型的不同之處在于，作者提出的強化學習模型的獎勵主要分為兩個部分，一個是外部環境的獎勵（Extrinsic Reward），一個是由内部生理反應産生的内部獎勵（Intrinsic Reward）。作者利用皮膚周圍血管血液體積，即比如血容量脈搏波動（Blood Volume Pulse Wave），來模拟内部生理狀态的反應。核心思想是如果人在遇到某種緊急的情況，那麼人的緊張情緒就會通過生理反應表現出來，比如血容量脈搏波動變大。作者提出的模型設計了一個新的獎勵函數，該獎勵函數如下：

公式中前者 r 代表外部環境的獎勵，而後者 r~（上波浪線）代表内部獎勵，λ代表權重。

圖 2-2 根據場景預測血容量脈沖波動的卷積神經網絡模型 [5]

這種方法的關鍵問題之一就是如何确定在開車過程中哪種駕駛場景會導緻駕駛者心理出現波動，比如心跳加快和血壓升高。作者找了四個人來擷取皮膚周圍血液體積的變化，具體做法是讓這四個人分别在這個模拟駕駛場景中進行駕駛，并記錄每一幀圖像（駕駛場景）的變化以及參與者本人對應的血容量脈沖波動資料。如圖 2-2 所示，作者利用擷取到的資料對一個八層的卷積神經網絡進行訓練，圖像幀作為輸入資料，血容量脈沖波動作為标簽，值在 0 到 1 之間。訓練好的模型便可用來預測特定駕駛場景的心理反應，這種心理反應就是我們前面提到的内部獎勵。

2.2. 實驗

圖 2-3 實驗結果 1[5]

如圖 2-3 所示，縱坐标代表不同的測試名額，如平均速度、平均距離和目标導向的平均距離，而橫坐标則代表不同數目的模拟次數。其中λ是我們前面提到的獎勵函數的權值，λ越大，則代表越依賴于外部獎勵，當λ=1 時，則退化成傳統的深度 Q 學習算法，當λ=0 時，則代表完全依賴于内部生理狀态的獎勵。從實驗結果我們可以看到，λ處于中間值時，這既能改善學習速率，又能促使代理更好地采取與任務相關的特定行為。

圖 2-4 實驗結果 2[5]

為了測試内部獎勵能否幫助智能體減少碰撞，作者調查了在不同λ情況下，智能體在碰撞之前所經曆的模拟次數（episodes）。如圖 2-4 所示，我們可以看到當λ=1（完全依賴于外部獎勵）時，在第一次碰撞之前的平均模拟次數幾乎總是最低的，這說明内部獎勵确實能夠幫助智能體有效減少碰撞。

3. 總結

北宋著名詞人柳永曾在蝶戀花中寫道，「衣帶漸寬終不悔，為伊消得人憔悴」，這描述了一種懷念意中人到極緻而憔悴的狀态。

喜悅、憂愁等情感塑造了我們人類自身，決定了我們自己是誰，并影響着我們的日常行為。情感涉及到了人類的認知，是人類智能最核心的部分，更好地了解情感将會更好地幫助我們設計出更強大的機器智能。

參考：

[1]

https://www.microsoft.com/en-us/research/blog/toward-emotionally-intelligent-artificial-intelligence/

[2]

https://book.yunzhan365.com/poui/pudn/mobile/index.html?from=timeline&isappinstalled=0

[3]

https://managementmania.com/en/six-basic-emotions

[4]

https://www.paulekman.com/wp-content/uploads/2013/07/Basic-Emotions.pdf

[5]

https://www.microsoft.com/en-us/research/publication/visceral-machines-risk-aversion-in-reinforcement-learning-with-intrinsic-physiological-rewards/

[6]

https://www.microsoft.com/en-us/research/publication/neural-tts-stylization-with-adversarial-and-collaborative-games/

[7]

https://researchdemopage.wixsite.com/tts-gan

[8]

https://robohub.org/nao-next-gen-now-available-for-the-consumer-market/

[9]

https://www.researchgate.net/figure/Two-dimensional-valence-arousal-space_fig1_304124018

[10]

https://arxiv.org/abs/1709.03842

[11]

https://positivepsychology.com/emotion-wheel/

[12]

https://www.6seconds.org/2017/04/27/plutchiks-model-of-emotions/

[13]

https://www.microsoft.com/en-us/research/publication/emotional-dialogue-generation-using-image-grounded-language-models/

作者介紹：曾祥極是浙江大學計算機方向的碩士，主要研究常識（Commonsense）以及知識圖譜（Knowledge Graph），同時也對認知科學和系統科學這兩個學科很感興趣，癡迷于智能是如何湧現。作為機器之心技術分析師的一員，我希望通過文字理清目前技術的發展前沿，與大家一同分享我的見解，也希望我們都能從中有所收獲。

本文為機器之心原創，轉載請聯系本公衆号獲得授權。

情感計算：讓機器更加智能

繼續閱讀

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希