Meta分享AI語音系統CAIRaoke：建構自然對話AR/VR語音助手

（映維網Nweon 2022年02月25日）Meta日前舉辦了一個名為“Meta AI: Inside the Lab”的人工智能實驗室揭秘活動。除了示範人工智能團隊所取得的最新突破外，Meta同時希望進一步說明人工智能将如何賦能公司的元宇宙未來。

在一個名為Project CAIRaoke的項目中，Meta希望建構一個能夠與你進行自然對話的未來人工智能助手。下面映維網整理了團隊的博文分享：

如果我們能夠用自然的對話式語言與人工智能助手進行互動，就像普通的人類間交流一樣，它将可以大大提升我們的生活品質。但無論是通過語音還是短信與其交流，如今的人工智能助手總是機器味道十。當你發出“在今天剩下的時間裡靜音所有通知，除非是我媽媽”等常見的請求時，它們往往無法予以正确的回應，更不用說像“我能為私人聚會租用當地社群中心嗎？”或者像“為7月4日的周末規劃一個價格合理的家庭海灘度假”等複雜任務。

是以，是時候提供更好的對話式人工智能了。

為了實作這一目标，Meta日前正式釋出了宣布Project CAIRaoke。團隊開發了一個端到端的神經模型，并已經在Portal中使用了Project CAIRaoke産生的模型。與人們現在熟悉的系統相比，它可以進行更多的個人和情景對話。這家公司的目标是将其與增強現實和虛拟現實裝置內建，以便在未來實作與人工智能助手的沉浸式、多模式互動。

對于更好的對話式人工智能來說，最大的障礙可能是驅動當今先進數字助手的架構。盡管系統隻提供一項服務，但它們實際上依賴于四個獨立的元件：自然語言了解（NLU）、對話狀态跟蹤（DST）、對話政策（DP）管理和自然語言生成（NLG）。不同的人工智能系統必須聯結在一起，是以它們難以優化，不善于适應新的或不熟悉的任務，并且高度依賴勞動密集型的注釋資料集。

這就是為什麼如今為大多數裝置提供服務的數字助手會隻能提供機械式的選項，忘記對話的情景，并遵循規定對話流程的原因之一。例如，你可以向助手詢問當地的天氣預報，但如果你繼續詢問簡單但出乎其意料的問題，比如“天氣比上周熱嗎？”，它将無法很好地予以回應。

通過使用Project CAIRaoke建立的模型，人們将能夠自然地與對話助手交談，進而可以在談話中回顧之前的内容，完全改變話題，或者提及依賴于了解複雜、微妙情景地内容。你甚至可以以全新的方式與它們互動，比如使用手勢。

Meta已經開始在視訊通話裝置Portal使用所述模型，以便更輕松地建立和管理提醒。例如，你可以快速澄清如下請求：

你：将鬧鐘設定為6:30。

助手: 早上6：30還是晚上6：30？

你: 晚上，然後提醒欄目就叫‘買雞蛋’吧。

助手 : 好的，買雞蛋的提醒時間定在明天傍晚6:30。

即便是這個早期測試，Meta都相信模型的性能優于标準方法。團隊觀察Portal時發現，與現有的方法相比，Project CAIRaoke在提醒方面有了顯著的改進。相關評估是通過完成一組提醒目标的成功率，并同時保持正常的輪次數來衡量。

但這隻是利用所述新技術的第一步。團隊相信，Project CAIRaoke的進展将能幫助人與AI之間實作更豐富的交流，并且成為建構元宇宙未來的一個重要工具。未來，AR眼鏡内置的Project CAIRaoke數字助手可能會以一系列感覺自然的形式來與你互動。例如，如果你問：“這條褲子應該搭配什麼？”它可以回答：“這件有着你最喜歡的紅色的襯衫”，然後它甚至會顯示相關物品的圖像。如果你說，“我喜歡，但條紋太寬了。”這時，它就會顯示一個細條紋版本。

在未來，Meta希望在世界各地數百萬人的日常應用中能夠利用所述項目産生的模型。

1. 建構真正的互動式對話人工智能

推進對話式人工智能的一個必要步驟是了解問題的全部範圍。你或者知道NLU的衆多最新進展，比如BART和GPT-3，并認為了解和生成類似人類文本的挑戰已經解決。但其實我們尚未達到所述裡程碑。為了了解這一點，我們必須将人工智能區分為了解式人工智能和互動式人工智能。前者在整個行業都獲得了充分的研發。它用于從各種輸入模式中提取意義，例如自動語音識别、圖像分類和NLU。後者則是我們如何利用我們對世界的了解來與使用技術的人員互動。這可以是發送文本、語音指令、觸覺回報、顯示圖像、視訊或相關組合。

整個行業的研究人員和工程師都同意，好的對話系統需要一個由人工智能模型支援的堅實了解層。但許多人認為互動是一個工程問題，而不是人工智能問題。是以，了解世界狀态的工程師可以建立一個複雜的邏輯來處理所需的互動。工程方法使了解系統如何工作變得容易，并在必要時快速調試邏輯。然而，這種普遍的信念導緻了一個不是那麼強大的對話式人工智能，亦即你無法通過它們輕松規劃假期的一個主要原因。

2. 一種新的、統一的方法

上述示例對話框展示了Meta希望助手具備的關鍵技能：不僅提供準确的、最新的真實世界知識，而且可以跨多模式工作（在本例中是跨視覺和語音），跨領域工作（發送消息并估計到達時間），讓你推動對話，不需要遵循僵化的對話模闆。

人工智能助手的規範方法需要四組輸入和輸出：管道的每一層（NLU、DST、DP和NLG）各一組。它同時需要為每一層的輸入和輸出定義标準。例如對于NLU，傳統的對話人工智能系統需要定義的本體。

然而，Meta的模型使用了神經網絡，而且根本沒有規定對話流程。利用這個模型，團隊隻需要一組訓練資料。

Project CAIRaoke減少了添加新域所需的工作量。在規範方法中，擴充到一個新域需要依次建構和修複每個子產品，然後才能可靠地訓練下一個子產品。換句話說，如果NLU和DST每天都發生變化，訓練DP就無法有效完成。一個元件的更改可能會影響其他元件，進而觸發所有後續子產品的再訓練。這種互相依賴性會減慢後續子產品的進度。但通過所述的端到端技術，Meta消除了對上遊子產品的依賴，進而提高了開發和訓練速度，并使團隊能夠用更少的精力和資料微調其他模型。

在這種新方法中，對話功能更加強大，因為它們能夠通過在一個地方檢視全部資訊來做出決策。以前，即使一個元件中的一個小錯誤都可能會以意外的、難以解決的方式傳播到其他元件。例如，目前基于規則的助手會明确地程式設計為在數字後尋找特定的單詞或短語“p.m.”以表示下午，而Project CAIRaoke利用了進階的預訓練語言模型，進而可以更好地了解情景，并能識别同一事物的不同表達方式。

最後，Project CAIRaoke将支援Meta AI的最新對話式機器人BlenderBot 2.0。這意味着使用模型建構的助手可以表現出同理心語言，傳遞通過實時搜尋網際網路發現的知識，并表現出一緻的個性。

當系統生成自然語言時，其必須解決潛在的安全和隐私挑戰。如今，大多數NLG元件都編寫了腳本，以便内容稽核員確定助手不會向使用者提供令人反感的響應。但通過将助手直接對接到使用者，這存在錯誤或冒犯性互動的風險。

重要的是，Meta在BlenderBot中加入了保護措施，這将有助于減少攻擊性反應。團隊同時在考慮隐私的情況下開發輔助技術。例如，對于Ray Ban Stories和Portal，語音指令的使用屬于可選選項，你可以檢視和删除語音指令的轉錄本，并且始終可以選擇關閉語音存儲。

為了降低對使用者産生不良反應的風險，Project CAIRaoke的第一個裡程碑是生成對話動作和自然語言。短期内，生成對話動作，并依靠一個經過測試和嚴格限制的NLG系統來提供使用者響應。長遠看，在確定模型的端到端完整性之後，團隊将公開生成的句子。

另一個問題模型自信地陳述不正确的資訊。這對端到端技術而言是一個巨大的挑戰，因為模型可能會根據訓練資料在對話框中引入或更改entities。例如，如果你讓助手“設定一個呼叫唐姆的提醒”，它可能會設定一個呼叫湯姆的提醒，因為唐姆是一個不太常見的名字。Meta正在使用各種資料增強技術和注意力網絡來增強Project CAIRaoke的穩健性，并利用BlenderBot 2.0來減少所述問題。

3. 使用語音完成無數日常任務

盡管短期内實施的Project CAIRaoke模型是用于Portal的提醒，但團隊希望能夠很快将其應用于更大的領域，進而幫助個性化人們的購物體驗，并允許人們推動對話流程。

Meta同時認為，這一進步對于為增強現實建構AI對話能力特别有用。在不久的将來，人們會像今天使用智能揚聲器、智能手表和其他裝置一樣，定期在AR眼鏡使用語音助手。考慮到這一點，團隊正在努力縮小像這樣的端到端模型的大小。研究人員同時在努力提高模型的易調試性。這是一個複雜的挑戰，因為在這個新架構中，資訊是在嵌入空間中表示，而在規範模型中，資訊屬于顯式。為了充分實作對Project CAIRaoke的願景，其需要将其擴充到多種語言，并找到高效使用所述模型的方法。

這家公司最後總結道：“我們可以想象，數年後，Project CAIRaoke的技術将成為下一代人與裝置互動的基礎。對于諸如VR頭顯和AR眼鏡等裝置，我們預計這種通信最終将成為無處不在的無縫導航和互動方法，就像觸摸屏取代初代智能手機的鍵盤一樣。我們目前的模型是向前邁出的重要一步，但要充分實作這一願景，我們還有更多的工作要做。但我們對迄今取得的進展和面臨的挑戰感到非常興奮。”