天天看點

紮克伯格曝光Meta的小目标:AI自動生成元宇宙,實時翻譯所有語言

機器之心報道

編輯:澤南、蛋醬

它們都将成為元宇宙時代的殺手級 APP?

Meta 正在緻力于通過語音生成元宇宙世界的人工智能研究,還有很多神奇的技術。首席執行官馬克 · 紮克伯格本周三表示,該公司正在研究改善人們與語音助手交流順暢程度,以及在不同語言之間進行翻譯的方式。

最近一段時間,紮克伯格正帶領臉書 all in 元宇宙,并預測在未來人們可以在虛拟世界中工作、社交和娛樂,這一環境将最終代替網際網路。

至于元宇宙、虛拟現實是如何能夠讓人沉浸其中的,「解鎖這些進步的關鍵是人工智能,」紮克伯格說道。

紮克伯格曝光Meta的小目标:AI自動生成元宇宙,實時翻譯所有語言

讓做飯看起來和《模拟人生》裡一樣簡單。

Meta 正在研究一類新的生成 AI 模型,該模型将允許人們描述一個世界,人工智能自動生成它的各個方面。在昨天的示範中,紮克伯格展示了一個名為 Builder Bot 的 AI 概念,人們在元宇宙的島嶼上以 3D 化身的形式出現,并發出語音指令建立海灘,系統可以遵從人們的指令随時更改天氣,添加樹木甚至野餐毯。

紮克伯格曝光Meta的小目标:AI自動生成元宇宙,實時翻譯所有語言

海灘、島嶼、椰子樹,想要什麼場景,跟 AI 說一聲就有了 。

「随着我們進一步推動這項技術,你将可以創造出夢想中的世界,用你的聲音與他人探索和分享經驗。」不過紮克伯格沒有為這些計劃設定時間表,也沒有提供有關 Builder Bot 工作原理的更多細節。

另一部分是語音識别技術,Meta 表示正在研究人工智能,讓人們能夠與語音助手進行更自然的對話,這是讓人們在元宇宙中與人工智能順暢交流邁出的一步。紮克伯格表示,該公司的 CAIRaoke 項目是「用于建構裝置助手的完全端到端的神經模型」。

在紮克伯格的展示中,CAIRaoke 在一個「非常實用」的家庭場景中起到了作用:人在煮炖菜時,語音助手會發出提示,警告說鹽已經加到鍋裡了。AI 助理還注意到鹽放少了,于是提示要放更多。

紮克伯格曝光Meta的小目标:AI自動生成元宇宙,實時翻譯所有語言

在 Meta 随後釋出的部落格中,研究者們對 CAIRaoke 背後的技術進行了解讀。人工智能語音助手的傳統方法需要四組輸入和輸出——管道的每層(NLU、DST、DP 和 NLG)各一組。它還需要為每一層的輸入和輸出定義标準。例如,對于 NLU,傳統的會話 AI 系統需要定義的本體(例如,各種意圖和實體)。

但 Meta 提出的新模型根本沒有規定會話流,使用時我們隻需要一組訓練資料。CAIRaoke 減少了添加新域所需的工作。在規範方法中,擴充到新領域需要順序建構和更改每個子產品,然後才能可靠地訓練下一個子產品。換句話說,如果 NLU 和 DST 每天都在變化,就無法有效地訓練 DP。一個元件的更改可能會破壞其他元件的效果,進而需要對所有後續子產品的重新訓練。這種互相依賴減慢了後續子產品的進度。

Meta 的端到端技術消除了對上遊子產品的依賴,提高了開發和訓練速度,使我們能夠以更少的資料微調其他模型。

Meta 表示,它已在旗下的視訊通話裝置 Portal 中使用該模型,并期待将其內建到具有增強現實 (AR) 和虛拟現實 (VR) 的硬體裝置中。在接受路透社采訪時,Meta 的 AI 副總裁 Jér me Pesenti 表示,該公司正在嚴格限制其基于 CAIRaoke 人工智能新助手的響應,直到它能夠確定系統不會産生冒犯性的語言。

「這些語言模型性能強大…… 我們正在努力研究如何控制,」Pesenti 說道。

紮克伯格還宣布,Meta 正在開發一款通用語音翻譯器,旨在提供橫跨所有語言的即時語音到語音翻譯。該公司此前已為其人工智能系統設定了翻譯所有書面語言的目标。

「能夠用任何語言與任何人交流,這是人們夢寐以求的超能力,而人工智能将在我們有生之年實作這一目标。」紮克伯格表示。

盡管目前的翻譯工具可以很好地适用于英語、國語、西班牙語等常用語言,但世界上大約 20% 的人口不會說這些系統所涵蓋的語言。通常,這些服務不足的語言沒有易于通路的書面文本語料庫,這些語料庫也是訓練 AI 系統必需的,甚至一些語言根本沒有标準化的書寫系統。

Meta 表示,它希望通過在兩個特定領域部署新的機器學習技術來克服這些挑戰。第一個稱為 No Language Left Behind,将專注于建構可以使用更少的訓練示例學習翻譯語言的 AI 模型。第二個是通用語音翻譯器,旨在建構直接将語音從一種語言實時翻譯成另一種語言的系統,而無需書面元件作為中介(書面中介是許多翻譯應用程式的常用技術)。

紮克伯格曝光Meta的小目标:AI自動生成元宇宙,實時翻譯所有語言

具體來說,Meta 正在建構一個新的進階 AI 模型,其可以從更少的示例中進行語言學習,Meta 将使用它來實作數百種語言的專家級翻譯,從阿斯圖裡亞斯語、盧甘達語到烏爾都語。Meta 還在建構新型通用實時語音翻譯器,以支援沒有标準書寫系統的語言及口頭語。

基于自動資料集建立工具 LASER,Meta 研究者建構了 ccMatrix 和 ccAligned 等系統,它們能夠在網際網路上查找不同語言的平行文本。由于低資源語言的可用資料很少,Meta 建立了一種新的訓練方法,使 LASER 能夠專注于特定的語言子組——例如班圖語——并從更小的資料集中學習。

這些努力使得 LASER 能夠跨語言大規模有效地運作,Meta 最近還将 LASER 擴充到了語音處理領域。

為了提升機器翻譯模型的性能,Meta 投入大量資源建立了大容量且可以高效訓練的模型(稀疏門控的專家混合模型)。通過增加模型體量和自動路徑學習功能,不同的符号可以使用不同的專家能力。為了将基于文本的機器翻譯模型擴充到上百種語言,Meta 建構了第一個不以英語為核心的多語言翻譯系統,其效果甚至優于最好的雙語翻譯模型。

在宣布這一消息的部落格文章中,Meta 研究這還沒有提供完成這些項目的時間表,也沒有提供實作目标的主要路線圖。相反,該公司隻是強調了通用語言翻譯的可能性。

Meta 還設想這種技術将極大造福于其遍布全球的産品,進一步擴大其影響範圍并轉變為數百萬人必不可少的通信工具。正如部落格文章寫到的那樣,通用翻譯軟體将成為未來可穿戴裝置的殺手級應用,如 Meta 正在建構的 AR 眼鏡,還将打破「沉浸式」VR 和 AR 現實空間(Meta 也在建構)的界限。

換句話說,雖然開發通用翻譯工具會帶來人道主義利益,但對于 Meta 這樣的公司來說,它也具有良好的商業意義。

這家社交媒體為主業的公司在最近的财報公布之後市值縮水了近三分之一,出于對未來的思考,臉書已将努力的主要方向轉變為建立虛拟世界,并為此直接更改了公司名稱。本月 Meta 報告稱,該公司的增強和虛拟現實業務 Reality Labs 2021 年淨虧損 102 億美元。

Meta 的 AI 負責人 Pesenti 表示,這家公司正在探索 AI 如何調節元宇宙中的内容和行為。

「在我們的主要平台上,使用了大量的 AI 來調節其中的内容。元宇宙有些與衆不同,因為它更加實時,」Pesenti 說。他表示這是一項「發展中」的工作,Meta 也在研究元宇宙的一些政策問題。

在 AI event 上,紮克伯格表示 Meta 正在探索 AI 如何通過自監督學習來解釋和預測元宇宙中可能發生的互動類型。是以 AI 可以通過自監督學習獲得原始資料,而不是用大量标記的資料進行訓練。

同時,Meta 也在研究以個人為中心的資料,包括從第一人稱看世界。紮克伯格表示 Meta 已經與 13 所大學和實驗室組成了一個全球性的聯盟,共同推進 Ego4D 資料集的研究,這是目前最大的以個人為中心的資料集。

參考内容:

https://www.reuters.com/technology/metaverse-event-metas-zuckerberg-unveils-work-improve-how-humans-chat-ai-2022-02-23/

https://ai.facebook.com/blog/teaching-ai-to-translate-100s-of-spoken-and-written-languages-in-real-time/

https://www.theverge.com/2022/2/23/22947368/meta-facebook-ai-universal-speech-translation-project

繼續閱讀