天天看點

微軟專利為AR/VR等不同裝置及網絡環境改善優化視訊會議體驗

作者:映維Nweon

(映維網Nweon 2023年08月09日)視訊電話會議的功能越來越豐富。但由于支援硬體的異構性,挑戰開始随之出現。例如,用于先進裝置,大屏顯示和高網速的使用者可以通路功能豐富的遠端會議體驗,但對于擁有舊式裝置,小屏顯示和慢網速的使用者,通路相關的功能體驗會導緻技術性能不佳,包括顯示屏混亂、過度延遲、視訊停滞、變得斷斷續續或音頻不同步等等。

針對這個問題,微軟在名為“Optimizing richness in a remote meeting”的專利申請中提出了一種解決方案,并旨在為不同網速,不同顯示屏尺寸,不同處理器性能的使用者提供更好的視訊會議體驗。

相關方法的核心是在高粒度上評估用于通路遠端會議體驗的每台計算機裝置的功能。利用相關資訊,計算可能納入遠端會議體驗的一系列功能組合中的每一種的預期流動性水準,即技術平滑度。

通過考慮每個會議參與者計算裝置的能力,系統可以自動選擇将提供最豐富體驗的功能組合,使其達到或超過令人滿意的流動性水準。通過這種方式,每個與會者都能獲得最好的體驗,但不受硬體的限制。

微軟專利為AR/VR等不同裝置及網絡環境改善優化視訊會議體驗

圖1顯示了由多個會議參與者12共享的遠端會議體驗10。會議體驗屬于“遠端”,因為并非所有的參與者都在同一個地點。每個與會者都是相應與會者計算機裝置的使用者和操作員,包括PC、平闆電腦、智能手機和AR/VR等裝置都可以用于通路會議體驗。

微軟專利為AR/VR等不同裝置及網絡環境改善優化視訊會議體驗

轉到圖2,每個會議參與者的計算機裝置14都包括一個顯示器16、一個攝像頭18、一個揚聲器20和一個麥克風22。

通過用戶端應用程式28提供的遠端會議體驗的通路包括一種或多種入站通路模式和/或一種或多種出站通路模式。

入站通路模式是将資料接收到計算機裝置14中的模式;出站通路模式是從計算機裝置傳輸資料的一種模式。可用的入站通路模式可以包括一個或多個遠端會議參與者的視訊和/或音頻的實時表示。

在一個入站通路模式中,視訊和/或音頻以可用的最高保真度呈現,在其他入站通路模式中,保真度降低。當應用于視訊時,“保真度”包括幀率、分辨率和/或顔色深度。當應用于音頻時,“保真度”包括采樣率和/或比特率。

特定入站通路模式包括僅實時呈現視訊的前景部分,背景部分在計算機裝置14進行本地重構。特定入站通路模式包括呈現一個或多個會議參與者的本地渲染動畫,例如Avatar。動畫可以根據面部标記和/或骨骼坐标在本地為任何、部分或所有會議參與者生成,以便實時下載下傳到計算機裝置。

特定入站通路模式包括通過計算機裝置上提供的文本界面進行入站會議内聊天。特定入站通路模式包括接收來自會議體驗的音頻的實時轉錄。特定入站通路模式包括基于轉錄呈現來自一個或多個會議參與者的本地重構語音。特定入站通路模式包括與會者之間的螢幕或文檔共享。

實際上,在一台給定的計算機裝置上,通過用戶端應用程式,可以獲得一系列通路遠端會議體驗的模式。通路模式的特定組合提供附加的好處,而其他組合可能沖突或多餘。是以,用戶端應用程式28配置為提供基于計算機裝置14的能力和/或基于其使用者的偏好的互相相容的通路模式的特定預定義組合。在這樣做的過程中,用戶端應用程式提供了對會議體驗的不同變體或不同級别的通路,這對應于不同的“通路選項”。

在一個實施例中,可以從入站通路選項菜單中選擇一個通路選項,并且可以從出站通路選項菜單中選擇另一個通路選項。入站通路選項是控制接收到計算機裝置14的資料的選項,而出站通路選項是控制從計算機裝置傳輸的資料的選項。

微軟專利為AR/VR等不同裝置及網絡環境改善優化視訊會議體驗

圖3示出了入站通路選項30的示例部分菜單,圖4示出通路選項32的示例部分菜單。每個菜單都是按照從上到下“豐富度”遞減的順序列出。每個菜單頂部的通路選項提供了比底部選項更豐富的會議體驗。

每個通路模式都可以用豐富性度量來表征,并訓示通路模式對會議體驗貢獻的相對豐富性級别。類似地,每種通路模式可以用開銷度量來表征,并訓示通路模式所需的相對計算費用,例如網絡帶寬和處理周期等。

在圖3中,入站接入選項30A将所有可用視訊實時呈現,包括螢幕和文檔共享為視訊。是以,與圖3中的所有選項相比,入站通路選項30A具有最高豐富度水準,并且入站通路選項30A具有最大開銷度量。

入站通路選項30B提供會議參與者的所有可用視訊的表示,但使用快照共享文檔。入站通路選項30C與選項30A和30B的不同之處在于,螢幕或文檔共享隻能通過靜态下載下傳獲得。

入站接入選項30D以降低(例如75%)幀速率提供所有視訊的呈現。入站通路選項30E以降低(例如50%)的顯示分辨率提供所有視訊的呈現。入站通路選項30F以減少(例如25%)的色深顯示所有視訊。入站通路選項30G實時呈現所有可用的前景視訊,并且保真度很高,但需要對背景進行局部重建。

特定入站通路選項拒絕至少特定可用的實時視訊,而是使用動畫來表示一個或多個會議參與者。例如,入站通路選項30H隻提供主示範者的前景視訊顯示。基于實時下載下傳到使用者計算機裝置上的會議參與者的面部标記和/或骨架坐标,本地為其他會議參與者生成動畫。

入站接入選項30I與入站接入選項30H的不同之處在于,沒有到場的與會者的演講不是實時下載下傳到使用者的計算機裝置,而是基于會議音頻的實時轉錄在其上進行重構。

入站接入選項30J包括以動畫形式實時呈現所有會議參與者,并暫停下載下傳會議音頻的實時轉錄。入站通路選項30K隻實時提供音頻示範,并要求記錄結束的會議體驗,包括視訊。入站通路選項30L為使用者暫停實時會議體驗,并請求結束的會議體驗的轉錄。

是以,入站通路選項30L具有豐富度度量,訓示與圖3中的所有選項相比的最低豐富度水準,并且與圖3中的所有選項相比,入站通路選項30L表明開銷最小。其他入站通路選項具有介于入站通路選項30A和30L之間的費用度量和豐富度度量。

在圖4中,出站接入選項32A提供實時上傳來自使用者計算機裝置的所有視訊,包括以視訊形式上傳共享文檔。是以,出站通路選項32A具有豐富度度量,訓示與圖4中的所有選項相比的最高豐富度水準;與圖4中的所有選項相比,出站通路選項32A具有訓示最大費用的費用名額。

出站通路選項32B提供使用者視訊的上傳,但使用快照共享文檔。出站通路選項32C與選項32A和32B的不同之處在于,隻有通過靜态上傳才能啟用螢幕或文檔共享。出站通路選項32D提供以降低幀率上傳使用者視訊。出站通路選項32E提供以降低的顯示分辨率上傳使用者的視訊。出站通路選項32F提供以降低顔色深度上傳使用者視訊。

出站通路選項32G提供使用者前景視訊的實時上傳,并且保真度很高,但需要遠端重建背景。其他出站通路選項拒絕實時視訊上傳。例如,出站通路選項32H提供實時上傳使用者的面部标記和/或骨骼坐标,以支援使用者的動畫。出站通路選項32I提供使用者語音轉錄的上傳,以支援實時語音重建。

選項32J提供在會議結束時上傳使用者錄制的視訊和音頻。選項32K提供在會議結束時上傳使用者錄制的音頻。選項32L為使用者暫停實時會議體驗,并在會議體驗結束時提供使用者音頻貢獻的上傳轉錄。

是以,出站通路選項32L訓示與圖4中的所有選項相比的最低豐富度水準,以及開銷最小的度量。其他出站通路選項具有介于出站通路選項32A和32L之間的費用名額和豐富度名額。

在圖在3和4中,通路選項是從兩個或多個不相交的菜單中選擇,可以将相容通路選項的每個組合映射到一個新的集合,其元素對應于這樣的組合。在這樣的例子中,組合本身就是“通路選項”。

給定類型的各種通路模式以不同的開銷,提供不同的豐富度水。是以,對于每個特征類型,可以根據其對豐富性的總體貢獻和對開銷的單個貢獻來選擇通路選項。可以選擇所選通路模式的總體組合,以最大限度地提高所提供的會議體驗的豐富性和流動性。

圖5顯示了提供對遠端會議的通路的示例方法46。

微軟專利為AR/VR等不同裝置及網絡環境改善優化視訊會議體驗

在48,客戶機應用程式在使用者的會議參與者計算機裝置啟動。所述操作可以使使用者發起新的會議體驗或加入現有的會議體驗。

在50,用戶端-伺服器系統的評估子產品評估使用者計算機裝置的一項或多項與計算機裝置使用者所感覺的會議體驗的流動性有關的能力,例如網絡上傳速度、處理器速度和處理器核數。

在可選步驟52中,可以根據使用者喜好排除一個或多個通路選項。例如,即便使用者的計算機裝置能夠高速下載下傳,他/她都可能不想看到其他會議參與者的臉。在這種情況下,參照圖3,可以排除入站通路選項30A至301。

在54,客戶機-伺服器系統的選擇子產品根據所評估的一種或多種能力選擇一組通路選項,其中包括在計算機裝置上可實作的用于通路遠端會議體驗的互相相容的通路模式的組合。

在62,用戶端-伺服器系統的配置子產品配置用戶端-伺服器系統,使會議參與者的計算機裝置能夠使用所選擇的通路選項集通路遠端會議。

在64,用戶端-伺服器系統34的網絡子產品在伺服器36和計算機裝置14之間交換可能需要的任何資料,以支援根據所選的通路選項遠端通路會議體驗。

相關專利:Microsoft Patent | Optimizing richness in a remote meeting

名為”Optimizing richness in a remote meeting“的微軟專利申請最初在2022年2月送出,并在日前由美國專利商标局公布。