天天看點

場景化封裝,一站式使用,普惠AI內建 ——阿裡雲釋出智能媒體管理産品

近日,阿裡雲釋出了智能媒體管理(Intelligent Media Management)服務, 通過分布式計算處理能力關聯授權的雲存儲,提供便捷的海量多媒體資料一鍵分析,并通過該分析過程建構價值中繼資料,更好支撐内容檢索。

随着智能手機的普及、無人機的流行,業界産生了海量的圖檔、視訊等多媒體資料;同時,網絡也在飛速發展,特别是4G的推廣,讓這些資料的儲存、分享發生了巨大的變化,進而也帶來了媒體資料各行業的新趨勢。我們親身體驗到通信方式從短信變成語音,浏覽内容從文字變成圖檔、從JPG靜态圖檔變成GIF動态圖檔、再到短視訊;從去年開始,直播也火熱起來,成為一種流行的時尚。這些迅速的變化趨勢,反應了一個共同的特點,就是“互動的資訊量越豐富、越實時,使用者越容易被吸引,越會産生新的價值”。

場景化封裝,一站式使用,普惠AI內建 ——阿裡雲釋出智能媒體管理産品

如圖中所示行業,都在利用最新的人工智能(Artificial Intelligence, AI)技術産生新的價值,同時也引入新的需求:

手機相冊。它早已不是簡單的圖檔備份,iOS通過AI建構人臉相冊、場景标簽、編輯應用,變成吸引客戶的亮點,成為新的基線。

視訊監控。它不再隻是記錄驗證工具,而是利用AI發展為智慧城市,變成了智慧的眼睛,要管理整個城市的交通資訊。

直播應用。個人分享已不僅僅是部落格、微網誌的文本形式,更是轉變為快速直覺的視訊模式,這背後需要更高、更快的直播内容了解、稽核需求。

對于圖檔分享社群應用場景,最基本的功能是提供備份、分享,但這并不能帶來更多的價值。隻有提供更多的圖檔處理能力,比如主體剪裁、人臉識别、濾鏡功能、風格渲染、視訊合成等資料處理功能,如下圖所示。這些亮點将為使用者帶來“生活不止眼前的苟且,還有依然在你身邊的美好”回憶,進而讓應用更具吸引力。

場景化封裝,一站式使用,普惠AI內建 ——阿裡雲釋出智能媒體管理産品

如今的綜藝節目非常火爆,例如跑男、極限挑戰等,每期拍攝的素材量千倍于實際播出量;要在這海量素材中快速掃描、找到爆點,需要相當大的工作量,例如目前的人肉檢索低效率方式需要處理幾周的時間。如果能夠基于AI分析語音、人物、場景得到結構化資訊,并索引管理起來,支撐更好的檢索,它将會大大的提高素材的處理效率。

同樣,線上教育等領域,對于老師、演講者的材料、語音、視訊内容,如果能夠提供快速的解析索引能力,那麼它将給學習者提供便捷的專場内容描述、快速定位關鍵術語、演講筆記同步提取等亮點。

場景化封裝,一站式使用,普惠AI內建 ——阿裡雲釋出智能媒體管理産品

要滿足上述場景需求,目前應用架構設計時,需要選型不同資料處理功能的廠家(包括AI廠家)進行內建、或者自研開發,對于内容檢索,還需要分析場景細節需求,引入資料庫設計和開發。這都需要很好的技術能力,以及開發團隊的支撐,并解決如下的痛點。

場景化封裝,一站式使用,普惠AI內建 ——阿裡雲釋出智能媒體管理産品

圖檔應用将資料儲存到雲存儲後,要選擇不同廠家的AI分析能力,支撐業務和監管的需求。應用通常會在雲伺服器(Elastic Compute Service,ECS)上部署AI廠家的軟體包,或者直接調用AI廠家提供的服務,但需要解決如下問題:

接口不統一。因為存在多廠家的選型,需要考慮不同廠家接口的相容性。

資源浪費。同一張圖檔會被多次讀取,甚至是傳輸到外部網絡,浪費網絡帶寬,提高使用成本。

無存量資料的低成本批量處理方案。采用廠商的同步處理價格高昂,需要提供存量資料的低成本批量處理方案,接受異步接口傳回檢測結果(比如針對存量的OSS桶裡面的所有圖檔,進行批量鑒黃)。

場景化封裝,一站式使用,普惠AI內建 ——阿裡雲釋出智能媒體管理産品

智能網盤通過自己的使用者鑒權服務允許客戶登入,然後采用基礎資料管理把圖檔、視訊上傳到雲存儲OSS中。為了提供人臉分組、标簽分組等搜尋功能,需要提供各類中繼資料管理,定義基于場景的表格式、處理資料庫的異常,它将帶來如下的開發難度:

中繼資料表設計難度大。針對不同的中繼資料,需要分類設計各類表結構存儲,有相當的技術門檻。

多元度中繼資料管理有挑戰。需要組合多種中繼資料,進行多元度查詢處理,存在設計挑戰。

維護中繼資料的的一緻性難題。解決這些中繼資料在異常場景下的異常處理,是系統級難題。

場景化封裝,一站式使用,普惠AI內建 ——阿裡雲釋出智能媒體管理産品

通過上述的場景和痛點分析,智能媒體管理(IMM)服務提取了6個關鍵點作為設計目标:

海量資料,支撐雲存儲上的海量資料處理。

端雲拉通,能夠讓端和雲進行有效的協作。

場景結合,基于場景建構中繼資料管理便于快速接入。

一鍵處理,簡化配置和使用、提高系統易用性。

智能分析,引入業界領先的處理能力,特别是AI能力。

标準統一,通路接口統一為阿裡雲的标準。

場景化封裝,一站式使用,普惠AI內建 ——阿裡雲釋出智能媒體管理産品

對于雲存儲上的海量資料,通過授權通路的安全設計,讓資料處理分析服務能夠有權限通路資料,在此之上建構資料智能處理架構,該架構針對離線處理優化設計,同時支援實時處理能力。基于該處理架構,引入了業界領先的資料處理能力,包括各種AI能力。利用離線處理能力關聯授權的雲存儲,可以提供便捷的存量資料一鍵分析,通過該分析過程建構價值中繼資料,支撐更好的内容檢索。通過這樣的設計,進而提供如下功能:

普惠AI算法,提供豐富功能。人臉分組、圖檔打标、版權、鑒黃等能力。

價值中繼資料,為客戶帶來新的增長點。整合價值中繼資料,提供智能分析搜尋。

OFFICE文檔處理,簡化客戶使用。提供典型的OFFICE檔案格式轉換,便于移動裝置浏覽辦公文檔。

場景化、一鍵式處理,提高易用性。基于場景模版,結合實時、離線處理引擎,一鍵生成網盤關鍵中繼資料。

場景化封裝,一站式使用,普惠AI內建 ——阿裡雲釋出智能媒體管理産品

如圖是IMM服務的架構依賴上下文,服務本身的架構分為2層:處理引擎、中繼資料索引。

對下依賴阿裡雲的對象存儲、檔案存儲等服務,通過安全的機制通路裡面存儲的非結構化資料(例如圖檔、視訊),提取價值資訊。

對上依賴場景了解,進行封裝,支撐視訊網盤、手機相冊、社交圖庫、家庭監控等圖檔、視訊應用場景,為它們産生新的價值。

基于阿裡雲存儲,就近建構計算架構,該架構支援批量異步處理、準實時同步處理,在一鍵關聯雲存儲(例如,指定Bucket的目錄字首、指定Bucket的某個對象)後,實作快速的自動資料處理,通過整合業界領先的資料處理算法,處理引擎提供如下功能。

OFFICE文檔格式轉換。支援将OFFICE文檔轉換為JPG圖檔格式,進而更好的支援網盤的文檔預覽功能。

大圖處理。支援将超大的圖檔進行切割、縮放處理,友好的支撐相冊、圖庫場景的精細看圖功能。

标簽檢測。通過人工智能技術,識别圖檔、視訊中的物品标簽,進而實作機器的制動打标,更好的支撐推薦應用。

人臉檢測。通過人工智能技術,識别圖檔、視訊中的人臉,檢測出人臉框,判斷人臉姿勢、年齡、性别等屬性。

基于處理引擎提供的功能,通過對場景的深入了解和梳理,IMM封裝了場景的中繼資料設計,對外提供場景的中繼資料通路接口,簡化場景應用的設計難度、無須關注中繼資料索引資料庫的運維工作,目前支援如下的中繼資料索引。

人臉分組索引。建構中繼資料集合,然後調用人臉分組的接口分析圖檔,把得到的中繼資料加入到該中繼資料集合中,進而可以得到該集合中相似的人臉。通過該索引,可以快速的支撐網盤的人臉相冊、家庭監控的陌生人檢測、甚至新零售的顧客管理等場景。

标簽分組索引。建構中繼資料集合,然後調用标簽分組的索引接口分析圖檔,把得到的中繼資料加入到該中繼資料集合中,進而可以根據标簽搜尋圖檔。通過該索引,可以快速的支撐網盤的場景相冊、家庭監控的寵物跟蹤、甚至暴力、恐怖、色情圖檔等标簽的搜尋。

場景化封裝,一站式使用,普惠AI內建 ——阿裡雲釋出智能媒體管理産品

IMM的所有資料處理請求都在排程架構下執行,例如上述架構中提到的處理引擎層、中繼資料索引層請求,它由2部分組成:

運作執行個體(Instance)。運作執行個體是運作指定資料處理功能的節點,例如運作圖檔打标功能的節點。它可以是虛拟機、或者Docker,能夠采用預留類型、或者Spot競價類型的執行個體,支援部署在阿裡雲的VPC(Virtual Private Cloud)環境,保證資料處理功能的安全性、隔離性。

排程控制器(Schedule Controller)。排程控制器負責把IMM接收到的請求分發到指定功能的執行個體上,它支援接收同步、異步的請求,提供準實時、離線的排程。針對負載的變化,實作了執行個體資源池的彈性伸縮、故障處理、自動更新等能力。

當排程架構收到同步的請求時,例如DetectTag進行圖檔打标分析時。排程架構将會把請求分發到請求隊列的Pipeline,然後根據後端執行個體的節點狀态、負載情況快速轉發請求,進而達到準實時排程的能力。為了保證請求的低延遲時間,以及請求的成功率,通常選擇預留的執行個體。

當排程架構收到異步的請求時,例如CreateTagJob指定OSS的桶、字首進行批量的圖檔打标分析時。排程架構将會把請求放到排程器,排程器周遊OSS桶、字首的對象,然後生成單個對象的資料處理請求并分發到多個請求隊列中,再根據後端執行個體的節點狀态、負載情況快速向多個執行個體轉發請求,進而達到離線排程的能力。為了保證離線排程的成本,通常選擇Spot類型的競價執行個體。

通過上述排程控制和資料處理分離的架構,排程架構提供如下亮點:

準實時、離線排程。針對離線處理成本效益競争力的優化設計下,也能提供準實時能力,實作資料處理的閉環。

同步、異步請求。支撐一鍵式的異步處理需求同時,還提供了同步請求的靈活性。

資料處理能力的安全性。利用VPC部署資料處理的執行個體,保證了資源的隔離、安全的屏蔽。

IMM提供控制台操作和API接口,通過控制台快速的建立IMM的項目,然後體驗IMM的資料處理功能。

場景化封裝,一站式使用,普惠AI內建 ——阿裡雲釋出智能媒體管理産品

登入阿裡雲控制台,執行如下操作:

第一步,開通智能媒體管理服務。開通後,即可使用IMM提供的功能。

第二步,建立項目。使用IMM必須要建立項目,它是IMM資源管理、計費的基本單元。

場景化封裝,一站式使用,普惠AI內建 ——阿裡雲釋出智能媒體管理産品

建立了項目,就可以體驗IMM支援的功能:

格式預覽。支援OFFICE文檔轉換,并用圖檔方式預覽。

人臉檢測。檢測照片中的人臉,識别年齡、性别,眼部狀态資訊。

圖檔打标。檢測圖檔包含的标簽資訊,以及置信度值。

如下是IMM典型功能的API調用示例。

下一階段,IMM将和OSS內建拉通:

在OSS控制台內建IMM功能。實作OFFICE文檔的預覽,媒體對象的AI功能。

在OSS提供存量資料的IMM處理對接。可以通過OSS的控制台,選擇某個桶或者其目錄,調用IMM的批量異步任務,例如批量鑒黃,進而享受高成本效益、便捷的資料處理。

在OSS的API中拉通。調用oss的x-oss-process處理引擎時,調用到IMM的API進行處理。

通過這樣端的端的內建,進而讓您在雲上的管理更加易用。

<a href="https://yq.aliyun.com/articles/581576">智能媒體管理産品文檔轉換/預覽功能介紹(1)---Cloud Native架構篇</a>

<a href="https://yq.aliyun.com/articles/581874">智能媒體管理産品文檔轉換/預覽功能介紹(2)---轉換原理篇</a>

<a href="https://yq.aliyun.com/articles/582083">智能媒體管理産品文檔轉換/預覽功能介紹(3)---前端預覽篇</a>

繼續閱讀