
功能介紹
隻要在天貓精靈上設定指定的時間段,即使主人不在家,天貓精靈也會在家替你看着小貓小狗,把他們在家裡玩耍的視訊剪輯合成并儲存下來。無論996還是007,仍然可以陪伴你的萌寵成長的一點一滴,再也不會工作忙而錯過任何精彩瞬間了。
對着天貓精靈CC/CCL說:天貓精靈,打開愛家看護。設定智能攝影的運作時間後,對準家中小貓小狗常常調皮搗蛋的地方,看看會錄到什麼不可思議的東西吧。
VLog與智能攝影
VLog市場巨大
Vlog的本質是多個短視訊的剪輯合成,即圍繞着一個中心主題,創作者拍攝多個簡短視訊,然後剪輯合成一個故事性較強的視訊片段。其中展現的也是Vlog的本意,視訊日志,記錄生活。這樣的加法操作,意味着對于創作者的拍攝、剪輯、配樂、腳本和節奏都有一個較高的要求。根據資料顯示,2018年的短視訊MAU已過5億,DAU峰值1.6億,反超綜合類視訊。在使用者習慣方面,短視訊的消費習慣已經在國内使用者群體中建立,對于Vlog的接受程度會比較高。
智能攝影能幹啥?
智能攝影最早可追溯到2017年時曾經掀起一波轟動的Google Clips,号稱可以透過廣角鏡頭自動抓拍使用者喜歡的畫面。隻要把Google Clips擺設在家裡,使用者就不用操心按快門的時機了。
智能攝影之是以掀起一波轟動,是因為它成功擊中了使用者的幾個痛點:
1) 沒有時間:現代人忙碌,連家都回不了了,哪有時間幫家裡的小貓小狗拍照呢?就算拍下來了,加濾鏡、視訊剪輯、特效什麼的都需要額外的時間。
2)千篇一律:在大部分情況下,“攝影”都是需要攝影者與被攝影者感覺的。這導緻大家拍出來的照片都差不多,好看的照片不在少數,有趣的内容卻往往是意外拍到的。
3)拍攝小動物:小動物的攝影是特别困難的任務,因為它們不會乖乖的不動讓你攝影;另外,寵物在人前人後一個樣:前一秒還是溫馴的小狗,主人出門後立刻變成喪心病狂的二哈。如何拍下小動物的真實面一直是個曆史難題。
為了解決上述的使用者痛點,我們研發了能在天貓精靈上運作的輕量級智能攝影算法《萌寵大機密》,專注于自動産出寵物短視訊,讓使用者能夠不費心思的将自己的萌寵放上VLog平台傳播。
智能攝影是怎麼做到的?
這背後的算法來自一個有趣的AI研究領域:興趣度預測(Interestingness Prediction)。與我大淘寶強力的推薦系統類似,興趣度預測會給每段視訊、圖像預測一個興趣分,猜測使用者是否會喜歡這些内容。
雖然谷歌發表的文章《Automatic Photography with Google Clips》展現了Google Clips背後的興趣度預測算法,他的算法展現了幾個缺陷,同時也是智能攝影的業界難點:
難點1:大量的專業标注
Google Clips項目雇傭了大量的專業攝影師,并且使用了一種叫做“相對興趣”的标注政策:給與攝影師兩個視訊,回答哪一個視訊更有趣。項目中對1000多段的段視訊做了5000萬次的成對标注,這注定了算法的疊代困難與成本高昂。
難點2:缺乏感覺能力
Google Clips做興趣度預測是完全憑借使用者興趣的統計學,并不具備感覺能力。換句話說,算法無法告訴你“這條視訊裡面有一隻可愛的小狗,是以我猜你會喜歡。”這不是Google Clips的鍋,而是興趣度預測領域一般的研究思路,但這注定了這款相機無法真正的了解自己究竟幹了什麼。
相對的,我們的萌寵大機密順利克服上述量大難點,成功的在商業場景落地、服務使用者。
萌寵大機密:概觀
目前萌寵大機密算法服務橫跨了三大核心功能:内容了解、精彩截取、智能剪輯。
内容了解
由算法中攜帶的AI感覺能力,可以了解每段視訊的内容場景并且打标。讓AI除了“為什麼精彩”之外,還能回答“什麼東西精彩”。
精彩截取
透過端+雲的智能攝影算法,截取視訊中最精彩的部分。這部分仰賴大量内容了解的部分,透過客觀的内容感覺來提升主觀的興趣預測分數。
智能剪輯
提供智能的視訊自動編輯能力,包括:智能倍速,自動合輯、智能配樂等等。搭配各種智能效果,可以讓原本萬中選一的精彩片段變得更加趣味橫生!
萌寵大機密:架構
萌寵大機密采用結合端+雲關聯的設計:由端計算初篩可能感興趣的視訊内容,上傳到雲端進行進一步的裁剪合成,如下圖:
我們的算法設計有兩個優勢,高精确度與保障隐私。在精确度方面,透過雲端的高清興趣度預測,可以把視訊的興趣度沿着時間畫出精細的曲線,進而把最精彩的部分切割出來、剪輯合成出有趣的輸出視訊。在保障隐私方面,我們做了三項重點保護:
- 經由端上的粗篩算法,可以屏蔽大量的無關的畫面不上傳雲服務,更不會落盤儲存。
- 所有經過雲計算的視訊資料都會經過使用者授權與資料脫敏,避免隐私外洩。
- 最後的視訊都是儲存在使用者的私有雲空間。
這個架構中,端上采用的是AI Labs自研的ACE引擎,可以經得起24hr的高效運作。雲服務是AI Labs自研的萌寵大機密離線服務,高效高清的算法保證在一小時内可以将上傳的零碎視訊整合成精彩瞬間輸出。
興趣度預測方式
所謂萬變不離其宗,所有AI開發基本上都離不開兩個基本問題:資料标注+模型設計。
資料标注
我們從衆包采集了大量的寵物視訊,并且給衆多的标注人員标注其中的有趣時間段。與Google Clips不同,我們的方法采用“絕對興趣分”,也就是每個視訊沒有比較基準,憑标注人員自己的标準決定有趣與否。
跟“相對興趣分”比起來,“絕對興趣分”需要的标注資料較少,但是較容易受主觀影響。是以我們每個視訊至少要求10個标注人員标注,避免主觀的标注影響訓練結果。當資料規模大的時候,絕對興趣分既能保證資料标注的客觀性,又能保證标注量級維持線上性增長速度内。
因為每條視訊會經過多人的标注,是以我們可以統計出一條興趣度曲線。并以這條興趣度曲線作為我們的興趣的真實标注。如下圖所示:
模型訓練:端計算
從前面的算法概觀圖中可以看出,端上算法将固定時長的視訊作為輸入,并且輸入至一個粗篩模型中預測興趣度、是否包含寵物,并決定是否進一步上傳。是以端上的問題實際上是一個二分類問題:是否包含寵物且精彩。
為了讓萌寵大機密算法能夠知道自己到底看到了什麼,回答這個視訊的精彩理由,我們在算法中加入了感覺子產品:對逐幀的圖像打标,得知每一幀裡面的是否有貓、狗、人物、以及大緻的位置。訓練流程大約如下圖:
如圖中所示,逐幀圖像打标的輸出會變成興趣度預測模型的一部分輸入。興趣度預測模型以逐幀的特征與打标結果為輸入,并根據興趣分的标注結果計算損失函數。透過這種設計,可以確定算法模型在預測視訊内容的同時能夠知道視訊裡面包含了什麼内容,例如是否有寵物。
模型訓練:雲計算
雲上的模型與端上差不多,但是有幾點不可忽視的差異:
1) 模型表述能力:雲端比裝置端擁有更多、更彈性的算力與記憶體,可以部署感覺能力更強、FLOPs更高的模型。透過端上替雲端去掉大量的視訊源,雲端可以使用更複雜的模型,同時服務更多的客戶。
2)視訊融合能力:端上的上傳視訊是固定時長的視訊,雲端算法在處理時必須周遊同個使用者同個裝置的臨近時間段視訊,并且把多個視訊融合、切割成新的頻輸出。
為了實作視訊融合能力,雲端模型在最上層加入了時序預測模型:對每一幀都輸出一個興趣度分,進而對一個視訊輸出一個完整的興趣度曲線。
3)視訊剪輯能力:每個視訊都得出各自的興趣度曲線後,就可以透過時域分割方法進行剪輯,得到最終的精彩視訊了!
不隻是攝影
成果示範
目前萌寵大機密支援的攝影對象僅包含貓、狗,其它寵物我們後續也在不斷豐富中。