天天看點

獨家丨慧川智能釋出首款視訊了解API,要讓AI真正取代“剪片子”的人類?

獨家丨慧川智能釋出首款視訊了解API,要讓AI真正取代“剪片子”的人類?

慧川智能ceo:康洪文

據康洪文介紹,這款api可利用深度學習技術,對一段完整輸入的視訊中所涵蓋的圖像和視訊流進行模式識别、拆解和結構化,進而對視訊内容實作精确到每一幀的處理。

康洪文向雷鋒網(公衆号:雷鋒網)表示,智影·視訊了解api目前已向第三方開發者、媒體、内容制造者等群體開放使用。值得注意的是,該款api還有一個重要意義在于,可實作視訊内容的結構化。是以,這款api的開放在目前視訊内容了解相對處于空白狀态下來看,頗具意義。

又一個從學術界走向産業界

獨家丨慧川智能釋出首款視訊了解API,要讓AI真正取代“剪片子”的人類?

左:慧川智能創始人康洪文   右:cmu大學計算機科學和機器人研究所教授金出武雄

說起慧川智能的初創團隊,其實也有點意思:創始人康洪文,cmu博士,曾在微軟研究院工作,研究方向主要為ai及視訊了解;cto黃健,賓州州立大學博士,曾與康洪文同為微軟研究院同僚,此前曾在google工作,研究方向為nlp和機器學習;首席架構師劉曦,與康洪文同為cmu博士,曾在conviva工作,研究方向主要為雲計算和視訊大資料。

cmu作為計算機排名世界第一的學府,已經給學術界和産業界輸送了非常多優秀的人才。像計算機視覺鼻祖金出武雄,現任微軟全球執行副總裁的沈向洋等,皆來自于此。巧合的在于,康洪文在cmu和微軟都有分别“師從”金出武雄和沈向洋的經曆。

除去這些光彩的“緣分”,還得一提的是,2015年,三位初創成員就已有過一段與視訊ai處理相關的創業經曆。兩年過後,康洪文、黃健和劉曦又因為一些行業态勢走在了一起,開啟了二次創業。

“目前短視訊非常火”

“就視訊而言,90%的功勞歸屬于創意,隻有5%有賴于'體力'。很多人就是被這些5%的體力給牽制住了。”康洪文向雷鋒網如此說道。

了解到這一行業現象,一與康洪文研究方向和從業經曆有關,二則是與湖南衛視的合作讓其對此深有體會。往往一檔大型綜藝節目,一個小時的視訊,背後往往需要上千個小時的幕後剪輯工作。康洪文發現,在這裡邊,其實有很多繁瑣的工作是完全可以依賴機器來完成的,并且機器的速度和效果會更快更好。

于是,康洪文開始和湖南衛視、浙江衛視等有了合作,幫他們做了一些簡化工作流程的系統和産品。而智影正是在這些系統之上衍生出來的一款ai産品。

不過,這還不夠。

“目前短視訊非常火”,康洪文有點興奮。

暫不提月活使用者已超20億的facebook,單就國内而言,網絡視訊活躍使用者已達5.5億。微信每天産出100萬篇以上的公号文章,其中就有67%的内容适合生成視訊。而随着機器學習、cv和nlp應用的不斷拓展,使用者正慢慢從圖像、文字轉向視訊和短視訊使用,大家越來越依賴大資訊量的視訊内容。

從這一行業大趨上來看,短視訊終将爆發不是沒有道理。然而,ai業界對文本、圖像的處理技術和算法已漸趨成熟,但對視訊資訊的了解卻暫時處于空白狀态。業内甚至有人認為“視訊是一種暗物質”,機器無法知道視訊裡究竟有哪些内容,或者視訊之間有哪些聯系。“它們占了全網90%的存儲空間,然而這種結構化的資料卻完全沒有。”

市場的痛點就此形成。這一切都讓一直深耕在cv領域的康洪文感覺到,既是挑戰,也是機遇。

2分鐘視訊,人力4小時剪輯、機器隻要30s,效果一樣,如何做到?

康洪文給雷鋒網列了這樣一項數值,2分鐘的視訊,人類需要花費4小時在素材的收集、剪輯和渲染上,直至整個視訊出爐,而智影可在30s内自動生成這段視訊并達到相同的效果。

如何實作?

智能視訊技術的學術積累
獨家丨慧川智能釋出首款視訊了解API,要讓AI真正取代“剪片子”的人類?

在1990年以前,學術業界開始有了一些關于視訊合成技術和物體檢測識别的讨論和研究。2000年以後,特别是2005年左右,整個學術業界開始泛起了對視訊合成,視訊内容了解的研究。據google學術查閱的資料表明,在2005年以前,關于視訊内容了解這一項就有4530條結果的收錄。近十年來,這一學術搜尋結果已增至17000條。同理,視訊合成、物體檢測識别、機器學習和nlp的理論研究也正如大家感受到的一樣呈井噴态勢。

這些學術研究成果确實給ai業界的創業者們搭起了架子。

視訊資料結構化的優勢

此外,托賴初創團隊在cmu的學術研究成果,以及在facebook、微軟、google等科技巨擘的從業經曆,慧川智能可以從各個公開的資料源裡獲得全網的資料,并借助自身ai算法的積累對其進行内容結構化的處理。

獨家丨慧川智能釋出首款視訊了解API,要讓AI真正取代“剪片子”的人類?

據康洪文介紹,慧川智能在此其中還實作了一項新的research成果,也是今日康洪文在ccf-gair

2017會場上釋出的重頭戲:根據輸入的一段完整視訊,機器能夠利用深度學習對其涵蓋的圖像和視訊流進行模式識别,拆解和結構化,進而對視訊内容實作精确到每一幀的處理。比如,在20-40幀出現了一輛蘭博基尼汽車,在60-95幀出現了一段兩個人在對話。之後,從100-120幀,是一輛商務客機滑行出來直至結束......

這種算法可幫助機器很好的了解視訊内容,進而實作更高精确度的視訊的智能化處理。

是以,在資料結構化相對空白的行業态勢下,相較其他公司而言,這點算是慧川智能的一大優勢。

背後的cv、nlp、機器學習

不過,視訊資料結構化隻能算是關鍵助力劑的一種,讓智影做到如上小标題的成績依然離不開架構在智影背後的機器學習、cv、nlp和資訊檢索貢獻。

具體的運作原理可看這張圖:

獨家丨慧川智能釋出首款視訊了解API,要讓AI真正取代“剪片子”的人類?

據康洪文介紹,智影的運作流程有以下4步:

·  文本分析 ·  素材比對 ·  線上剪輯、預覽 ·  雲端視訊渲染

其中關鍵的基礎步驟在前面2個。在一個擁有足量資訊和内容的資料庫裡,當一篇文章被上傳到機器裡,在nlp和機器學習的幫助下,機器會先對其進行文本分析,抓取文本中的如時間、地點、人物、事件等關鍵要素,并予以了解。接續,機器會進入“素材比對”階段。因為這些素材本身是不帶标簽資訊的,是以系統需要進入其中找到這些相關資訊。比如,在全網所有的圖檔、社交媒體、視訊片段和原聲廣告中,将某個特定的人出現的場景都截取出來,這其中就需要cv的助力。完成了兩項最基礎也最難的工作之外,機器就能接續實作線上剪輯、預覽和渲染,直至生成整個視訊。當然,整個過程都免不了機器學習的支援。

“相對其他公司來說,智影這款api産品在物體識别的範圍、種類、精度和穩健性上都算是最領先的。”康洪文頗有底氣的如此表述。

内容視訊化會給未來産業結構帶來哪些影響?

當問及這個問題時,康洪文向雷鋒網表示,這是一個很大的問題。

“它應該會帶來整個産業結構的改變。”康洪文拿google舉了個例子。

google之是以能成為google,一大原因在于其對文本的結構化處理的能力。以google search為核心,在其周圍還有index技術、adwords業務等,所有這些都建立在對文本的深度了解之上。

然而,随着使用者越來越依賴大資訊量的視訊内容,并逐漸習慣短視訊對文本和圖像的取代,在目前視訊内容暫時還缺失結構化方案的過渡階段,在行業發展到一定程度之後,必然會産生一類對視訊内容提供結構化或标準化處理的方案商公司。

而這個過程有趣的地方在于,提供ai技術方案商的公司不會“閉門造車”或“自個玩自個”,他們會逐漸将自己的應用開放給第三方開發者,媒體甚至所有人(慧川智能已經将智影開放出去了)。當“資訊視訊化”發展到一定規模之後,必将有更多的人參與進來并使用這些産品,這一過程又将産生足量的資料,反過來即會刺激整個行業的爆發性增長,直至巨頭的出現。

康洪文說,“如果我們是賦能的一方的話,肯定會創造更大的價值。”

結語

談及未來可能會遭遇的競争,康洪文表現的非常自信,“因為任何一家ai公司,同一種算法是不可能立馬被應用在其他領域之上的。每個應用領域都能催生很多的技術細節,所有公司都需要持續不斷的去解決技術上出現的挑戰和困難。它跟産品經理時代,或者營運驅動産品的公司不一樣,不是看了它的産品模式就能學會的。”

事實上,目前國内也有一些創業公司在做一些消費級視訊的ai應用,如給視訊資訊做标簽化進而達到精準廣告投放的效果。在康洪文看來,這些技術應用更多的是一種“任務驅動”。機器可能會對指令型任務完成的很好,但仍然不會增加對視訊内容的了解。

随着機器學習能力的增強,ai在一些專項任務上已經表現出超越人類的特質,如alphago對弈,ct圖像的識别,圖檔情景的分類等。一直以來,人類對ai的了解是僅限于做一些機械化的工作,但在康洪文看來,随着機器人對專項任務的本質的了解加深之後,就能獲得創造力的延伸,如譜曲機器人可達到以假亂真的程度,機器人寫詩超過人類等等。ai在其“可做事情”和“不可做事情”之間,界限正變得慢慢模糊。

本文作者:李秀琴

繼續閱讀