天天看點

報告老闆!這個阿裡程式員每天上班就看别人接吻

我叫吉恒杉,29歲,是一名“吻戲鑒定師”。

和女朋友剛談戀愛的時候,我說我的工作是訓練計算機識别出吻戲鏡頭。她聽完覺得特别不可思議,誰能給錢讓你幹這個呢?

如果你用手機、電腦看過視訊,一定感受過進度條上的情節提示,可以迅速找到自己想看的明星或情節。

沒錯,這些就是我們幹的!

報告老闆!這個阿裡程式員每天上班就看别人接吻

正經的,在優酷我們的崗位叫人工智能标注員。我每天訓練機器識别“接吻”鏡頭,然後将成百上千幅内容各異的畫面标注成兩類——“接吻”和“非接吻”。“吻戲鑒定師”是同僚們的戲稱,但說實話,我挺喜歡。

選擇這個工作,一開始是因為和我的碩士專業計算機視覺剛好吻合。通俗地講,就是“教電腦看懂世界”。現在我每天教電腦看懂“什麼是接吻”,可以說,契合度百分百了。當然,這個工作既給大家帶來快樂和幸福,又能以工作的名義看網劇(哈哈哈哈哈……這個可能是重點),最愛《軍師聯盟》,吳秀波鐵粉。

報告老闆!這個阿裡程式員每天上班就看别人接吻

做一名合格的人工智能标注員其實也不那麼容易。身邊越來越多的人用手機和電腦看視訊,大家不僅是簡單地看劇,還想看更精彩有趣的片段、集錦,更主動地找到自己最想看的明星或者場景。

要想實作搜尋和智能編輯,還真需要不少“人工”。要給成百上千幅吻戲畫面打上标簽,先要探讨什麼樣的畫面算是吻戲,制作模型應該怎麼畫,然後訓練機器人識别什麼場景是“接吻”,通過數次的技術調試,讓機器人自動從海量視訊中,迅速抓取場景。

報告老闆!這個阿裡程式員每天上班就看别人接吻

是以如何教機器識别接吻成了首要的難題。我們要從圖檔庫和視訊中截出數千幅圖檔,從中一張一張标注出“接吻”的畫面。這個過程叫做“資料标注”。

我們一天要标注幾百張接吻的圖像,最多時标注上千張,盯着電腦螢幕看一天,最後都有點麻木了。通常資料标注得越準确、數量越多,模型的效果就越好。自然,機器識别的效果就會更好。

報告老闆!這個阿裡程式員每天上班就看别人接吻

但是機器畢竟不是人,對有些複雜情況也無法識别。比如,有的接吻深情對視,而有的若即若離,團隊裡的夥伴們不得不列印出角度各異的“接吻”畫面貼在牆上,一群人激烈讨論到底怎麼才算“接吻”。

“吻戲鑒定”還需要根據機器的反應進行繁瑣的後期調試。機器學習上千幅圖檔中的特征,然後再給機器一張“接吻”的畫面,它就能認出來了。

目前,我們團隊已經為2萬多條吻戲打上了标簽,一條5分鐘的視訊處理可在10秒内完成。比如《三生三世十裡桃花》,每集50分鐘的視訊被切割成3000幀圖檔,機器隻需要5秒就能挑出來楊幂和趙又廷的吻戲。

報告老闆!這個阿裡程式員每天上班就看别人接吻

現在我和團隊的小夥伴們還開始接觸和研究其他場景,比如哭戲、打戲,接下來還要鑒定體育比賽中的射門、撲球、投籃、慶祝等畫面,這樣觀衆看視訊時能很友善的去找到自己想看的情節。

當然在做标注的時候并不是每次都能成功,往往會因為一些小的差别,導緻失敗,重新再來。這就要求我們不光要看圖檔,還要時常“探班”,到比賽或節目現場去觀察和體會每個場景、動作的細小差别。

報告老闆!這個阿裡程式員每天上班就看别人接吻

我們就想用自己的一點點努力,讓你們看劇的時候,更爽一些。

好了,不說了,我要去訓練機器識别古力娜紮和迪麗熱巴了。

原文釋出時間為:2018-08-9

本文作者:橙子

本文來自雲栖社群合作夥伴“

阿裡味兒

”,了解相關資訊可以關注“

”。

繼續閱讀