天天看點

如何從900萬長尾中找到下一個爆點

與人的經濟地位一樣,社交媒體中受歡迎的内容由于得到廣泛傳播,隻會越來越受歡迎。比如,一個圖像的流行并不一定象征着其品質過硬,某些大受歡迎的内容有着不佳的品質。但想找到高品質卻不受歡迎的内容就有點困難了。

這是因為流行性遵循一個幂次定律:大部分注意力都集中在一小部分的内容上,而隻有一小部分注意力放到了其餘絕大多數的内容上。圖檔共享網站flickr有約2億張照片,其中1.66億張隻有五個及以下的人喜歡。

在不受歡迎的長尾效應中一定藏有許多攝影佳作。但如何找到它們呢?

意大利都靈大學的研究人員就找到了方法,他們訓練機器視覺算法識别美,然後讓它搜尋flickr中的長尾圖檔,找到沒人注意的佳作。

他們首先從flickr資料庫入手,收集大衆關于其中10000張圖檔審美标準的意見,包括受歡迎和不受歡迎的圖像,主題分為人、自然、動物以及城市四類。圖檔品質由高到低分五個等級,每個圖像至少由5人評定。這個過程會生成每種類别圖像的基本标準。

接下來,團隊使用資料集開發了crowdbeauty機器視覺系統,識别每一類圖像。為做到這一點,算法運用一些準則來分析每一張圖檔,如其參照物、亮度、色彩、圖檔本身的布局特點。

算法會學習這些标準如何影響最終的審美評價,之後它會經過從未出現過的照片的測試。結果十分準确,特别是在動物和城市照片上。

最後,crowdbeauty對flickr上的900多萬圖像進行了分析,以挑選出還沒有流行起來的漂亮圖檔。

結果令人印象深刻,crowdbeauty找出了很多美麗的照片,在受歡迎程度上,這些照片與已經很受喜歡的圖檔不相上下,好評度僅低了1.5%。

如何從900萬長尾中找到下一個爆點

左邊是不受歡迎的圖檔,中間是受歡迎圖檔,右邊是crowdbeauty選出的圖檔

這立即引發了各種應用程式産生的可能性,其中一個想法是利用crowdbeauty找到還沒有流行起來的美麗的圖檔。換句話說,crowdbeauty有可能通過突出被忽略但有才華的人,使圖檔分享平台民主化。

如果你自認為很有才華卻沒得到賞識,可以等着crowdbeauty來發現你。

原文釋出時間為:2015-05-26

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀