天天看點

阿裡音樂打算用大資料發掘下一個TFboy

大資料時代,音樂界正迎來一場革命:下一首歌流行什麼,聽衆說了算。昨天,記者從阿裡音樂得到證明,阿裡音樂正在開展一項嘗試:将阿裡音樂平台上的使用者行為資料與社交網絡資料、新聞資訊資料等結合,借助阿裡雲“數加”上的大資料工具,預測哪些音樂人會成為下一個音樂巨星。

有猜測指出,這項技術同阿裡音樂一直秘而不宣的新平台有密切聯系。

據阿裡音樂的資料工程師介紹,使用者在音樂平台上收聽、分享、收藏音樂的行為,以及在社交網絡、視訊網站、貼吧論壇上做出關注、評論、轉發、點贊等動作,反映了對音樂人的喜好程度。“我們用word2vector算法對關鍵詞進行聚類,結合轉發點贊等原始及衍生特征,通過gbdt分布式算法進行預測分析。尋找隐藏在其中的下一個tfboy”。

不過,收集所有人的意見并做出判斷,并非易事。阿裡音樂的工程師透露,該項目僅每天要處理的阿裡音樂平台資料就達到了100tb,更不用說海量的外部網際網路資料。

值得慶幸的是,大資料技術的飛躍發展為這一設想的實作提供了基礎。在過去的5年裡,全球大資料計算性能實作了超過21倍的提升。2011年,tritonsort排序100tb資料需要8274秒;到2015年,阿裡雲的maxcompute隻需要377秒。除了maxcompute,阿裡雲的分析性資料庫analytic db可以對90億條的粉絲關系資料進行實時查詢計算。

本文轉自d1net(轉載)

繼續閱讀