天天看點

一周AI最火論文 | 萬物皆可預訓練,NLP和CV皆獲巨大性能提升

開源軟體(OSS)開發人員專業知識一覽

涉及開源軟體的項目個數和開發人員人數現在越來越多了。GitHub報告稱,僅在2019年,新加入的開發人員就超過1000萬,而新建立的項目超過4400萬個。

OSS生态系統以其數以千萬計的項目和開發人員而煥發生機,同時也頗具威懾力。它存儲着最關鍵的基礎結構的源代碼,并擁有最傑出的開發人員作為後盾。然而,低品質、甚至惡意軟體,以及新手開發人員也比比皆是。是以,雖然外部捐款對于OSS項目至關重要,但是捐款是否被接受(甚至被考慮)都取決于開發人員和捐款人之間互相信任與否。

本文定義了API、開發人員和項目的技能棧。與通過彙總活動數相比,這項定義能更準确地反映開發人員的知識;與關注開發人員過去修改的代碼檔案相比,這項定義更為廣泛。

原文:

https://arxiv.org/abs/2005.10176v1

開源BiT:探索用于計算機視覺的大規模預訓練

計算機視覺研究人員普遍認為,目前的深度神經網絡總是渴求更多的帶标簽資料。比如訓練目前最新的CNN時需要諸如OpenImages或Places等的大資料集,它們包含了超過1M的帶标簽圖像。但很多時候,普通從業人員難以收集如此多的帶标簽資料。

類比BERT和T5在語言領域取得的進步,Google AI研究人員認為,大規模預訓練也可以提高計算機視覺模型的性能。

在本文中,研究人員表明,在對大量通用資料進行預訓練的情況下,簡單的傳輸政策就能在大型資料集和資料量少(最少每類隻有一張圖像)的任務上都得到好的結果。他們現在釋出了BiT-M模型,在ImageNet-21k上進行了預訓練的R152x4,以及為在Jax、TensorFlow2和PyTorch間的傳輸提供支援的協同實驗室。他們希望該模型能替代常用的ImageNet預訓練模型為從業者和研究人員所用。

Github傳送門:

https://github.com/google-research/big_transfer https://arxiv.org/abs/1912.11370

用于Web規模推薦系統的多視圖多任務圖表示學習架構

将圖表示學習與多視圖資料相結合來進行推薦是業界一大趨勢。現有方法大多可以被歸類為多視圖表示融合。它們首先建構一張圖,然後将圖中每個節點的多視圖內建到單個緊湊表示中。這些方法近來在工程和算法方面都引起了人們的擔憂。

為了應對這一挑戰,本文研究人員提出了M2GRL。這是一種用于Web級推薦系統的新型多視圖多任務圖表示學習架構。它為每個單視圖資料構造了一個圖形,從每個圖形中學習單獨的表示形式,最後對多個表示形式進行對齊以建立交叉視圖關系。M2GRL支援不限數量的資料視圖,并且可以分布式部署處理數十億規模的資料樣本。

M2GRL在淘寶網上的評估、離線實驗和線上A / B測試都顯示,M2GRL優于其他競争基準。

https://arxiv.org/abs/2005.10110v1

電子遊戲中的異常檢測

為了設計自動化的遊戲品質檢驗工具,一組研究人員提出了将遊戲中的錯誤識别為異常檢測(AD)問題。他們開發了State-State Siamese Networks(S3N),這是在這種情況下針對AD的有效深度學習名額,并探索了如何将其用作自動化測試工具的一部分。

研究人員通過對一系列Atari遊戲的評估進一步表明,S3N能夠建構有意義的“嵌入”,并且能夠成功識别許多常見類型的遊戲漏洞。

資料集連結:

https://www.kaggle.com/benedictwilkinsai/atari-anomaly-dataset-aad

代碼與訓練好的模型:

https://github.com/BenedictWilkinsAI/S3N https://arxiv.org/abs/2005.10211v1

英語推文的預訓練語言模型

澳洲eHealth研究中心與VinAI Research合作的研究人員最近提出了BERTweet這一模型,這是第一個針對英文推文的公共、大規模預訓練語言模型。BERTweet使用RoBERTa預訓練過程進行訓練,并且模型配置與BERT-base相同。

研究人員通過證明BERTweet優于其基準RoBERTabase和XLMRbase并幫助産生比以前SOTA模型更好的性能來證明BERTweet的優勢。該模型在POS标記、NER和文本分類的三個下遊Tweet NLP任務中均得到了展現。BERTweet發行版還旨在促進Tweet分析任務的未來研究和應用。

繼續閱讀