一周AI最火論文 | 萬物皆可預訓練，NLP和CV皆獲巨大性能提升

開源軟體（OSS）開發人員專業知識一覽

涉及開源軟體的項目個數和開發人員人數現在越來越多了。GitHub報告稱，僅在2019年，新加入的開發人員就超過1000萬，而新建立的項目超過4400萬個。

OSS生态系統以其數以千萬計的項目和開發人員而煥發生機，同時也頗具威懾力。它存儲着最關鍵的基礎結構的源代碼，并擁有最傑出的開發人員作為後盾。然而，低品質、甚至惡意軟體，以及新手開發人員也比比皆是。是以，雖然外部捐款對于OSS項目至關重要，但是捐款是否被接受（甚至被考慮）都取決于開發人員和捐款人之間互相信任與否。

本文定義了API、開發人員和項目的技能棧。與通過彙總活動數相比，這項定義能更準确地反映開發人員的知識；與關注開發人員過去修改的代碼檔案相比，這項定義更為廣泛。

原文：

https://arxiv.org/abs/2005.10176v1

開源BiT：探索用于計算機視覺的大規模預訓練

計算機視覺研究人員普遍認為，目前的深度神經網絡總是渴求更多的帶标簽資料。比如訓練目前最新的CNN時需要諸如OpenImages或Places等的大資料集，它們包含了超過1M的帶标簽圖像。但很多時候，普通從業人員難以收集如此多的帶标簽資料。

類比BERT和T5在語言領域取得的進步，Google AI研究人員認為，大規模預訓練也可以提高計算機視覺模型的性能。

在本文中，研究人員表明，在對大量通用資料進行預訓練的情況下，簡單的傳輸政策就能在大型資料集和資料量少（最少每類隻有一張圖像）的任務上都得到好的結果。他們現在釋出了BiT-M模型，在ImageNet-21k上進行了預訓練的R152x4，以及為在Jax、TensorFlow2和PyTorch間的傳輸提供支援的協同實驗室。他們希望該模型能替代常用的ImageNet預訓練模型為從業者和研究人員所用。

Github傳送門：

https://github.com/google-research/big_transfer https://arxiv.org/abs/1912.11370

用于Web規模推薦系統的多視圖多任務圖表示學習架構

将圖表示學習與多視圖資料相結合來進行推薦是業界一大趨勢。現有方法大多可以被歸類為多視圖表示融合。它們首先建構一張圖，然後将圖中每個節點的多視圖內建到單個緊湊表示中。這些方法近來在工程和算法方面都引起了人們的擔憂。

為了應對這一挑戰，本文研究人員提出了M2GRL。這是一種用于Web級推薦系統的新型多視圖多任務圖表示學習架構。它為每個單視圖資料構造了一個圖形，從每個圖形中學習單獨的表示形式，最後對多個表示形式進行對齊以建立交叉視圖關系。M2GRL支援不限數量的資料視圖，并且可以分布式部署處理數十億規模的資料樣本。

M2GRL在淘寶網上的評估、離線實驗和線上A / B測試都顯示，M2GRL優于其他競争基準。

https://arxiv.org/abs/2005.10110v1

電子遊戲中的異常檢測

為了設計自動化的遊戲品質檢驗工具，一組研究人員提出了将遊戲中的錯誤識别為異常檢測（AD）問題。他們開發了State-State Siamese Networks（S3N），這是在這種情況下針對AD的有效深度學習名額，并探索了如何将其用作自動化測試工具的一部分。

研究人員通過對一系列Atari遊戲的評估進一步表明，S3N能夠建構有意義的“嵌入”，并且能夠成功識别許多常見類型的遊戲漏洞。

資料集連結：

https://www.kaggle.com/benedictwilkinsai/atari-anomaly-dataset-aad

代碼與訓練好的模型：

https://github.com/BenedictWilkinsAI/S3N https://arxiv.org/abs/2005.10211v1

英語推文的預訓練語言模型

澳洲eHealth研究中心與VinAI Research合作的研究人員最近提出了BERTweet這一模型，這是第一個針對英文推文的公共、大規模預訓練語言模型。BERTweet使用RoBERTa預訓練過程進行訓練，并且模型配置與BERT-base相同。

研究人員通過證明BERTweet優于其基準RoBERTabase和XLMRbase并幫助産生比以前SOTA模型更好的性能來證明BERTweet的優勢。該模型在POS标記、NER和文本分類的三個下遊Tweet NLP任務中均得到了展現。BERTweet發行版還旨在促進Tweet分析任務的未來研究和應用。

一周AI最火論文 | 萬物皆可預訓練，NLP和CV皆獲巨大性能提升

繼續閱讀

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

Shell程式設計——sort排序、uniq忽略重複、tr替換壓縮删除、cut指定删除字段、正規表達式元字元sort 指令uniq 指令tr 指令cut 指令正規表達式

筆試面試題目：滑動視窗(二)

Linxu常用指令技巧彙總

httpd服務的部署、啟動、配置和簡單優化一、部署二、啟動三、配置檔案

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

資料結構與算法（27）——排序（二）

nginx 安裝錯誤資訊解決

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希