閱讀此文前，誠邀您點選一下“關注”，友善您随時查閱一系列優質文章，同時便于進行讨論與分享，感謝您的支援~

文|沐晚

編輯|智海弄潮

引言

深度學習的幾乎所有成功都源于監督學習。監督學習描述了使用損失函數将預測與手動注釋的基本事實對齊。

通過将這種學習政策與⼤型标記資料集相結合，深度學習可以實作卓越的性能。問題是收集這些帶注釋的資料集在所需的規模上非常困難。

例如，用于COVID-19快速響應的關鍵深度學習應用之一是問答。建構了COVID-QA，這是⼀個監督學習資料集，其中的⽂章⽤給定問題的答案範圍進行注釋。該論文的作者描述了工作23小時以産生124個問答對。

在深度學習的目前狀态下，拟合124個問答标注而不過度拟合是極具挑戰性的。

除了問答，自然語言處理（NaturalLanguageProcessing，NLP）研究人員也在探索抽象摘要在其中一個模型從一組輸入文檔中輸出一個新穎的摘要卡喬拉等。能夠收集到5.4K太長的資料集，未閱讀(TLDR)3.2K機器學習論文的摘要。

這需要雇用28名大學生來改進從OpenReview平台引導的資料。提供這些轶事是為了強調為具有數百萬個示例的知識密集型NLP任務管理帶注釋的大資料的困難。

一、背景資料增強

機器學習中研究較多的領域。增強中編碼的先驗知識的進步是以前工作與現在工作之間的主要差別之一。

正如我們稍後将在調查中深入讨論的那樣，計算機視覺中資料增強的成功得益于易于設計的标簽保留轉換。

例如，貓圖像在旋轉後仍然是⼀隻貓，在x或y軸上平移它，增加紅色通道的強度等。頭腦風暴這些保留語義的圖像增強很容易，而在文本域中做到這一點要困難得多。

我們相信我們關于文本資料增強的調查對于諸如為什麼現在？最近發生了什麼變化？生成模組化的最新進展令人震驚，例如用于圖像的StyleGAN、用于文本的GPT-3以及統一文本和圖像的DALL-E。

我們總結了許多關于使用提示為下遊任務調整語言模型的激動人心的工作。正如稍後進一步詳細讨論的那樣，我們相信生成模組化的這些進步可能會改變我們存儲資料集和建構深度學習模型的方式。

更具體地說，僅僅為了評估而不是表示學習而使用标記資料集可能會變得很普遍。

我們的調查與Feng等人有一些相似之處。與我們的大緻同時釋出。這兩項調查都尋求資料增強的明确定義，并旨在突出關鍵主題。

此外，這兩項調查都圍繞計算機視覺增強的成功以及這些增強可能如何轉移來叙述NLP增強的發展。提供了比我們調查中涵蓋的更深入的特定于任務的增強枚據。

我們的調查增加了重要概念，例如意義與形式之間的争論、反事實示例以及生成資料擴充中提示的使用。

深度學習的許多成功源于對大型标記資料集的通路，例如ImageNet。然而，建構這些資料集非常具有挑戰性和耗時。

是以，研究人員正在尋找無需手動注釋即可利用資料的替代方法。這是GPT-3或BERT等論文自我監督語言模組化成功背後的一個很大的動機。

資料增強遵循與克服使用有限标記資料學習和避免手動标記資料的挑戰相同的動機。例如，許多調查研究強調了他們的算法在對标記資料進行子集設定時的成功。

二、文本資料擴充的主題

餘部分中呈現的擴充目标的統一觀點。我們介紹了文本資料增強的關鍵主題，如加強決策邊界、蠻力訓練、因果關系和反事實示例，以及意義與形式之間的差別。

這些概念挖掘了解資料增強及其在語言進行中的特殊應用。

其中類邊界是從标簽配置設定中學習的。增強示例通常與現有示例僅略有不同。

對這些示例進行訓練會導緻原始示例與其各自的類邊界之間增加空間。明确定義的類别邊界會産生更穩健的分類器和不确定性估計。

例如，這些邊界通常使用源自t-SNE或UMAP的低維可視化來報告。

資料增強的⼀個關鍵主題是擾亂資料，以便模型更熟悉這些示例周圍的局部空間。擴充資料集中每個示例的半徑總體上将有助于模型更好地感覺決策邊界并導緻插值路徑變窄。

這是參考對原始資料點的小改動。在NLP中，這可能是删除或添加單詞、同義詞交換或控制良好的釋義。

僅通過增加曝光，模型就基于可⽤标簽對局部空間和決策邊界變得更加魯棒。

強力訓練深度神經網絡是高度參數化的模型，具有非常高的方差，可以輕松地對其訓練資料進行模組化。

拟合訓練資料對插值或在提供的資料點内移動具有驚人的魯棒性。

正如我們将在使用資料增強的泛化測試中展開的那樣，深度學習所面臨的困難是在訓練期間提供的資料點之外進行推斷。⼀個潛在的解決方案是用訓練資料暴力破解資料空間。

計算機科學中許多問題的上限解決方案是簡單地列舉所有候選解決方案。蠻力解決方案依靠計算速度來克服給定問題的複雜性。

在深度學習中，這需要對⼀組詳盡的自然語言序列進行訓練，以便測試集可以從中采樣的所有潛在分布都包含在訓練資料中。這樣，即使是最極端的邊緣情況也會包含在訓練集中。

蠻力訓練的設計需要對自然語言流形進行詳盡的覆寫。⼀個關鍵問題是這個想法是否合理？識别缺失的關鍵區域可能更好，盡管探測和定義具有挑戰性。

因果關系和反事實示例對于實作深度學習的目标至關重要的是學習因果表示，而不是僅僅表示相關性。因果推理領域展示了如何使用幹預來建立因果關系。

強化學習是深度學習研究中最相似的分支，在該分支中，智能體有意對幹預措施進行采樣以了解其環境。

在本次調查中，我們考慮了如何将幹預結果整合到觀察語言資料中。這也類似于強化學習的子集，稱為離線設定。

整個調查中描述的許多文本資料增強都使用了反事實示例的術語。TeseCounterfactualExamples描述了增強，例如引入否定或數字更改來比對示例的标簽。

語言中反事實的構造通常依賴于人類的專業知識，而不是算法構造。

盡管該模型并沒有像随機對照試驗那樣故意對這些幹預措施進行抽樣，但希望它仍然可以通過觀察幹預措施的結果來建立語義概念和标簽之間的因果聯系。

三、意義與形式語言處理

最有趣的想法之一是意義和形式之間的差別。Bender和Koller介紹了這個論點，提供了幾個想法和思想實驗。⼀個特别突出的轶事來說明這⼀點被稱為章魚的例子。

在這個例子中，兩個人被困在不同的島上，通過水下電纜進行通信。這條水下電纜被⼀隻聰明的章魚截獲，章魚學會模仿每個人的說話模式。章魚在這方面做得很好，它可以代替任何一個人，就像在圖靈測試中一樣。

然而，當其中⼀名擱淺的島民遇到熊并尋求建議時，章魚卻無能為力。這是因為章魚學會了它們的交流方式，但還沒有學會它們的語言所描述的世界的潛在含義。

我們将在本文中介紹許多有助于學習形式的增強。與加強決策邊界的概念類似，同義詞交換或旋轉句法樹等想法将幫助章魚進一步加強對語言一般組織方式的了解。

關于了解這些模型的意義和定義這個深奧的概念，許多人轉向了基礎和具體化的想法。接地通常是指将語言與其他模式（例如視覺語言或音頻語言模型）配對。

但是，基礎也可以指代僅由語言建構的抽象概念和世界。實施例指的是在其環境中行動的學習代理。

盡管Bender和Koller提出意義不能僅從形式中學習，許多其他作品突出了語言模組化任務的不同領域，例如斷言或多個嵌入式任務，它們可能導緻學習意義。

另⼀種思考意義與形式的有用方法是檢視最近開發的語言處理基準，例如GLUE和SuperGLUE任務之間的差別，這些任務主要測試對形式的了解以及知識密集型任務，例如KILT更好地探尋意義。

在我們的調查中，我們通常使用術語“了解”和“意義”來描述通過人類設計的黑盒測試。我們相信深入研究這些術語的定義是語言處理研究中最有前途的追求之一。

四、結語

本調查提出了幾種在文本資料中應用資料增強的政策。

這些增強提供了一個接口，允許開發人員将關于他們的任務和資料域的先驗資訊注入到模型中。我們還介紹了資料增強如何幫助模拟分布變化和測試泛化。

由于與計算機視覺相比，NLP的資料增強相對不成熟，是以我們強調了一些關鍵的相似點和不同點。

我們還提出了許多圍繞資料增強的想法，從實際工程考慮到對資料增強在建構人工智能方面的潛力的更廣泛讨論。

資料增強是⼀種非常有前途的政策，我們希望我們的讨論部分有助于激發進一步的研究興趣。

參考文獻：

1.SzegedyC,ZarembaW,SutskeverI,BrunaJ,ErhanD,GoodfellowI,FergusR.神經網絡作品的有趣特性。載于：2014年學習表征國際會議，2021年7月。

2.GunelB,DuJ,ConneauA,StoyanovV.預訓練語言模型fne的監督對比學習。

3.MorrisJX、LifandE、YooJY、GrigsbyJ、JinD、QiY。TextAttack：對抗性攻擊、資料增強的架構。

4.XueL,BaruaA,ConstantN,Al-RfouR,NarangS,KaleM,RobertsA,RafelC.ByT5：邁向無代币的未來預訓練的位元組到位元組模型2021.arXiv:2105.13626。2021年7月。

5.“一個值得多少個資料點的生成式預訓練模型輸入”，發表于2021年。文章的作者是Scao TL和Rush AM。

深度學習的文本資料增強

引言

一、背景資料增強

二、文本資料擴充的主題

三、意義與形式語言處理

四、結語

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡