天天看點

哈工大SCIR:ACL 2010-2020研究趨勢總結

作者:哈工大SCIR 車萬翔教授

導讀

2020年5月23日,有幸受邀在中國中文資訊學會青年工作委員會主辦的AIS(ACL-IJCAI-SIGIR)2020頂會論文預講會上介紹了ACL會議近年來的研究趨勢,特整理成幻燈片配文字版,希望對相關領域的研究者有所幫助。由于視野所限,時間倉促,特别是ACL 2020的錄用論文清單剛釋出不久,是以統計的資料和得出的結論難免有失偏頗,如有不當之處,還敬請指出。另外,特别感謝組内的多位博士生幫助進行資料整理。

首先來看一下2010年到2020年這11年來,ACL長文的錄用情況和趨勢,可以看出從2018年開始,投稿和錄用的數量急劇上升,說明作為人工智能皇冠上的明珠,自然語言處理領域越來越受到研究界的關注。另外,ACL的錄用率多年來基本保持穩定,一直在25%左右。

哈工大SCIR:ACL 2010-2020研究趨勢總結

再來看一下今年錄用文章标題的詞雲,從中可以看出大家關注比較多的任務有生成、翻譯、對話、問答、抽取、句法等方向,用到的方法多涉及到神經、網絡、注意力、圖等。另外,從文章作者的詞雲可以看出前幾名的基本都是中國的大姓,這也反應出華人作者在ACL頂會上已經占據非常大的比例。

哈工大SCIR:ACL 2010-2020研究趨勢總結

為了更直覺的了解近年來ACL各個研究領域的變化趨勢,我們做了一個領域趨勢競賽圖,幫助大家更好地看出各個研究領域此消彼長的變化過程。特别說明的是,我們的領域是參考ACL 2019進行劃分的,由于其它年份的領域劃分方式不盡相同,我們采用人工的方式進行了映射。另外,由于2020年目前隻有文章清單,還沒有領域資料,是以也是人工逐篇文章分的類,是以具有一定的主觀性,有可能不是特别準确。

從這段視訊中,我們可以看到幾個非常明顯的趨勢,比如人機對話等新興領域上升勢頭迅猛,而句法分析、機器翻譯等傳統領域有所衰落。下面,就幾個變化比較明顯的領域分别加以介紹。

人機對話異軍突起

2015年之前,ACL上幾乎沒有人機對話的文章發表,但是從2016年開始,随着語音識别技術的突破,NLPer開始重視人機對話的研究,今年ACL該方向上的研究重點和研究趨勢如下圖所示。

哈工大SCIR:ACL 2010-2020研究趨勢總結

機器學習持續熱門

可以看到近10年來,機器學習的熱度一直居高不下,特别是随着預訓練模型的成功,NLP模型大有被大一統的趨勢。下面的一些機器學習研究方向為今年ACL所重點關注。

哈工大SCIR:ACL 2010-2020研究趨勢總結

文本生成強勢上升

嚴格來講自然語言處理應被分為自然語言處理和自然語言生成兩個方向,然而受到技術的限制,傳統的文本生成多采用基于模闆的方法,是以在研究上并沒有引起太多的關注。随着序列到序列模型的産生,人們意識到可以采用類似的方法進行逐詞的文本生成,進而産生了大量的研究和應用問題,是以文本生成也成為了目前自然語言處理的熱門研究領域。今年ACL上的研究熱點如下圖所示。

哈工大SCIR:ACL 2010-2020研究趨勢總結

問答系統絕地反擊

随着斯坦福大學SQuAD資料集的誕生,以抽取式閱讀了解為代表的問答系統近年來引起了大量的關注。但是為什麼說是“絕地反擊”呢?主要是因為在更久之前,問答系統就曾經是資訊檢索和自然語言處理領域的熱門研究方向,但是受限于當時的技術手段,答案準确率并不是很高,是以該研究方向曾一度被人們所冷落。經過這幾年的發展,問答系統的模型逐漸被預訓練模型所統一,是以今年ACL上的相關文章更關注問答系統的各個子任務或引入更多資源。

哈工大SCIR:ACL 2010-2020研究趨勢總結

新任務和資源挑戰機器

仍然是受預訓練模型的影響,在很多剛被提出不久的自然語言處理任務上,機器的表現很快超過人類。是以最近有大量的研究工作試圖提出對機器更具有挑戰性的任務和資源,進而逼迫機器更像人一樣“思考”。

哈工大SCIR:ACL 2010-2020研究趨勢總結

機器翻譯有所衰落

幾家歡樂幾家愁,由于上述領域的快速崛起,更重要的是由于模型逐漸為Transformer所統一,使得機器翻譯這一“老牌”自然語言處理任務受關注的程度有所降低。今年ACL的相關研究也分散到不同的翻譯場景設定上。

哈工大SCIR:ACL 2010-2020研究趨勢總結

句法分析逐漸式微

和機器翻譯類似,句法分析這一曾經自然語言處理領域的當家任務也逐漸式微。其背後的原因有兩個:一方面是因為Biaffine Parser的出現證明了結構學習這一自然語言處理的特色問題,對于句法分析并不重要;另一方面,預訓練模型的出現使得句法分析的處境更是雪上加霜。預訓練模型不但能大幅提高句法分析的效果,更重要的是其内部已經蘊含了句法結構資訊,是以就無需為下遊任務提供顯式的句法結構了。由于這些原因,今年ACL上句法分析的熱點也主要集中在了研究探針任務和句法分析的應用上了。不過蘇州大學李正華老師所提出的高階TreeCRF模型還是能進一步提升句法分析的效果,這一點非常難得。

哈工大SCIR:ACL 2010-2020研究趨勢總結

語義分析

語義分析領域的情況稍顯複雜,對于詞級别的語義分析,當年受到Word2vec模型的啟發,産生了一大批相關的研究,其影響力甚至超出了自然語言處理的範圍,在知識圖譜、推薦系統等領域都廣受關注。而近年的預訓練模型讓大家将研究重點從之前這種靜态詞向量轉移到了動态詞向量等方向。至于句級别語義分析,本身的定義就比較模糊,很多任務都可以歸為語義分析,如AMR、CCG Parsing等,當然它們也可以被歸為結構分析(Parsing)類任務,是以趨勢上有所波動。

哈工大SCIR:ACL 2010-2020研究趨勢總結

其它次元的趨勢

上面這些分析主要是從研究領域的趨勢變化展開的,我們還可以從其它次元進行分析,來幫助我們更全面了解自然語言處理的研究。如下圖所示,我們總結了今年ACL上幾個熱門的研究方向,如對多語言、多模态、多領域和低資源的研究,融入知識的方法,圖神經網絡的應用等。

哈工大SCIR:ACL 2010-2020研究趨勢總結

一些雜想

繼續閱讀