今天談談COLING2018計算語言學進展

7.25号的時候，陪餘南師兄去參加了COLING2018預講會中科院自動化所現場。

知己知彼，百戰不殆。想要發出頂級會議論文，還是得分析當今潮流。是以今天給大家分享下特邀嘉賓張家俊（今年COLING領域主席）開場：從COLING2018看計算語言學進展報告。

COLING 中國力量

COLING：International Conference on Computational Linguistic，國際計算語言大會。

2008年 20篇accepted（180 accepted，24% accepted rate）

中國占比1/6，而今非昔比：

2018年 100篇accepted （331 accepted，37% accepted rate）

中國占比近1/3！可以看出咱們在AI方向前進之快，雖然沒說品質如何，但是數量起來了之後，品質肯定随之而來。

review 有所不同

為了更加公平公正，今年的COLING做了以下變化：

1.在領域主席視角，會隐藏論文作者。

這樣會避免因為你是很著名的人而給的心理分，而非客觀分數。

2.reviewer看不到其他reviewers的評價。

當然目的是不受其他因素影響。

熱點和趨勢

COLING2018 vs COLING2016

可以看出COLING2018的趨勢已經變為神經網絡為主。小道消息：今年好像涉及到GAN，半監督學習，強化學習會更容易接受！哈哈，當然，我們不能以發論文而發論文，隻是了解下即可。

而拿COLING2018和ACL2018、NAACL2018頂會相比，有以下異同點：

目前所有自然語言處理和計算語言學會議幾乎存在相同的熱點和趨勢：神經網絡、注意機制、表示學習，語義和知識等。
差別于北美基因的ACL和NAACL，歐洲基因為COLING更加關注語言規律和模型的分析。

代表領域分析

語義表示

對比分析

語義表示收到了越來越多的關注，對比2018和2016，11->17上升了50%。
深度學習方法占主導地位
随着語義表示模型的發展，更多的工作開始關注融合多種資訊的、任務或領域特異的、跨語言的、語義消歧的表示學習方法。
在各頂會（COLING2018和ACL2018、NAACL2018）占比基本相當。
頂會（COLING2018和ACL2018、NAACL2018）在語義表示領域内容基本一緻。

熱點和趨勢

融合多種資訊的、任務或領域特異的、跨語言的、語義消歧的表示學習方法成為熱點。
由于句子在大部分自然語言處理任務中占據更重要的作用，通用的句子表示學習收到了越來越多的關注。
随着語義表示架構的逐漸完善，很多工作開始關注如何分析與了解模型的工作機制和評價編碼語義的能力。

機器翻譯

對比分析

機器翻譯一直是COLING的一個熱點，文章數量的占比一直都很大（23/337 vs 23/331）
神經網絡機器翻譯的興起，使得統計學習相關研究大幅度下降（5 vs 1），而神經網絡相關研究大幅度提升（4 vs 11）。
機器翻譯在這三個頂會占比基本相當。
COLING更注重語言學知識（比如篇章，句法）在機器翻譯中的應用。而ACL和NAACL設計範圍更廣，包括多模态翻譯（圖像，語音等）。

熱點和趨勢

從模态結構來說，機器翻譯領域的baseline，有從RNN-based NMT到Transformer轉換的趨勢，并且如何改善解碼效果也是學術界和工業界一直關注的問題。
從研究領域來說，穩當翻譯多模态翻譯（圖像翻譯，語音翻譯），低資源多語言翻譯或許繼續是未來的熱點。
從機器翻譯的角度來看，有些語言的不可解釋性依然是個大問題，但也是未來的研究方向。

人機對話

對比分析

對話領域受到越來越多的關注，文章數量有較大的提升，探讨的主題也越來越豐富
對話領域和模式識别的其他領域（例如情感，多模态）也逐漸受到了人們的關注。
對話領域中，聊天系統比重最大。
對話系統在不同的會議中，比重依然是最大的。
任務型對話系統在ACL系列中關注度比COLING高。
COLING和NAACL更加偏重于資料建構的工作，而ACL則少見。

熱點與趨勢

seq2seq是對話系統中常用的方法。
最熱的是建構閑聊系統。
對話領域和其他領域的結合是未來的趨勢。

自動摘要

對比分析

COLING中摘要的比重增加50%（18/331 vs 12/337）
越來越多的工作面向領域中特定型摘要，eg：Product Summarization，Review Summarization。
生成式摘要遠比16年要高，這得益于端到端的模型在摘要領域的成功。
相比于ACL2018和NAACL2018，Sentence Summarization隻出現在COLING2018，而那兩個會議的重點則在于抽取型和生成型結合。
多文本摘要隻出現在COLING2018上。COLING的工作偏向于傳統工作。

情感分析

包括很多細方向：

Classification，Transfer，Aspect，Resource，Emotion，Summarization，Dialog，Spam and Others。

對比分析

COLING内的相關文章越來越多（21/337 vs 25/331）
傳統分類的文章則越來越少，說明這個領域的越來越成熟，可研究的方向不多。
其他類别的文章（如 Aspect，Resource，Emotion）越來越多。
COLING2018有關情感的文章相比于NAACL2018和ACL2018多。
COLING2018 Resource文章8篇，而其他兩會沒有，那麼大概可以說明資源型文章更加偏向于COLING。
ACL2018和NAACL2018 Others方面的文章有4篇和2篇（COLING2018沒有），可以看出ACL和NAACL是偏向于新穎的研究的。

多模态資訊處理

即Multi-model，包括：

Multi-model text classification（多模态文本分類）

Multi-model sentiment analysis （多模态情感分類）

Image/video captioning （圖檔/視訊标題生成）

Social media information processing （社交媒體資訊處理）

Multi-model sementics （多模态語義表示）

對比分析

多模态領域是COLING的一個嶄新的領域，文章數量較少（2016無，2018有3篇）
社交媒體是多模态的一個重要來源，利用多模态資料增強資料語義表示将會是一個有趣的課題。
多模态在COLING2018文章較少，在NAACL2018和ACL2018較多，關注度較廣，但仍然沒有得到研究者的廣泛關注。

最後一些話

以上是今年COLING2018預講會上開場ppt的内容，因為用手機拍攝的，是以有些圖檔沒拍上，但是也不影響大雅，最後希望能幫到在論文迷茫的你！嘿嘿。與你們共勉，一起發頂會論文（說這樣的話，我有點慌O.O）

IELTS a bit

assent vi. 同意；贊成

n. 同意；贊成

be adept at v. 擅長

landmark n. 地标；界标；裡程碑；紀念碑；劃時代的事

adj. 有重大意義或影響的

utterly adv. 完全地；絕對地；徹底地

confidential adj. 機密的；表示信任的；獲信任的