天天看點

好文推薦 | 走近NLP學術界

好文推薦 | 走近NLP學術界

我覺得所有剛了解或者想進入NLP領域的學生以及學者,都應該先看一下劉知遠老師的這篇文章,可以讓你在接下來的幾年内可以有一個很明确的目标和領域前沿論文來源。

連轉2篇文章,先上連結,文章轉自清華大學劉知遠老師的github:https://github.com/zibuyu/research_tao/blob/master/01_community.md,緻予我真誠的感謝!

我覺得所有剛了解或者想進入NLP領域的學生以及學者,都應該先看一下劉知遠老師的這篇文章,可以讓你在接下來的幾年内可以有一個很明确的目标和領域前沿論文來源。菜雞不禁淚目嗚嗚嗚,如果我能早點看到這篇文章的話就不會傻傻發了篇交叉性極大的EI水會論文hhh。在CS和AI領域及其子領域,技術的疊代速度是極快的,這意味着期刊不會是一個很好的知識來源,缺乏一定的時效性。在我個人看來,會議論文的發表,最主要的是做一個交流,和其他小同行或者大同行做一些交流,來調整項目的下一個階段工作,打開更多的研究視角;其次是分享,向大家發表你們的最新成果,給予更多相關方向的學者予以幫助;最後才是拿到學術成果,即所謂的狹義的發表論文。

如果你的方向不是NLP領域,或者是想做科研的萌新(我也算萌新hhh),那麼希望可以粗略掃描這篇文章,最主要的一點是能體會到一個學科的前沿知識來源,甄别論文的品質,資訊的品質,而不是在知網進行漫無目的搜尋。認識一個學科的領域頂會,權威期刊,國内頂尖實驗室團隊,組織機構并養成從其中擷取資訊的習慣,才是跨入廳堂的開始!

沒有捷徑可走,視野的打開需要時間的沉澱,從依葫蘆畫瓢般地寫第一份申報書開始,從第一篇改稿N遍的論文開始,從磕磕巴巴研讀一篇英文論文開始,從不斷找老師思想碰撞開始,我們,未來可期~

正文開始:

與老牌學科如實體學、化學等相比,計算機學科還非常年輕,學科體系長期處于劇烈變革之中。作為計算機應用的重要方向,人工智能和自然語言處理自然更不例外,與現實應用緊密相關,技術發展日新月異,常給人今是昨非之感。在這種情況下,傳統學術期刊的那種投稿1-2年才能見刊的模式已經趕不上技術革新的速度,年度學術會議顯然更符合計算機學科發展和交流的需求,可以看作是一種“小步快跑”的模式。閱讀學術論文、參加學術會議是進入學術界、走進學術前沿的重要方式,在學術會議上,不僅可以集中聽取最新的成果報告,還有講習班(Tutorial)、工作坊(Workshop)、社交活動等形式,了解那些不會寫到論文中的八卦與動态,結識學術大佬和朋友,走向學術人生巅峰。

在計算機領域,國際上活躍着衆多專業學術組織,吸收專業學者和學生作為會員,定期組織學術年會,報告學術論文,讓學者們更友善地交流最新研究成果。這裡以自然語言處理領域為例,介紹國際學術組織和學術會議的組織形式,以及國際學術論文的查找方式。

自然語言處理(Natural Language Processing,NLP)在很大程度上與計算語言學(Computational Linguistics,CL)重疊,與其他計算機學科類似,NLP/CL領域有一個規模最大、最權威的國際專業學會,叫The Association for Computational Linguistics(ACL,http://aclweb.org/ )。ACL學會主辦了NLP/CL領域最權威的國際學術會議,即ACL年會。ACL學會還在北美和歐洲設有分會,也定期召開年會,分别稱為NAACL和EACL。特别值得一提的是,2018年ACL年會上宣布成立了亞洲分會AACL,并定于2020年與亞洲另外一個著名國際會議IJCNLP合辦第一屆AACL分年會。

除了舉辦年會之外,ACL學會下分設多個特殊興趣小組(Special Interest Groups,SIGs),聚集了NLP/CL不同子領域的學者,性質類似一個大學校園的興趣社團。其中比較有名的諸如SIGDAT(Linguistic Data and Corpus-based Approaches to NLP)、SIGNLL(Natural Language Learning)等。這些SIGs也會自主組織相關主題的國際學術會議,其中最有名的應該是SIGDAT的EMNLP(Conference on Empirical Methods on Natural Language Processing)和SIGNLL的CoNLL(Conference on Natural Language Learning)。其中EMNLP發起于1996年,由于契合了近20年資料驅動的統計自然語言處理的發展脈動,是以受到廣大學者的關注,也吸引了很多機器學習領域的學者參與。

國際上還有一個老牌NLP/CL學術組織International Committee on Computational Linguistics,每兩年組織一次學術年會International Conference on Computational Linguistics(COLING),也是NLP/CL的重要學術會議。NLP/CL的高水準學術成果主要分布在ACL、NAACL、EMNLP和COLING等幾個學術會議上。

作為NLP/CL學者的一個重要福利是,ACL學會網站用心建立和維護ACL Anthology頁面(https://www.aclweb.org/anthology/ ),收錄了NLP/CL領域絕大部分重要國際會議的論文全文并提供免費下載下傳,甚至包括了其他學術組織主辦的學術會議如COLING、IJCNLP等。新版ACL Anthology不僅支援基于Google的全文檢索功能,還為每個學者建立了在這些會議上發表論文的首頁,可謂一站在手,NLP論文我有。

NLP/CL領域也有自己的旗艦學術期刊,發表過很多經典學術論文,那就是Computational Linguistics(http://www.mitpressjournals.org/loi/coli ),該期刊每期隻有幾篇文章,平均品質高于會議論文,時間允許的話值得及時追蹤。由于審稿周期較長,近年來對學者投稿的吸引力下降,似乎論文品質也有所下滑。ACL學會為了提高學術影響力,也創辦了會刊Transactions of ACL(TACL,http://www.transacl.org/ ),由于審稿周期與會議論文相當,并提供在各大學術會議上報告論文成果的機會,獲得不少學者青睐,最近發表不少有影響力的工作,成長很快值得關注。值得一提的是,這兩份期刊也都可以通過ACL Anthology開放擷取。此外,也有一些與NLP/CL有關的期刊,如ACM Transactions on Speech and Language Processing,ACM Transactions on Asian Language Information Processing,Journal of Quantitative Linguistics等等。

根據Google Scholar Metrics 2018年釋出的NLP/CL學術期刊和會議論文引用排名,ACL、EMNLP、NAACL、SemEval、TACL、LREC位于前6位,基本反映了本領域學者的關注程度。其中ACL、EMNLP、NAACL的H5-Index和H5-Median明顯高于其他會議和期刊,也是該領域每年參會人數最多的會議,可謂NLP/CL的三大頂級國際會議。另外,ACL學會維護了一個Wiki頁面(http://aclweb.org/aclwiki/ ),包含了大量NLP/CL的相關資訊,如著名研究機構、曆屆會議錄用率,等等,是居家必備之良品,值得深挖。

值得注意的是,雖然計算機領域學術會議論文的發表周期已經非常短,仍然不能滿足最近深度學習等方向的迅猛發展。是以,越來越多學者選擇繞過學術會議或期刊的審稿流程,直接通過arXiv(http://arxiv.org/ )等預印本平台線上釋出論文。由于省去了同行評議的流程,這些最新學術成果得以更快地釋出。但也由于缺少同行評議的意見和過濾,導緻預印本平台上釋出的論文品質良莠不齊,需要有較強的鑒别力,才能找到其中真正有價值的工作。毋庸置疑,arXiv已經成為深度學習和自然語言處理最新進展的重要釋出管道,Yoshua Bengio等著名學者及其團隊的最新研究成果,往往先釋出在arXiv上,然後再發表在相關頂級會議上。是以,arXiv是了解大資料智能最新進展的重要資訊管道。

由于arXiv預印本客觀上的确沖擊了NLP/CL學術會議審稿的雙盲規則(投稿作者和評閱人互相看不到對方身份),相關學者對通過arXiv率先釋出成果看法不一,衆說紛纭。從2018年開始,ACL、EMNLP、NAACL等會議為了更好地執行雙盲規則,對此提出了一種折中方案,将投稿截止時間前1個月也納入匿名時段,即從投稿截止前1個月到稿件得到錄用/拒稿通知,都不允許作者将具名論文釋出到arXiv等預印本平台;對截稿前1個月以前釋出到arXiv上的論文,也不允許在匿名時段再做更新或做媒體宣傳。也就是說,從學術會議審稿公正性而言,并不鼓勵将成果預先釋出到arXiv預印本平台上。估計對這個問題的争論還會持續,也許未來的确需要探索一種更好地兼顧高效與公平的學術論文發表機制,這是題外話就不再展開。

NLP/CL主要以自然語言文本為主要研究對象,與人工智能、機器學習、資訊檢索、資料挖掘、計算機視覺、知識工程等很多方向密切相關。例如,自然語言處理是人工智能的分支,而且人工智能的機器人、決策、知識表示等研究領域也與自然語言處理有交叉重疊;自然語言處理很多模型方法都來自機器學習的最新進展,自然語言處理也為機器學習提供獨特的學習任務進行研究;資訊檢索關心的查詢詞、文檔等也是自然語言文本,是以與自然語言處理關系密切;社會媒體中的使用者生成内容很多為文本形式,是資料挖掘和自然語言處理共同關心的對象;計算機視覺和自然語言處理共同關注跨模态智能處理技術,如圖像描述生成(Image/Video Captioning)等;知識和語言的天然關聯性,也決定了知識工程與自然語言處理的交叉合作。這裡主要介紹幾個重點相關領域的國際學術會議與期刊。

人工智能領域相關學術會議包括IJCAI和AAAI。AAAI全稱美國人工智能年會,IJCAI全稱人工智能國際聯合大會。這兩個會議方向非常廣泛,涵蓋機器人、知識、規劃、自然語言處理、機器學習、計算機視覺等幾乎所有AI子領域,是AI領域“奧運會”式的學術會議。近年來,由于AI領域備受社會各界關注,這兩個會議的錄用論文數也成倍增長。以AAAI 2019為例,投稿數猛增至7000多篇,最終錄用1150篇,錄用率降低至16.2%。有些老師在社交媒體上如此評價,AAAI/IJCAI更像花樣齊全的“奧運會”,而ACL/EMNLP/NAACL更像專業領域的“錦标賽”,是以一般對專業領域任務的精細研究,更多發表在錦标賽式的專業會議上。由于知識表示等方向沒有更權威的專門學術會議,是以更多發表在AAAI/IJCAI上。人工智能領域相關學術期刊包括Artificial Intelligence、Journal of AI Research。

機器學習領域相關學術會議包括ICML,NIPS,ICLR、AISTATS等。其中NIPS全稱是Conference on Neural Information Processing Systems,由于最近這波AI浪潮就源自以神經網絡技術為基礎的深度學習,是以近年來備受關注,參會人數倍增,近幾年會議注冊頁面剛開放就會被搶注一空。樹大招風,2018年由于NIPS縮寫有性别歧視的意味,是以從2019年開始更名為了NeurIPS。ICLR是深度學習興起後在2013年創立的年輕會議,采用的開放審稿模式,整個審稿過程的審稿意見、作者回複全部實時公開,也允許其他圍觀使用者評論,面貌一新,關注者衆,頗領一時風氣之先。機器學習領域相關學術期刊主要包括Journal of Machine Learning Research(JMLR)和Machine Learning(ML)等。

資訊檢索和資料挖掘領域相關學術會議主要由美國計算機學會(ACM)主辦,包括SIGIR、KDD、WWW(從2018年開始更名為The Web Conference)、WSDM。資訊檢索和資料挖掘領域相關學術期刊包括ACM TOIS、IEEE TKDE、ACM TKDD、ACM TIST等。其中ACM TOIS和IEEE TKDE曆史比較悠久,地位卓然;ACM TKDD則創立于2007年,ACM TIST創立于2010年,均為新興的著名期刊,特别是ACM TIST創刊時就邀請了LibSVM等有影響力的成果發表,現在SCI影響因子比較高。

中國計算機學會(CCF)制定了“中國計算機學會推薦國際學術會議和期刊目錄”,基本公允地列出了每個領域的高水準期刊與會議。大家可以通過這個清單,迅速了解每個領域的主要期刊與學術會議。

對很多學生(即使國外學生)而言,想參加ACL、EMNLP、NAACL等國際會議并非易事,由于注冊費和差旅費很高,一般要有論文發表導師提供經費支援,而且長途跋涉也充滿了簽證申請、旅館預訂等不确定因素。作為學生,每年能出去成功且安心地參加一次國際會議,已然很不容易了。近年來,很多國内NLP學者已經可以持續發表高水準論文,進入國際一線研究行列,并與很多國際著名學者建立起密切的學術交流與合作。在他們的努力組織下,這些國内NLP學術會議的學術報告品質也有大幅提升,特别是特邀報告、講習班、專題論壇等環節。需要說明的是,最近AI領域大火,國内很多機構都開始組織各類AI大會,其中很多特邀講者不乏大牌學者。但為了強調學術導向,這裡隻聚焦那些以學術交流為主的純學術會議。

與國際學術組織和會議相似,國内也有一家與NLP/CL相關的專業學術組織,中國中文資訊學會(CIPS,http://www.cipsc.org.cn/ ),是國内最大的自然語言處理學術組織,最早由著名科學家錢偉長先生發起成立。通過學會的理事名單(http://www.cipsc.org.cn/lingdao.php )基本可以了解國内從事NLP/CL的主要機關和學者。中文資訊學會每年組織很多學術會議,例如全國計算語言學學術會議(CCL)、中國自然語言處理青年學者研讨會(YSSNLP)、全國資訊檢索學術會議(CCIR)、全國機器翻譯研讨會(CWMT)等,是國内NLP/CL學者進行學術交流的重要平台。尤其值得一提的是,YSSNLP是專門面向國内NLP/CL青年學者的研讨交流會,采用邀請制參加,大家自願報名在研讨會上報告學術前沿動态,是國内NLP/CL青年學者進行學術交流、建立學術合作的絕佳平台。2010年的COLING和2015年的ACL在北京召開,均由中文資訊學會負責組織工作,這在一定程度上反映了學會在國内NLP/CL領域的重要地位。此外,計算機學會中文資訊技術專委會組織的自然語言處理與中文計算會議(NLP&CC)是最近崛起的國内重要NLP/CL學術會議。中文資訊學會主編了一份曆史悠久的《中文資訊學報》,是國内該領域的重要學術期刊,發表過很多篇重量級論文。此外,國内著名的《計算機學報》、《軟體學報》等期刊上也經常有NLP/CL論文發表,值得關注。

CCL是中國中文資訊學會的旗艦會議,由CIPS的計算語言學專委會舉辦。CCL從1991年開始每兩年舉辦一次,從2013年開始每年舉辦一次,2018年是第十七屆。經過20餘年的發展,是國内自然語言處理領域權威性最高口碑最好規模最大(2017年注冊人次超過1千)的學術會議,是國内NLP學者每年都會參加的盛會,現場交流氛圍極佳。CCL設定的講習班、特邀報告、NLP任務評測、前沿動态綜述等環節,均有較大影響力,也是快速了解NLP前沿動态的絕佳方式。

其中,CCL的特邀報告環節最具特色,CCL程式委員會主席孫茂松教授每年都會大力邀請多學科相關重量級學者擔綱。以CCL 2017為例,特邀講者包括了中國工程院院士、西安交通大學鄭南甯教授,清華大學社會科學學院院長彭凱平教授,香港科技大學計算機科學與工程學系系主任楊強教授,北京大學統計科學中心聯席主任耿直教授,搜狗公司總裁王小川等,主題涵蓋認知科學、心理學、機器學習、統計學等方向,議題與内容極具啟發性。

CCKS由CIPS的語言與知識計算專委會舉辦,由國内兩個相關會議合并而來,分别是中文知識圖譜研讨會(CKGS)和中國語義網際網路與Web科學大會(CSWS)。CCKS是國内知識圖譜、語義技術、連結資料等領域的核心會議,2017年有500位學者注冊參加。CCKS設定的講習班、工業論壇、評測競賽、知識圖譜頂會回顧、特邀報告等環節,具有較大影響力,是快速了解知識圖譜等方向前沿動态的絕佳方式。

SMP由CIPS的社會媒體處理專委會舉辦,SMP 2018是第七屆,是國内聚焦社會媒體、面向社會計算和計算社會科學交叉學科的權威會議,SMP 2017年有800多人次參加。SMP也設定有講習班、專題論壇、評測任務等環節。

其中,SMP專題論壇非常活躍,以SMP 2017年為例,共設定了智能金融、計算社會學、情感分析、推薦系統、計算傳播學、智能教育、表示學習及企業論壇等8個論壇,均有相關領域重量級學者擔任講者進行交流。

CCIR由CIPS和CCF聯合主辦,是中國資訊檢索領域最重要的盛會。會議除包含大會報告、論文報告、Poster交流、評測活動外,還組織青年學者論壇、博士生指導論壇,以及面向熱點研究問題的前沿講習班等。大會也會邀請部分相關國際期刊、會議(如TOIS、SIGIR、WWW、WSDM、CIKM)的中國作者交流論文。

CWMT從2005年開始舉辦,2018年是第14屆,其中共組織過七次機器翻譯評測,是國内最權威的機器翻譯學術會議。除了傳統的論文宣講、特邀報告等環節,最近還設定了新人秀、産業論壇等環節,從事機器翻譯研究與開發的同學不能錯過。

YSSNLP是CIPS青年工作委員會的學術年會,其特色是采取邀請制,隻允許青工委委員及其邀請的代表參加,每年約有150位青年學者參加,幾乎囊括國内從事NLP研究的所有青年學者。青工委非常活躍,除了組織YSSNLP年會外,青工委還組織大量的國際頂級會議預講會、學術沙龍等學術活動。

其中國際頂級會議預講會是青工委的品牌活動之一,每年在 ACL、SIGIR、IJCAI、AAAI等國際頂級會議正式召開之前,邀請國内有論文發表的學者介紹自己的論文工作。每次活動都吸引了大量來自學術界和工業界的現場和線上聽衆,極大促進了國内相關領域研究的發展以及研究者之間的交流。2018年學術活動安排如下,歡迎大家關注并積極參與。

這是CIPS的老牌學術活動,旨在面向青年學生進行前沿課題的教學與普及工作,帶領同學迅速進入前沿。2018年将是CIPS暑期學校的第13屆。以2016年和2017年的暑期學校為例,均以深度學習技術在NLP中的應用開展教學,邀請國内一線青年教師和博士生擔任講者,系統深入地介紹深度學習的相關知識與動态。暑期學校每次持續4天課程,由于其較好的系統性和連續性,受到國内同學的廣泛好評,近兩年注冊人數都超過場地容量。我個人擔任了2016年暑期學校的講者,以及2017年暑期學校的組織者,感覺這是非常好的系統學習NLP前沿動态的方式(雖然收費有點高)。

值得一提的是,從2016年起,CIPS暑期學校被納入到了CIPS《前沿技術講習班》編制,而CIPS組織的各大學術會議的講習班也編入CIPS《前沿技術講習班》,由CIPS統一保證講習班品質。

NLPCC由CCF中文資訊技術專委會舉辦,NLPCC 2018是第七屆。NLPCC按照國際會議模式組織,組織委員會注重吸納國際學者,論文報告均用英文進行,是近年來國内崛起的重要NLP學術會議,2017年參會人數超過500人,是在國内了解NLP前沿動态的又一個重要平台。值得一提的是,CCF學科前沿講習班(ADL)類似于CIPS ATT,也是面向各類專題開展的講習班,是CCF的老牌學術活動。NLPCC每次都會附帶一次面向NLP的CCF ADL講習班,值得關注。

希望以上資訊能夠對初入NLP的青年同學有所助益。國内差旅成本較低,相信大部分導師會樂意支援學生參加學習,快速提高。最後想說,以上總結并非排名,僅為青年同學提供學習與交流的入口。而且限于個人所見,該總結難免挂一漏萬,歡迎各種建議和意見,我會努力吸取改進。

這篇介紹了自然語言處理領域國内外的主要學術組織、會議和論文,參加學術會議,閱讀學術論文,是走近學術界、了解學術動态的主要方式,再輔以社交媒體和科技媒體,相信可以讓同學比較及時地掌握自然語言處理科研動态。

一半是現實,一半是夢想~

一念花開,一念花落~

繼續閱讀