天天看點

一個神奇的北大專業:同級隻有她從開學堅持到了畢業

作者:中國科學報

文 | 孫滔 陳雨涵

“吟過詩詞文賦,熬過高數線代,品過經史子集,研過算法結構,啃過句法文法,train過神經網絡。”

這是林子對自己大學生涯的速寫。她的專業過于迷你,是北大中文系4個專業中最沒有存在感的應用語言學(中文資訊處理)。存在感有多低呢?每年畢業生不過4、5個,一些同學因為無法堅持轉了出去,也有同學對中文專業情有獨鐘而轉了進來,而林子是2015級學生中唯一從頭到尾讀下來的那個。

在這個文理交叉專業,她既要學習古代漢語、理論語言學和現代漢語文法研究,又要學習高等數學、程式設計和資料結構與算法。割裂,成了她的大學關鍵詞。

一個神奇的北大專業:同級隻有她從開學堅持到了畢業

林子。圖源:受訪者供圖

林子闖出了一條自己的路徑。

大二開始,她在資訊科學技術學院(下稱信科)實驗室實習,大三發了兩篇AI頂會一作論文;畢業後去了矽谷的谷歌總部,在自然語言處理(NLP)研究部門從事了兩年的全職工作,其工作還被收錄進谷歌研究科學家Kevin Murphy的機器學習教科書;2021年,她回到了學術界,在美國加州大學聖地亞哥分校開始攻讀計算機科學博士,3年來的論文被引用次數超過2000次。

這是一個怎樣神奇的專業呢?

發蒙的開端

雖然高中是理科生,但林子很喜歡文學,她還拿過新概念作文比賽的一等獎,由此得到了北大中文系自主招生的名額,并通過筆試和面試,最終獲得降分錄取。

父母其實希望她讀經濟專業,以後從事金融,至少就業比較好。但林子覺得還是要從心所欲,于是堅定地紮進了中文系。隻是沒想到因為自己理科生的身份,被自動分到了應用語言學這個文理交叉專業,一個由中文系和信科共建的專業。

剛聽聞自己的專業是應用語言學那會兒,林子有點蒙,畢竟之前連語言學都沒聽說過,更不必提應用語言學和中文資訊處理這幾個詞彙了。

後來大家才認識到,正如畢業證書上英文“ Computational and Applied Linguistics”(計算與應用語言學)所明示的:計算才是更本質的,這是一個計算機科學和語言學交叉的專業。

第一年的課業對大家就有巨大的殺傷力。大一并沒有專業課,而是基礎課。

林子發現,在上語言學課程的時候,有的同學就對需要背誦且閉卷考試的課程不适應,尤其是寫滿繁體字的古代漢語課,不僅需要去了解還要溯源那些字;計算語言學子產品的課程需要他們學程式設計語言和算法;至于數學,更是需要學習微積分、線性代數和機率統計。

有的同學無法接受這份割裂,就申請轉到自己的初衷文學專業或者純語言學專業,而有的同學發現自己更熱愛數學專業和計算機科學專業,于是也轉走了。

在文理交叉中碰撞一段時間後,他們依然在這個專業帶來的割裂感中雲裡霧裡。再打聽,師兄師姐的畢業去向五花八門,有人去了大廠,有人做了教授,也有人去做中國小數學教育,似乎沒有一個明确的指路明燈。就這樣,林子像盲人開夜車一樣摸索了一年。

隻依靠上課,她實在沒辦法将語言學和計算融合起來。好在,林子從大二開始找到了科研的樂趣,這在很大程度上幫助她體會到了這個專業的魅力所在。

她終于看到,這個專業可以接觸文學又能訓練邏輯思維,原來魚和熊掌真能兼得。

“學着學着都偏計算了”

據這個迷你專業的負責人、中文系教授兼計算語言研究所副所長詹衛東介紹,以2005年為界,之前應用語言學的專業課程體系是“ 以文為主,以理為輔”,之後則過渡到“ 文理并重,融會貫通”的軌道上。不過,這些學生大部分“學着學着都偏計算了”。

詹衛東是這個專業從無到有的見證者和建設者。他講授“自然語言處理導論”(現在改為“自然語言處理”)和“語言工程與中文資訊處理”兩門課。其中後者是應用語言學專業的必修課,但因為學生太少,兩年才開一次。

林子發現,這個專業适合對語言文字有很大興趣且打算繼續理科課程訓練的理科生,或者對計算語言學和自然語言處理感興趣并想培養理科思維的文科生。

林子就是學着學着偏向了計算。

她從大二就參與到計算語言所的一些科研工作中,其中有兩項工作分别發表在自然語言處理領域很有影響力的兩個國際會議上:一項工作是探索了漢語中介語語料庫的語義角色自動标注;另一項工作是提出一種新的方法,将人工建構的關于漢語語素的語言學知識庫跟深度神經網絡中的詞向量表示結合起來,改進了詞向量表示在詞義相似度計算任務上的效果。

走到今天,林子覺得雖然對這個專業有了一定了解,但還不夠。

她說,交叉學科的魅力就在于它是一個并集,而不是一個交集,它需要同時掌握兩方面的知識,但就像做菜一樣,哪個調料多放一點,其實是你可以自己決定的。

“想得更清楚了”

說起做菜,2009級的北京女孩艾琦才是專業人士,她在應用語言學專業畢業後學習了西方餐飲,如今在芝加哥從事餐飲工作。

而2007級顧森,就是那個在大學畢業後從事中國小數學教育的。他給詹衛東的印象是,知識儲備、思維方式“遠遠超出平均水準”。詹衛東曾建議他出國深造,在人工智能領域發展,但他同時看到,顧森确實擅長教師的角色,他曾在課堂上作過一次演講,能将某個問題剝洋蔥般講解得酣暢淋漓,那是“一種與生俱來的思維習慣”。

孫薇薇是應用語言學專業的2002級暨第一屆畢業生,也是林子的另一位大學老師,講授形式文法導論。她在2020年去了英國劍橋大學任教。

一個神奇的北大專業:同級隻有她從開學堅持到了畢業

2006年6月,北京大學中文系應用語言學大學專業第一屆學生畢業。左四為詹衛東,右一為孫薇薇。圖源北大

除了孫薇薇,2005級大學生彭楠赟在北大計算語言所碩士畢業後去了美國約翰斯·霍普金斯大學計算機系攻讀博士,現在加州大學洛杉矶分校計算機科學系任職。

林子也找到了自己的路徑。

當被問及假如當初直接進入計算機系是否會做得更好,她的思考是:因為沒有人告訴自己應該怎麼前行,是以她一直在不斷優化自己的選擇,如果學了其他專業反而“可能就沒有那麼有趣了”,畢竟其他專業學子的成長路徑相對成熟。

林子說,因為應用語言學的規模過于小,大家的成長沒有一個固定的可以借鑒的範式,這樣你反而“更能夠了解自己,探索自己的需求是什麼,也能想明白自己為什麼最終會選擇繼續讀博士”。

林子還參加了北大信科大學生的科研評比,她和另外兩個信科的同學拿到了一等獎。“我記得當時老師還挺驚訝的”,她說。這時候信科的同學才知道一個來自中文系的林子的存在。

如今林子正在做的課題與自然語言大模型相關,涉及大模型安全性和可解釋性的深度測評。但她更感興趣的是,大模型跟人類語言學習的機制之間有沒有相似度?這是一個深刻的科學問題:小孩子每天聽父母很少量的語言熏陶就能學會說話,這跟大語言模型的訓練過程是非常不一樣的。

大模型來襲

跟林子相比,詹衛東已然将自己視作“前浪”。當大模型時代來臨,詹衛東對這個專業也有了新的認識。

詹衛東自1993年9月進入北大攻讀碩士和博士。至今,他已經在語言與計算的交叉中碰撞了超過30年時間。

為了開發機器翻譯系統,詹衛東曾自學C++語言,程式中的很多問題都由他親自解決。他的博士論文《面向中文資訊處理的現代漢語短語結構規則研究》正是出自他在機器翻譯中的工作總結與提煉,并獲得了2001年全國百篇優秀博士論文獎。

入門計算語言學30年來,詹衛東一直在試圖拆解語言,提煉語言規律,然後再組裝回去應用。就像一直以來的還原論,這個過程是透明清晰的。

然而,橫空出世的大模型動搖了計算語言學家們的信念,語言知識的提煉在大模型這裡毫無用武之地——隻需要投喂足夠的資料,輔以強大算力,就能得到鮮活的語言輸出。

詹衛東說,最近領域内專家經常讨論這一情況,但并無明确應對之道。同行們對大模型還是了解得太少了,“去年一年大家都處在一種懵的狀态,我們内部其實還缺乏更加深入的、更多的交流”。

詹衛東的導師、語言學家陸儉明并沒有那麼悲觀。他在去年的一篇文章中談到,人工智能是靠資料、算力、算法這“三駕馬車”驅動,如果“語言知識”能加入到資料中,将肯定會大大推進人工智能事業。陸儉明也是應用語言學專業建立的主要倡議者。

詹衛東說,當語言學家把這些知識歸納之後,或許就可以變成計算機可以用的更有效的知識。

不過,讓詹衛東尤為憂慮的是,一批老學者正在紛紛退休,留下的職位空缺卻遲遲找不到新人填充。

一方面,好的自然語言模型人才已經被工業界壟斷,那裡有更高的薪水和更好的資源(算力和資料);另一方面,既熟悉語言學,又懂大模型技術的人才少之又少。

就在2023年年末,受詹衛東邀請,林子回到母校給學弟學妹們作了專業學習的經驗分享。他們這些“後浪”也被詹衛東寄予了厚望:萬一哪天回來報效母校呢?

一個神奇的北大專業:同級隻有她從開學堅持到了畢業

圖為2023年12月27日,林子回北大講座後合影。前排中間是林子,後排左二為詹衛東。受訪者供圖。