天天看點

馬少平教授:我的AI研究之路

最近,有不同人問了我同一個問題:是什麼淵源,走上了人工智能這條路。說實話,别說是人工智能,就連進入計算機行業,都完全是陰差陽錯的結果,并不是我的主動選擇。

1977年,文革結束後,突然傳來消息,要恢複聯考了,當時我還在讀高中,對于怎麼填報志願,一概不知。班主任老師的意見是,什麼專業你自己選,學校一定要報清華北大。我問這兩所學校的差别,老師說,北大偏文理,清華偏理工。我想了想,覺得自己喜歡理工,就選擇了清華,但是還是不知道選擇什麼專業,在那個小縣城裡,沒有任何資料可供參考。剛好在本地的報紙上刊登了一些學校的專業目錄,在清華大學欄目下,我看到了“自動控制”四個字,雖然不知道自動控制是幹什麼,但憑感覺是個自己喜歡的專業,于是就報了這個專業。

聯考結束後,有一天突然收到了被清華大學電子工程系錄取的通知書,這電子工程系是幹什麼的一概不知,中學的老師也沒有人知道。剛好一個老師在北京工作的親戚來探親,他是文革前畢業的大學生,老師很熱心的幫我咨詢。這位親戚看完錄取通知書後,很神秘的對我說:這是一個保密專業,就沒有任何下文了。

來到學校報到後,才知道我讀的就是電子工程系的自動控制專業,此外還有計算機和無線電兩個專業。1979年,電子工程系更名為計算機系,而原來的無線電系則從四川綿陽搬回北京,更名為電子工程系。

而當時我們教研組的一些老師,張钹老師、林堯瑞老師、石純一老師、黃昌甯老師等,則從更早的時候,就在探讨開拓新的研究方向,并選擇了人工智能,從1978年就開始招收人工智能方向的研究所學生,1979年在我系大學中開設人工智能導論課,由林堯瑞老師主講。我就是在那個課上首次接觸了人工智能,印象中教材是一本油印的教材,内容包括至少現在在大多數人工智能教材中還會講的A*算法、α-β剪枝算法、定理證明等。之後又開設了lisp語言課,由陸玉昌老師主講,做過的作業包括八皇後問題等。最後的考試有多個題目可選,我選擇了使用α-β剪枝算法實作五子棋下棋程式,雖然水準并不高,但也可以下棋了。這應該是我最早實作的人工智能程式,而α-β剪枝算法正是IBM的深藍所采用的基本算法架構。

1982年大學畢業後,我繼續在清華讀碩士,研究方向是有關汽車自動駕駛的,也就是現在火熱的無人車,論文題目為“汽車行駛的計算機實時控制及性能函數對系統參數靈敏度的計算”。當然那個時候受各種條件的限制,做的還比較簡單,我的論文中隻實作了左右轉彎、躲避固定障礙物等的簡單控制。實驗室購買了一輛二手的日本車,經改裝後作為實驗用車,在實際測試時為了觀察汽車軌迹是否合理,在車上裝了一桶水,通過一個水管流水,記錄車的運作軌迹,計算機用的是TRS-80,用的是basic程式設計語言。

1984年碩士畢業留校後,我開始從事專家系統建構方面的研究工作,和研究所學生一起,先後實作了好幾個專家系統,包括貨船積載專家系統、火車編組站排程專家系統和某軍事裝置故障診斷專家系統等,還申請了一個863項目,機器人故障診斷系統。做專家系統的關鍵是整理專家知識,為了能跟專家對話,需要花費很多時間學習相關的領域知識,基本上可以稱得上半個專家了。比如為了做火車編組站排程專家系統,自學了很多編組站排程方面的書籍,多次去山海關火車站向排程人員請教、學習,到後來,我們也基本可以勝任排程員的工作了,隻是做的不如專業排程員快,但我們做的方案基本被對方所認可。掌握了相關知識後,進一步總結整理知識,最後實作的專家系統,可以達到專業排程員的水準,并且速度要快的多,極大的減輕了排程人員的工作強度,提高了工作效率。

我做的最成功的一個專家系統是90年代中期為某企業做的一個市場調查報告自動生成專家系統,是我們系為該企業做的一個資訊化系統的一個組成部分。根據以往企業撰寫的市場調查報告,總結了若幹模闆和寫作知識,根據企業收集的市場資料,自動完成市場調查報告。為了使得報告内容看起來更加自然和富有變化,我們總結了很多寫作知識,所完成的報告,基本可以達到人的水準。該專家系統,結合我們系為該企業做的資訊化系統,可以用語音的形式播報市場調查報告,并配合語音的進度,自動在計算機螢幕上,顯示各種圖表等,相關的同步資訊,也是由專家系統自動生成的。

從1992年,我又開始從事漢字識别方面的研究工作,選擇了被認為難度最大的脫機手寫體漢字識别,也就是對寫在紙上、經掃描得到的漢字圖象做識别。1994年我在職攻讀博士學位,研究方向就是有關脫機手寫體漢字識别方面的。在單字漢字識别研究的基礎上,我們組最早研究了漢字識别後處理方法,也就是說,在單個漢字識别的基礎上,利用漢字在句中的上下文關系,自動糾正識别結果,提高識别率。在一次863組織的漢字識别評測現場,我們的系統以句子為機關,先是顯示單字識别結果,再顯示後處理後的結果。限于當時的技術水準,又加上評測用的漢字寫的不是很工整,識别結果錯誤很多,以至于很多句子看不懂,但是經後處理後,大多數識别錯誤的漢字得以糾正,人看懂已經完全沒有問題了。當後處理結果顯示出來後,我還清楚的記得,現場觀衆一片嘩然的叫好聲。

大概在1997年前後,突然有幾個公司宣布要做《四庫全書》數字化的工作,有的公司還在人民大會堂搶先召開新聞釋出會,試圖搶占先機。這些公司完全沒有想到這件事情的難度,試圖采取人工錄入的方式,完成《四庫全書》的數字化工作,最終導緻失敗,隻有采用了我們的漢字識别技術的書同文公司最終取得了成功,完成了《四庫全書》全部的數字化工作,這也是我一生中可以保留下來的一件有意義的工作。

《四庫全書》數字化難度在哪裡呢?為什麼用人工錄入方式的嘗試均以失敗告終呢?《四庫全書》共收錄古籍3503種、79337卷、裝訂成36000餘冊,含有約8億個漢字。台灣曾經出版過影印版,在頁面縮小到原來頁面的四分之一後,全套書總重量仍然達到了2.5噸的重量,可以想象這套書有多少。這麼大的量,又是繁體字,錄入也好,校對也好,都帶來了極大的難度。而以漢字識别為基礎的數字化方案,從識别到校對,可以提供一套切實可行的解決方案,最終曆時兩年時間,終于完成了《四庫全書》的全部數字化工作。這其中也遇到了幾個技術難題,比如缺少訓練用樣本等,為此我們提出了一種樣本生成技術解決訓練樣本少的問題,并提出了一種增量式學習方法,實作了邊訓練邊識别,可以滾動式地建構古籍識别系統,這對古籍數字化是一個非常重要的技術。可惜在報教育部獎時,被某權威人士認為是“現有技術的簡單應用”而落選。

在做《四庫全書》數字化的過程中,接觸到了資訊檢索,當時網際網路開始普及,google也剛剛成立不久,意識到搜尋引擎在将來的網絡化社會将是一個十分重要的工具。在經過一番調研之後,決定将小組的工作轉向搜尋引擎相關技術的研究。在黃昌甯老師的建議下,我們先從參加TREC評測開始(TREC是資訊檢索領域的一個著名的會議,以各種評測聞名),一方面可以通過參加評測獲得資料,另一方面也可以相對快速地檢驗我們的研究成果,和國際上優秀團隊一決高低。經過大約兩年的學習、研究,小組于2002年首次參加TREC評測,就獲得了一項第一名,這也是TREC舉辦以來,亞洲參加評測機關首次獲得第一名,在此之前亞洲最好成績是第4。從此一發不可收拾,小組連續10年每年都至少有一個第一名。也正是由于有了這樣的成績,從2007年開始,和搜狗公司共建清華大學-搜狗公司搜尋技術聯合實驗室,雙方合作9年,就搜尋引擎技術共同開展合作研究,并于2016年将聯合實驗室更新為天工智能計算研究院,為此搜狗公司捐贈了1.8億人民币用于研究院的建設。這期間雙方不僅在國際頂級會議和期刊上聯合發表了多篇論文,大多數研究成果還用于搜狗搜尋引擎中,有效的提升了搜狗搜尋引擎的性能。

這麼多年來,我在人工智能的若幹個方向上做了一些研究,看似是些不同的方向,但是互相之間也是有很多關聯的,很多基礎知識是通用的。比如在漢字識别後進行中,我們就引入了專家系統中的黑闆模型,将多種不同的知識融入到漢字識别後處理,有效提高了後處理的性能。在做資訊檢索研究時,尤其是初期,很多漢字識别中用到的機器學習方法,也起到了非常重要的作用。

回首往事,一直艱難地走在人工智能之路上,在人工智能的寒冬期,多少誘惑不為所動,因為看好人工智能的未來;在今天人工智能的火熱期,更要保持冷靜的頭腦,因為人工智能還遠遠沒有達到人們所期望的那樣,還有很長的路要走。努力吧,路在前方!

原文釋出時間為:2017-05-07 

本文來自雲栖社群合作夥伴“資料派THU”,了解相關資訊可以關注“資料派THU”微信公衆号

繼續閱讀