天天看點

技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台

技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台

1. 工具簡介

北京語言大學語料庫中心(BLCU Corpus Center,簡稱BCC)是以漢語為主、兼有英語和法語的線上語料庫,是服務語言本體研究和語言應用研究的線上大資料系統。BCC語料庫總字數約 150 億字,包括報刊(20 億)、文學(30 億)、微網誌(30 億)、科技(30 億)、綜合(10 億)和古漢語(20 億)等多領域語料,是可以全面反映當今社會語言生活的大規模語料庫。BCC語料庫具有資料量大、領域廣和檢索便捷等優點。目前,已經支援了百餘篇論文的發表。

BCC漢語語料庫網址:

技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台

2. 圖文教程2.1 基本檢索流程

1)在搜尋框裡輸入要檢索的詞彙或語句,可以選擇“多領域”“文學”“報刊”“對話”“篇章檢索”“古漢語”“曆時檢索”或“自定義”。如輸入“美麗的”。點選“搜尋”鍵,可以在單句範圍内,檢符合檢索式的語言片段。

技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台
技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台

2)點選“全文”,可以看見該詞的出處。

技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台

3)點選“統計”,可以查詢統計符合檢索式的語言片段出現的頻次。

技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台

4)點選“篩選”,對檢索結果進一步剔除或者僅僅保留符合篩選檢索式的執行個體。

技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台

5)點選“下載下傳”,可以下載下傳10000條,但不能做商業使用。

技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台

6)點選“進階”,設定檢索結果的顯示形式,控制上下文字數。

2.2 曆時檢索

1)點選“曆時檢索”,輸入“美麗的”,檢索結果可以看到檢索式曆年的出現頻次和頻率,可以切換為柱狀圖、折線圖兩種顯示方式。

技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台
技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台

2)點選“切換為頻率圖”,即可檢視。

技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台

3)右上角依次為“資料視圖”“切換為折線圖”“切換為柱狀圖”“儲存為圖檔”。

技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台
技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台

① 資料視圖

技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台

② 折線視圖

技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台

③ 儲存的圖檔為png格式。

2.3 BCC檢索式

1)下圖為一些常見的檢索式示例。

技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台

2)點選“文學”或“報刊”,輸入基本檢索式“愛v不v”。

技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台

3)此外,由于僅僅使用文字加英文的形式檢索出來的内容并不具有廣泛性。是以,對于一個結構内部的精細分析,使用BCC的基本操作方式(連結)确實難以完成,無法一步到位。BCC在“報刊”“文學”兩個頻道資料更新了進階檢索功能。4)進階檢索式在基本檢索式的基礎上增加了條件語句或輸出語句。語句之間用“;”隔開,寫在基本檢索式後的“{ }”中,形如:Query{condition1;condition2;...}Query表示基本檢索式;{ }中的内容為限制語句,其中condition表示對檢索内容進行條件限定。檢索式中被限定的部分需要用( )括起來,一個檢索式中被限定的成分隻能有兩處,即隻能出現2個( )。根據( )出現的順序,使用$符号和序号指代該部分内容,在{ }中進行指稱。即$1表示第一個( )中出現的内容,而$2表示第二個中的内容。然而花括号裡如何構造條件呢?通過内容限制([])長度限制(len)、次數限制(count)等操作符,BCC實作了更靈活的檢索。控制方式詳見下表。

技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台

比如,我們輸入檢索式示例:(v)了又(v){$1=$2;len($1)=1}表示“動詞+了又+動詞”的結構。按“( )”出現的順序,兩個動詞可分别由“$1”“$2”取得。“{ }”中的限定條件表示前後兩個動詞相同,第一個動詞長度為1。

技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台

2.4 其他功能

1)在首頁下方,還可以看見“新聞”“搜尋示例”“下載下傳”選項。

技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台

2)其中,“下載下傳”選項裡涵蓋了樹庫資源,法語資源,HSK資源,漢字資源,詞彙資源,外語資源及其他工具。友善使用者進行下載下傳。

技術科普 | BCC漢語語料庫:緊跟時代潮流的語料檢索平台

搜尋示例提供了相應句型的檢索符号,友善檢索者進行查閱。

3. 學習心得

BCC漢語語料庫以漢語為主,兼有其他語種的語言大資料;為語言本體研究提供線上檢索系統;為語言本體研究提供建構大資料的語言應用平台;支援雲服務;通過API調用方式為開展知識抽取、模型建構提供便利。不僅為漢語言愛好者提供便捷專業的檢索途徑,也對從事中譯外的譯者及對外漢語教師提供了多角度,具有時效性的檢索結果。同時,該檢索工具幫助使用者們掌握更為細化的檢索方式,提高了使用學習者們的搜尋技能。綜上,BCC漢語語料庫值得大家研究學習。

參考資料

[1]BCC漢語語料庫官網-幫助欄[2]肖丹、馬路遙BCC語料庫 | 世界語言資源平台

作者:楊惠鈞

編校:阿之

注:學習作品,僅供參考,歡迎指正。