天天看點

NLP随筆(四)

nlp技術包括基礎技術和應用技術

70 年代以後随着網際網路的高速發展,語料庫越來越豐富以及硬體更新完善,自然語言處理思潮由理性主義向經驗主義過渡,基于統計的方法逐漸代替了基于規則的方法。

從 2008 年到現在,由于深度學習在圖像識别、語音識别等領域不斷取得突破,人們也逐漸開始引入深度學習來做自然語言處理研究,由最初的詞向量到 2013 年 word2vec,将深度學習與自然語言處理的結合推向了高潮,并且在機器翻譯、問答系統、閱讀了解等領域取得了一定成功。再到最近的emlo、bert等,也許正在揭開下一個篇章。

可以說,自然語言處理就是要計算機了解自然語言,自然語言處理機制涉及兩個流程,包括自然語言了解和自然語言生成。自然語言了解是指計算機能夠了解自然語言文本的意義,自然語言生成則是指能以自然語言文本來表達給定的意圖

自然語言的了解和分析是一個階層化的過程,許多語言學家把這一過程分為五個層次,可以更好地展現語言本身的構成,五個層次分别是語音分析、詞法分析、句法分析、語義分析和語用分析。

語音分析是要根據音位規則,從語音流中區分出一個個獨立的音素,再根據音位形态規則找出音節及其對應的詞素或詞。

詞法分析是找出詞彙的各個詞素,從中獲得語言學的資訊。

句法分析是對句子和短語的結構進行分析,目的是要找出詞、短語等的互相關系以及各自在句中的作用。

語義分析是指運用各種機器學習方法,學習與了解一段文本所表示的語義内容。 語義分析是一個非常廣的概念。

語用分析是研究語言所存在的外界環境對語言使用者所産生的影響

詞法分析(lexical analysis)

詞法分析包括漢語分詞(word segmentation 或 tokenization)和詞性标注(part-of-speech tag)等。

漢語分詞:處理漢語(英文自帶分詞)首要工作就是要将輸入的字串切分為單獨的詞語,這一步驟稱為分詞。

詞性标注:詞性标注的目的是為每一個詞賦予一個類别,這個類别稱為詞性标記。比如,名詞(noun)、動詞(verb)等

另一方面是自然語言處理的應用技術,這些任務往往會依賴基礎技術,包括文本聚類(Text Clustering)、文本分類(Text Classification)、文本摘要(Text abstract)、情感分析(sentiment analysis)、自動問答(Question Answering,QA)、機器翻譯(machine translation, MT)、資訊抽取(Information Extraction)、資訊推薦(Information Recommendation)、資訊檢索(Information Retrieval,IR)等。

文本分類:文本分類任務是根據給定文檔的内容或主題,自動配置設定預先定義的類别标簽。包括單标簽分類和多标簽文本分類,。

文本聚類:任務則是根據文檔之間的内容或主題相似度,将文檔集合劃分成若幹個子集,每個子集内部的文檔相似度較高,而子集之間的相似度較低。

文本摘要:文本摘要任務是指通過對原文本進行壓縮、提煉,為使用者提供簡明扼要的文字描述。

情感分析:情感分析任務是指利用計算機實作對文本資料的觀點、情感、态度、情緒等的分析挖掘。

自動問答:自動問答是指利用計算機自動回答使用者所提出的問題以滿足使用者知識需求的任務。

機器翻譯:機器翻譯是指利用計算機實作從一種自然語言到另外一種自然語言的自動翻譯。被翻譯的語言稱為源語言(source language), 翻譯到的語言稱作目智語言(target language)。

資訊抽取:資訊抽取是指從非結構化/半結構化文本(如網頁、新聞、論文文獻、微網誌等)中提取指定類型的資訊(如實體、屬性、關系、事件、商品記錄等),并通過資訊歸并、備援消除和沖突消解等手段将非結構化文本轉換為結構化資訊的一項綜合技術。

資訊推薦:資訊推薦據使用者的習慣、 偏好或興趣, 從不斷到來的大規模資訊中識别滿足使用者興趣的資訊的過程。

資訊檢索:資訊檢索是指将資訊按一定的方式加以組織,并通過資訊查找滿足使用者的資訊需求的過程和技術。

繼續閱讀