天天看點

自然語言處理系列二十二》詞性标注》詞性标注原理》詞性介紹自然語言處理系列二十二總結

注:此文章内容均節選自充電了麼創始人,CEO兼CTO陳敬雷老師的新書《分布式機器學習實戰》(人工智能科學與技術叢書)【陳敬雷編著】【清華大學出版社】

文章目錄

  • 自然語言處理系列二十二
    • 詞性标注
      • 詞性介紹
  • 總結

自然語言處理系列二十二

詞性标注

詞性标注(Part-Of-Speech tagging, POS tagging)也被稱為文法标注(grammatical tagging)或詞類消疑(word-category disambiguation),是語料庫語言學(corpus linguistics)中将語料庫内單詞的詞性按其含義和上下文内容進行标記的文本資料處理技術。

詞性标注可以由人工或特定算法完成,使用機器學習(machine learning)方法實作詞性标注是自然語言處理(Natural Language Processing, NLP)的研究内容。常見的詞性标注算法包括隐馬爾可夫模型(Hidden Markov Model, HMM)、條件随機場(Conditional random fields, CRFs)等。詞性标注主要被應用于文本挖掘(text mining)和NLP領域,是各類基于文本的機器學習任務,例如語義分析(semantic analysis)和指代消解(coreference resolution)的預處理步驟。下面我們分别從原理和實戰工具給大家詳細講解。

詞性介紹

詞性指以詞的特點作為劃分詞類的根據。詞類是一個語言學術語,是一種語言中詞的文法分類,是以文法特征(包括句法功能和形态變化)為主要依據、兼顧詞彙意義對詞進行劃分的結果,現代漢語的詞可以分為13種詞類。從組合和聚合關系來說,一個詞類是指:在一個語言中,衆多具有相同句法功能、能在同樣的組合位置中出現的詞,聚合在一起形成的範疇。詞類是最普遍的文法的聚合。詞類劃分具有層次性。如漢語中,詞可以分成實詞和虛詞,實詞中又包括體詞、謂詞等,體詞中又可以分出名詞和代詞等。

1.詞類區分

詞類根據表示實際意義以及文法結構可以分為實詞和虛詞,按照是否吸收其它詞性的詞分為開放詞類和閉合詞類(例如漢語的動詞可以直接作為“某種動作的名字”當成名詞使用,是以漢語的名詞是一個開放詞類)。以上大類以下還可以按照詞的具體用法和功能分為小類。

2.實詞

實詞是表示具體概念的詞,實詞以下分為:

1)名詞

名詞表示實體和概念名稱的詞。在大多數屈折語中,名詞有以下性質:

性:對于大多數印歐語言都分——或部分地分——陰,陽,中;一些小語種用“動物性”或“非動物性”區分詞性,如格魯吉亞語。某些語言還有更多分類方式,或交叉地采用上述的分類方式

數:表示物體是單個,特定的幾個或多個,即單數或複數。有些語種包括雙數等特定數的詞法

格:表示名詞在句子中的成分,即主格(第一格),與格(第二格),屬格(第三格),賓格(第四格)等。部分語言如希臘語,俄語等還分更多的詞格。

在屈折語中,需要注意主謂一緻,即謂語的形式需要根據主語的性和數屈折變化。

2)代詞

代詞是在句子結構中代替其它詞的詞,包括人稱代詞(代替某一人稱人或事物的詞,如“你”,“我”,“他”),疑問代詞(包括“5W1H”),訓示代詞(“這”,“那”等)。代表名詞的代詞通常也具有名詞的性,數,格規律。

3)動詞

動詞表示動作的詞。根據是否帶賓語可以分為“及物”與“不及物”,“及物動詞”以下還包括“雙賓語動詞(他給了我一塊糖中的“給”需要“我”和“糖”兩個賓語)”和“雙及物動詞(需要賓語和補語的動詞,例如“他覺得我很好”需要“我”這個賓語和“很好”這個描述性的補語)”,有些語言存在不需要主語的動詞(尤其是表天氣的詞如“下雪了”這一說法中,英語必須有it這個主語,漢語和西班牙語則不需要),有些涉及到“交易”的動詞需要三個賓語:Pat1sold Chris2a lawnmower3for $204。

表示“某種動作的名稱”的詞稱作“動名詞”,在某些語言中有特定的詞法。

在屈折語中,動詞根據時态(過去時,現在時,将來時,一般動作,進行時,完成時,及其交叉)和語态(主動,被動)變化。

4)形容詞

形容詞用來修飾名詞,表示人或事物的性質、狀态、特征或屬性的詞。在屈折語中形容詞根據所修飾的詞語性質屈折變化。

5)數詞

數詞表示數量(基數詞)和序數(序數詞)的詞。

6)量詞

量詞(measure word/numeral classifier/counter word)是表示數量機關的詞。漢語和日語在大多數描述數量的語境下都使用“數詞+量詞”構成的數量短語。

量詞下面還分為“數量詞”(表示可數名詞數量機關的詞,如“個”,“條”等),“體量詞”(表示一個整體的不可數名詞的數量機關的詞,如“堆”),“動量詞”(表示動作次數的詞,如“下”,“次”等)。

英語對不特定數目的物使用“集合名詞”,如“一疊紙”(a stack of paper)中的“疊”屬于集合名詞。

7)差別詞

差別詞是一類不能單獨充當謂語的“形容詞”,即不能不加助詞地組成“S是V”句子的形容詞。每個差別詞通常有一個反義詞,表示互相對立的兩種屬性之一。差別詞通常可以後加“的”組成“的字短語”作為謂語。

3.虛詞

虛詞泛指沒有完整意義的詞彙,但有文法意義或功能的詞。具有必須依附于實詞或語句,表示文法意義、不能單獨成句,不能單獨作文法成分、不能重疊的特點。虛詞有以下幾種:

1)副詞

副詞修飾動詞,表示動作的特征,狀态等的詞。有些副詞是形容詞變化而來的,實際地表示動作的特征狀态等(如大多數“形容詞+地”格式的副詞短語和英文以“形容詞+ly”構成的副詞),有些副詞特别地構成句法成分。

2)介詞

介詞用在句子的名詞成分之前,說明該成分與句子其它成分關系的詞。

3)連詞

連詞連接配接兩句話,表示其中邏輯關系的詞。

4)助詞

助詞表示語氣,句子結構和時态等文法和邏輯性的“小詞”。在有詞語屈折的語言中助詞一般不屈折。

5)歎詞

歎詞表示感歎的小詞,通常獨立成句。不少粗話都以歎詞的形式獨立存在。

6)拟聲詞

拟聲詞是模拟聲音的小詞,如“砰”“啪”等。英語中某些拟聲詞同時也是“表示這種聲音的名詞”,如“roar”既是摹仿動物的吼聲的拟聲詞,又是名詞“吼叫”。

對詞性了解後,我們下一步就需要從一個完整的句子中怎麼把詞性标注和識别出來,這就會用到算法,接下面我們介紹三種算法:HMM、感覺機、CRF。

總結

此文章有對應的配套視訊,其它更多精彩文章請大家下載下傳充電了麼app,可擷取千萬免費好課和文章,配套新書教材請看陳敬雷新書:《分布式機器學習實戰》(人工智能科學與技術叢書)

【新書介紹】

《分布式機器學習實戰》(人工智能科學與技術叢書)【陳敬雷編著】【清華大學出版社】

新書特色:深入淺出,逐漸講解分布式機器學習的架構及應用配套個性化推薦算法系統、人臉識别、對話機器人等實戰項目

【新書介紹視訊】

分布式機器學習實戰(人工智能科學與技術叢書)新書【陳敬雷】

視訊特色:重點對新書進行介紹,最新前沿技術熱點剖析,技術職業規劃建議!聽完此課你對人工智能領域将有一個嶄新的技術視野!職業發展也将有更加清晰的認識!

【精品課程】

《分布式機器學習實戰》大資料人工智能AI專家級精品課程

【免費體驗視訊】:

人工智能百萬年薪成長路線/從Python到最新熱點技術

從Python程式設計零基礎小白入門到人工智能進階實戰系列課

視訊特色: 本系列專家級精品課有對應的配套書籍《分布式機器學習實戰》,精品課和書籍可以互補式學習,彼此互相補充,大大提高了學習效率。本系列課和書籍是以分布式機器學習為主線,并對其依賴的大資料技術做了詳細介紹,之後對目前主流的分布式機器學習架構和算法進行重點講解,本系列課和書籍側重實戰,最後講幾個工業級的系統實戰項目給大家。 課程核心内容有網際網路公司大資料和人工智能那些事、大資料算法系統架構、大資料基礎、Python程式設計、Java程式設計、Scala程式設計、Docker容器、Mahout分布式機器學習平台、Spark分布式機器學習平台、分布式深度學習架構和神經網絡算法、自然語言處理算法、工業級完整系統實戰(推薦算法系統實戰、人臉識别實戰、對話機器人實戰)、就業/面試技巧/職業生涯規劃/職業晉升指導等内容。

【充電了麼公司介紹】

充電了麼App是專注上班族職業教育訓練充電學習的線上教育平台。

專注工作職業技能提升和學習,提高工作效率,帶來經濟效益!今天你充電了麼?

充電了麼官網

http://www.chongdianleme.com/

充電了麼App官網下載下傳位址

https://a.app.qq.com/o/simple.jsp?pkgname=com.charged.app

功能特色如下:

【全行業職位】 - 專注職場上班族職業技能提升

覆寫所有行業和職位,不管你是上班族,高管,還是創業都有你要學習的視訊和文章。其中大資料智能AI、區塊鍊、深度學習是網際網路一線工業級的實戰經驗。

除了專業技能學習,還有通用職場技能,比如企業管理、股權激勵和設計、職業生涯規劃、社交禮儀、溝通技巧、演講技巧、開會技巧、發郵件技巧、工作壓力如何放松、人脈關系等等,全方位提高你的專業水準和整體素質。

【牛人課堂】 - 學習牛人的工作經驗

1.智能個性化引擎:

海量視訊課程,覆寫所有行業、所有職位,通過不同行業職位的技能詞偏好挖掘分析,智能比對你目前職位最感興趣的技能學習課程。

2.聽課全網搜尋

輸入關鍵詞搜尋海量視訊課程,應有盡有,總有适合你的課程。

3.聽課播放詳情

視訊播放詳情,除了播放目前視訊,更有相關視訊課程和文章閱讀,對某個技能知識點強化,讓你輕松成為某個領域的資深專家。

【精品閱讀】 - 技能文章興趣閱讀

1.個性化閱讀引擎:

千萬級文章閱讀,覆寫所有行業、所有職位,通過不同行業職位的技能詞偏好挖掘分析,智能比對你目前職位最感興趣的技能學習文章。

2.閱讀全網搜尋

輸入關鍵詞搜尋海量文章閱讀,應有盡有,總有你感興趣的技能學習文章。

【機器人老師】 - 個人提升趣味學習

基于搜尋引擎和智能深度學習訓練,為您打造更懂你的機器人老師,用自然語言和機器人老師聊天學習,寓教于樂,高效學習,快樂人生。

【精短課程】 - 高效學習知識

海量精短牛人課程,滿足你的時間碎片化學習,快速提高某個技能知識點。

上一篇:自然語言處理系列二十一》詞性标注》詞性标注原理

下一篇:自然語言處理系列二十三》詞性标注》詞性标注原理》HMM詞性标注

繼續閱讀