覺得有幫助請點贊關注收藏~~~
1.1 自然語言處理
1.1.1 自然語言處理主要研究對象 自然語言處理(Natural Language Processing:NLP)是以人類社會的語言資訊(比如語音和文本)為主要研究對象,利用計算機技術來了解、分析和處理語言的一門新興綜合性學科,最終目标是突破人類與計算機的交流瓶頸,提升人機溝通的速度和效率。
1.1.2 自然語言處理分類
廣義:
自然語言了解(Natural Language Understanding:NLU)
自然語言生成(Natural Language Generation:NLG)
狹義:
分詞(Tokenization)
詞性标注(Part of Speech)
句法分析(Syntax Parsing)
文本挖掘(Text Mining)
語音識别(Speech Recognition)
手寫字型識别(Handwriting Text Recognition)
輿情分析(Public Opinion Analysis)
問答系統(Question-and-Answer System)等等
1.1.3 自然語言處理面臨的挑戰
迄今為止研究多聚焦于分析簡單孤立的句子和短語,缺乏對上下文複雜語境和前後關聯語境的系統性研究,對多義性、詞語省略等問題,尚未形成規律性、普适性應用成果。 人們了解語言時不限于文法結構和詞語的字面涵義,無法簡單整合形成統一标準并直接統一應用于實際自然語言分析進行中
1.1.4 自然語言處理重要術語
詞向量
詞是自然語言處理的對象之一,也是語義表達的基本機關,詞向量是将詞語進行數值化或者向量化表達的簡稱,目前詞向量表達方式有離散式和分布式兩種
相關度
即計算文本資訊與文本資訊間的距離,距離通過數值展現,主要用于反映語義之間的相關度
1:餘弦相關度
公式如下
計算出來越接近1則文本越相近,反之差别越大
2:歐幾裡得距離
歐幾裡得距離越小,則兩個向量之間的相關度越高
語義消歧
資訊抽取
無監督學習
有監督學習
人工智能
機器學習
深度學習
不同概念之間包含關系如下圖
創作不易 覺得有幫助請點贊關注收藏~~~