自然語言處理常用資源筆記分享

中文自然語言處理資源筆記 🍩。收集了個人自用及備用的一些開源Python庫、知識圖譜、語料庫、詞表以及其他可能有幫助的研究

聲明：個人筆記觀點，持續更新......

個人收集的自用及備用的自然語言處理相關資源，僅供學術交流項目位址：https://github.com/junchaoIU/ChineseNLP_ResourceNote Author：🍧 Wu, Junchao

項目

位址

簡介

jieba分詞

https://github.com/fxsjy/jieba

中文分詞庫

中文資訊抽取工具

https://github.com/fighting41love/cocoNLP

從中文文本資料中抽取出結構化的資訊，如時間、手機号、營運商、郵箱、位址、人名、身份證

LTP（Language Technology Platform）

https://github.com/HIT-SCIR/ltp

提供了一系列中文自然語言處理工具，使用者可以使用這些工具對于中文文本進行分詞、詞性标注、句法分析等等工作

中文位址提取工具

https://github.com/shibing624/addressparser

支援中國三級區劃位址（省、市、區）提取和級聯映射，支援位址目的地熱力圖繪制。适配python2和python3

中文公司名稱分詞工具

https://github.com/shibing624/companynameparser

支援公司名稱中的地名，品牌名（主詞），行業詞，公司名字尾提取

漢字數字(中文數字)-阿拉伯數字轉換工具

https://github.com/Wall-ee/chinese2digits

是一個将中文數字（大寫數字）轉化為阿拉伯數字的工具

HarvestText

https://github.com/blmoistawinde/HarvestText

是一個專注無（弱）監督方法，能夠整合領域知識（如類型，别名）對特定領域文本進行簡單高效地處理和分析的庫。适用于許多文本預處理和初步探索性分析任務，在小說分析，網絡文本，專業文獻等領域都有潛在應用價值

文檔圖譜資訊可視化

https://github.com/liuhuanyong/TextGrapher

輸入一篇文檔，将文檔進行關鍵資訊提取，進行結構化，并最終組織成圖譜組織形式，形成對文章語義資訊的圖譜化展示。

京東GoodsKG

https://github.com/liuhuanyong/ProductKnowledgeGraph

基于京東網站的商品上下級概念，商品品牌之間關系，商品描述次元等知識庫，基于該知識庫可以支援商品屬性庫建構，商品銷售問答，品牌物品生産等知識查詢服務，也可用于情感分析等下遊應用．

思知知識圖譜

https://github.com/ownthink/KnowledgeGraphData

史上最大規模1.4億中文知識圖譜開源下載下傳，知識圖譜，通用知識圖譜，融合了兩千五百多萬的實體，擁有億級别的實體屬性關系。

stock-knowledge-graph

https://github.com/lemonhu/stock-knowledge-graph

（neo4j）利用網絡上公開的資料建構一個小型的證券知識圖譜/知識庫

事件三元組抽取

https://github.com/liuhuanyong/EventTriplesExtraction

基于依存句法與語義角色标注的事件三元組抽取，可用于文本了解如文檔主題鍊，事件線等應用。内置LTP、百度DDParser和規則模版的三種抽取方式

中文人物知識圖譜建構

https://github.com/liuhuanyong/PersonRelationKnowledgeGraph

中文人物關系知識圖譜項目,内容包括中文人物關系圖譜建構,基于知識庫的資料回标,基于遠端監督與bootstrapping方法的人物關系抽取,基于知識圖譜的知識問答等應用.

awesome-knowledge-graph

https://github.com/husthuke/awesome-knowledge-graph

整理知識圖譜相關學習資料，提供系統化的知識圖譜學習路徑。

ChineseNlpCorpus

https://github.com/SophonPlus/ChineseNlpCorpus

搜集、整理、釋出中文自然語言處理語料/資料集, 包含情感/觀點/評論傾向性分析、中文命名實體識别、推薦系統、FAQ 問答系統多個領域的資料集

公司名語料庫（Company-Names-Corpus）

https://github.com/wainshine/Company-Names-Corpus

公司名語料庫。機構名語料庫。公司簡稱,縮寫,品牌詞,企業名。可用于中文分詞、機構名實體識别。

微信公衆号語料庫

https://github.com/nonamestreet/weixin_public_corpus

部分網絡抓取的微信公衆号的文章，已經去除HTML，隻包含了純文字。

百度知道問答語料庫

https://github.com/liuhuanyong/MiningZhiDaoQACorpus

百度知道問答語料庫，包括超過580萬的問題，938萬的答案，5800個分類标簽。基于該問答語料庫，可支援多種應用，如閑聊問答，邏輯挖掘。

多語言音頻資料

https://voice.mozilla.org/en/datasets

多種語言音頻資料，包括來自42,000名貢獻者超過1,400小時的語音樣本，涵github

中文突發事件語料庫

https://github.com/shijiebei2009/CEC-Corpus

中文突發事件語料庫是由上海大學（語義智能實驗室）所建構。根據國務院頒布的《國家突發公共事件總體應急預案》的分類體系，從網際網路上收集了5類（地震、火災、交通事故、恐怖襲擊和食物中毒）突發事件的新聞報道作為生語料，然後再對生語料進行文本預處理、文本分析、事件标注以及一緻性檢查等處理，最後将标注結果儲存到語料庫中，CEC合計332篇。

dh_msra

下載下傳位址

5 萬多條中文命名實體識别标注資料（包括地點、機構、人物）

multistop

https://github.com/hidadeng/multistop

停用詞表，支援中英法德等15種語言

事理知識抽取研究

https://github.com/liuhuanyong/ComplexEventExtraction

中文複合事件抽取，包括條件事件、因果事件、順承事件、反轉事件等事件抽取，并形成事理圖譜。

領域情感詞典建構

https://github.com/hidadeng/wordexpansion

使用SO_PMI互資訊算法簡單快速建構不同領域(手機、汽車等)的專業情感詞典

個人部落格：春天與愛情の櫻花

部落格園：夢淑の部落格園

語雀：CCの知識庫

Github：https://github.com/junchaoIU

有什麼問題請緻郵：[email protected],我會第一時間為你解答

一半是現實，一半是夢想~

一念花開，一念花落~

自然語言處理常用資源筆記分享

繼續閱讀

seq2sqe與attenton實作聊天機器人

奮戰聊天機器人（四）自然語言進行中的文本分類nltk中的貝葉斯分類器

從詞向量衡量标準到全局向量的詞嵌入模型GloVe再到一詞多義的解決方式衡量标準Evaluation引子全局向量的詞嵌入應用對一詞多義的思考Reference

NLP︱進階詞向量表達（一）——GloVe（理論、相關測評結果、R&python實作、相關應用）一、理論簡述二、測評三、Glove實作&R&python四、相關應用

GloVe與word2vec的差別，及GloVe的缺陷

統計學習大作業-BERT模型1 文本處理-BERT模型2 參考資料：

更别緻的詞向量模型(一)：simpler glove

glove_python安裝（避免編譯錯誤）

python 分析qq聊天記錄

[一起學BERT]（一）：BERT模型的原理基礎Self-Attention機制理論Multi-head Self-Attention注意力機制位置編碼Transformer理論BERT理論

ELMO BERT GPT

BERT、Elmo、GPT一、發展曆史二、bert三、ERNIE四、GPT—transformer的decoder

anaconda中科大鏡像

NLP從入門到放棄_IBM Model1IBM Model1

人工智能如何有效地運用于自然語言處理

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合