
中文自然語言處理資源筆記 🍩。收集了個人自用及備用的一些開源Python庫、知識圖譜、語料庫、詞表以及其他可能有幫助的研究
聲明:個人筆記觀點,持續更新......
個人收集的自用及備用的自然語言處理相關資源,僅供學術交流 項目位址:https://github.com/junchaoIU/ChineseNLP_ResourceNote Author:🍧 Wu, Junchao
項目
位址
簡介
jieba分詞
https://github.com/fxsjy/jieba
中文分詞庫
中文資訊抽取工具
https://github.com/fighting41love/cocoNLP
從中文文本資料中抽取出結構化的資訊,如時間、手機号、營運商、郵箱、位址、人名、身份證
LTP(Language Technology Platform)
https://github.com/HIT-SCIR/ltp
提供了一系列中文自然語言處理工具,使用者可以使用這些工具對于中文文本進行分詞、詞性标注、句法分析等等工作
中文位址提取工具
https://github.com/shibing624/addressparser
支援中國三級區劃位址(省、市、區)提取和級聯映射,支援位址目的地熱力圖繪制。适配python2和python3
中文公司名稱分詞工具
https://github.com/shibing624/companynameparser
支援公司名稱中的地名,品牌名(主詞),行業詞,公司名字尾提取
漢字數字(中文數字)-阿拉伯數字轉換工具
https://github.com/Wall-ee/chinese2digits
是一個将中文數字(大寫數字) 轉化為阿拉伯數字的工具
HarvestText
https://github.com/blmoistawinde/HarvestText
是一個專注無(弱)監督方法,能夠整合領域知識(如類型,别名)對特定領域文本進行簡單高效地處理和分析的庫。适用于許多文本預處理和初步探索性分析任務,在小說分析,網絡文本,專業文獻等領域都有潛在應用價值
文檔圖譜資訊可視化
https://github.com/liuhuanyong/TextGrapher
輸入一篇文檔,将文檔進行關鍵資訊提取,進行結構化,并最終組織成圖譜組織形式,形成對文章語義資訊的圖譜化展示。
京東GoodsKG
https://github.com/liuhuanyong/ProductKnowledgeGraph
基于京東網站的商品上下級概念,商品品牌之間關系,商品描述次元等知識庫,基于該知識庫可以支援商品屬性庫建構,商品銷售問答,品牌物品生産等知識查詢服務,也可用于情感分析等下遊應用.
思知知識圖譜
https://github.com/ownthink/KnowledgeGraphData
史上最大規模1.4億中文知識圖譜開源下載下傳,知識圖譜,通用知識圖譜,融合了兩千五百多萬的實體,擁有億級别的實體屬性關系。
stock-knowledge-graph
https://github.com/lemonhu/stock-knowledge-graph
(neo4j)利用網絡上公開的資料建構一個小型的證券知識圖譜/知識庫
事件三元組抽取
https://github.com/liuhuanyong/EventTriplesExtraction
基于依存句法與語義角色标注的事件三元組抽取,可用于文本了解如文檔主題鍊,事件線等應用。内置LTP、百度DDParser和規則模版的三種抽取方式
中文人物知識圖譜建構
https://github.com/liuhuanyong/PersonRelationKnowledgeGraph
中文人物關系知識圖譜項目,内容包括中文人物關系圖譜建構,基于知識庫的資料回标,基于遠端監督與bootstrapping方法的人物關系抽取,基于知識圖譜的知識問答等應用.
awesome-knowledge-graph
https://github.com/husthuke/awesome-knowledge-graph
整理知識圖譜相關學習資料,提供系統化的知識圖譜學習路徑。
ChineseNlpCorpus
https://github.com/SophonPlus/ChineseNlpCorpus
搜集、整理、釋出 中文 自然語言處理 語料/資料集, 包含情感/觀點/評論 傾向性分析、中文命名實體識别、推薦系統、FAQ 問答系統多個領域的資料集
公司名語料庫(Company-Names-Corpus)
https://github.com/wainshine/Company-Names-Corpus
公司名語料庫。機構名語料庫。公司簡稱,縮寫,品牌詞,企業名。可用于中文分詞、機構名實體識别。
微信公衆号語料庫
https://github.com/nonamestreet/weixin_public_corpus
部分網絡抓取的微信公衆号的文章,已經去除HTML,隻包含了純文字。
百度知道問答語料庫
https://github.com/liuhuanyong/MiningZhiDaoQACorpus
百度知道問答語料庫,包括超過580萬的問題,938萬的答案,5800個分類标簽。基于該問答語料庫,可支援多種應用,如閑聊問答,邏輯挖掘。
多語言音頻資料
https://voice.mozilla.org/en/datasets
多種語言音頻資料,包括來自42,000名貢獻者超過1,400小時的語音樣本,涵github
中文突發事件語料庫
https://github.com/shijiebei2009/CEC-Corpus
中文突發事件語料庫是由上海大學(語義智能實驗室)所建構。根據國務院頒布的《國家突發公共事件總體應急預案》的分類體系,從網際網路上收集了5類(地震、火災、交通事故、恐怖襲擊和食物中毒)突發事件的新聞報道作為生語料,然後再對生語料進行文本預處理、文本分析、事件标注以及一緻性檢查等處理,最後将标注結果儲存到語料庫中,CEC合計332篇。
dh_msra
下載下傳位址
5 萬多條中文命名實體識别标注資料(包括地點、機構、人物)
multistop
https://github.com/hidadeng/multistop
停用詞表,支援中英法德等15種語言
事理知識抽取研究
https://github.com/liuhuanyong/ComplexEventExtraction
中文複合事件抽取,包括條件事件、因果事件、順承事件、反轉事件等事件抽取,并形成事理圖譜。
領域情感詞典建構
https://github.com/hidadeng/wordexpansion
使用SO_PMI互資訊算法簡單快速建構不同領域(手機、汽車等)的專業情感詞典
個人部落格:春天與愛情の櫻花
部落格園:夢淑の部落格園
語雀:CCの知識庫
Github:https://github.com/junchaoIU
有什麼問題請緻郵:[email protected],我會第一時間為你解答
一半是現實,一半是夢想~
一念花開,一念花落~