天天看點

自然語言處理工具HanLP被收錄中國大資料産業發展的創新技術新書《資料之翼》

在12月20日由中國電子資訊産業發展研究院主辦的2018中國軟體大會上,大快搜尋獲評“2018中國大資料基礎軟體領域領軍企業”,并成功入選中國數字化轉型TOP100服務商。

自然語言處理工具HanLP被收錄中國大資料産業發展的創新技術新書《資料之翼》

在本屆2018中國軟體大會上,不僅宣傳并成立了數字轉型促進會,還釋出了由中國大資料産業生态聯盟副秘書長、《軟體和內建電路》雜志社總編輯郭嘉凱編輯的新書——《資料之翼-引領中國大資料産業發展的創新技術》。在本書的第一章節收錄介紹了大快搜尋自主研發的Hanlp技術。

自然語言處理工具HanLP被收錄中國大資料産業發展的創新技術新書《資料之翼》

圖:資料之翼-引領中國大資料産業發展的創新技術

Hanlp是由大快搜尋進階研究員何晗主導開發的完全開源的項目,具有精度高、速度快、記憶體省的特點。

2014年,還在攻讀日語大學的何晗(大快搜尋進階研究員)一定沒想到,機緣巧合研發的一款中文分詞器,在随後幾年中幾經疊代,并在商用市場大放異彩。

而看似是“無心插柳柳成蔭”的事情,卻凝聚着何晗對Hanlp工匠式的錘煉。

Hanlp是由一系列模型與算法組成的工具包,目标是普及自然語言處理(NLP)在生産環境中的應用。Hanlp具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點:能夠提供詞法分析(中文分詞、詞性标注、命名實體識别)、句法分析、文本分類和情感分析等功能。

繼續閱讀