天天看點

【重新發現PostgreSQL之美 】- 30 打蛇打七寸

背景

場景:

電商、網站、社交.如頭條,微網誌等.

評價、文章、短語内容文本分析, 找出熱詞、關鍵詞.

挑戰:

傳統資料庫不支援文本分析, 需要拉去到程式内計算, 非常慢.

程式效率差(大多數不是C語言寫的,性能弱上加弱).

PG 解決方案:

支援文本分析, 包括tf-idf等,支援自定義分詞能力.

分詞性能強大: macmini 2018 i5每秒分析速度360萬詞.

https://github.com/digoal/blog/blob/master/202106/20210619_02.md#%E5%8F%82%E8%80%83 參考

http://madlib.apache.org/docs/latest/group__grp__text__utilities.html 《PostgreSQL結合餘弦、線性相關算法 在文本、圖檔、數組相似 等領域的應用 - 1 文本(關鍵詞)分析理論基礎 - TF(Term Frequency 詞頻)/IDF(Inverse Document Frequency 逆向文本頻率)》 《[未完待續] 情感詞分析,維護社會和諧 - PostgreSQL,Greenplum文本挖掘、分析實踐》 《PostgreSQL 全文檢索 - 詞頻統計》

https://github.com/digoal/blog/blob/master/202106/20210619_02.md#postgresql-%E8%AE%B8%E6%84%BF%E9%93%BE%E6%8E%A5 https://github.com/digoal/blog/issues/76