#coding4fun#詞頻統計優化思路

2013-09-06 10:04:00

關于這期的coding4fun，我選擇的是hashmap方式實作。整體思路和流程大家可能都差不多，C++同學們的總結寫的很好，一些邏輯優化都有總結，我這裡介紹下java實作的一些優化吧。

使用ByteString代替String

開始讀出檔案轉成String對象，然後通過String對象操作，代碼寫起來都比較友善。

但是有一個問題，檔案讀取出來的byte[]轉成String對象非常耗時，一個1G的String對象配置設定記憶體時間就很長了，String對象内部使用char[]，通過byte[]構造String對象需要根據編碼周遊byte[]。這個過程非常耗時，肯定是可以優化的。

于是我使用ByteString類代替String

class ByteString{
byte[] bs;
int start;
int end;
}

hashcode()和equals()方法參考String的實作。

在code4fun的16核機器上測試如下代碼：

代碼1：

byte[] bs = new byte[1024*1024*1024];
long st = System.currentTimeMillis();
new String(bs);
System.out.println(System.currentTimeMillis() - st);  // 2619ms

代碼2：

byte[] bs = new byte[1024*1024*1024];
long st = System.currentTimeMillis();
int count = 100000;
for(int i = 0; i &lt; count; i++)
new ByteString(bs, 0, 100);
System.out.println(System.currentTimeMillis() - st);  //10ms

循環中代碼要精簡

Hashmap的實作，給單詞計數時避免不了如下的代碼：

ByteString str = new ByteString(bs, start, end);
Count count = map.get(str);
If(count == null){
count = new Count(str,1);
map.put(str,count);
} else{
count.add(1);
}

本來這段代碼沒什麼問題，但是當單詞個數足夠大的時候（最終1.1G的檔案，有2億多單詞），這段代碼就值得優化了。第一行建立的對象，隻有單詞第一次出現有用，其他時間都可以不用建立。

于是建立一個Pmap類，繼承HahsMap，并添加了一個get(ByteStringbs,intstart,intend)方法。上面的代碼改為

Count count = map.get(bs, start, end);
If(count == null){
ByteString str = new ByteString(bs, start, end);
count = new Count(str,1);
map.put(str,count);
} else{
count.add(1);
}

能避免鎖就不用鎖，不能避免就減小範圍

concurrentHashMap的實作固然精妙，隻是能不用鎖盡量不用，實在用的時候，盡量減少範圍。CAS的方式雖然比鎖好，但是還是有消耗。

我們使用多線程的方式統計，是以統計結果對象需要線程安全。開始使用AtomicInteger，但是跟count++比起來效率還是差的非常多，單詞個數越多越明顯。

嘗試使用volatile關鍵字效果也是不理想，然後比不上count++。

#coding4fun#詞頻統計優化思路

使用ByteString代替String

循環中代碼要精簡

能避免鎖就不用鎖，不能避免就減小範圍

繼續閱讀

線上系統架構性能問題診斷及優化思路，純幹貨！

面試官：Nginx 的優化思路有哪些？網站的防盜鍊如何做？

Python核心技術與實戰學習筆記（四）：python黑箱：輸入與輸出4.1 輸入輸出基礎4.2 檔案輸入輸出4.3 JSON序列化與實戰

MySQL百萬資料深度分頁優化思路分析

MySQL百萬資料深度分頁優化思路

python資料挖掘-文本挖掘(詞頻統計)

mapreduce詞頻統計wordcountmaptask的任務劃分resucetask的任務劃分Combiner元件排序Sort計數器Counter

Java 進行詞頻統計，并按單詞順序順序排序

從0做部落客漲粉10w+，分享5個小紅書營運的寶藏工具！1、灰豚資料灰豚資料-短視訊&直播電商資料分析平台最好用的

MySQL優化思路及方向

Mapreduce中Combiner的使用及誤區

淺析 Jetty 中的線程優化思路

elasticsearch 單索引 6T 20億資料搜尋實戰與優化深度思考

北交大表白牆爬取與分析環境及工具資料爬取資料分析

Java技術幹貨| JVM常用的優化思路及配置參數

大資料之HDFS優化方式和優化思路