慎用ArrayList的contains方法，使用HashSet的contains方法代替

2023-06-24 07:43:21

在啟動一個應用的時候，發現其中有一處資料加載要數分鐘，剛開始以為是需要load的資料比較多的緣故，查了一下資料庫有6條左右，但是單獨寫了一個資料讀取的方法，将這6萬多條全部讀過來，卻隻需要不到10秒鐘，就覺得這裡面肯定有問題，于是仔細看其中的邏輯，其中有一段資料去重的邏輯，就是記錄中存在某幾個字段相同的，就認為是重複資料，就需要将重複資料給過濾掉。這裡就用到了一個List來存放這幾個字段所組成的主鍵，如果發現相同的就不處理，代碼無非就是下面這樣：

[java] view plain copy

List<string> uniqueKeyList = new ArrayList<string>();
//......
if (uniqueKeyList.contains(uniqueKey)) {
continue;
}
</string></string>

根據鍵去查找是不是已經存在了，來判斷是否重複資料。經過分析，這一塊耗費了非常多的時候，于是就去檢視ArrayList的contains方法的源碼，發現其最終會調用他本身的indexOf方法：

[java] view plain copy

public int indexOf(Object elem) {
if (elem == null) {
for (int i = 0; i < size; i++)
if (elementData[i]==null)
return i;
} else {
for (int i = 0; i < size; i++)
if (elem.equals(elementData[i]))
return i;
}
return -1;
}

原來在這裡他做的是周遊整個list進行查找，最多可能對一個鍵的查找會達到6萬多次，也就是會掃描整個List，驗怪會這麼慢了。

于是将原來的List替換為Set：

[java] view plain copy

Set<string> uniqueKeySet = new HashSet<string>();
//......
if (uniqueKeySet.contains(uniqueKey)) {
continue;
}

速度一下就上去了，在去重這一塊最多花費了一秒鐘，為什麼HashSet的速度一下就上去了，那是因為其内部使用的是Hashtable，這是HashSet的contains的源碼：

[java] view plain copy

public boolean contains(Object o) {
return map.containsKey(o);
}

如果不知道為什麼使用Hash就變快了，可以看一下我的另外一篇文章： Java中hashCode的作用

慎用ArrayList的contains方法，使用HashSet的contains方法代替

繼續閱讀

Java反射具體需求實作案例一

java程式設計思想_006短路現象

九、設計模式以及查找、排序算法

這是我見過最簡單了解NIO的文章了

Map集合中get不存在的key值，傳回值問題

每日一學（14）——（面向對象）抽象類作為方法參數與傳回值

effective java-tagged class to hierarchy class

單點登入-CAS

集合練習題1

java 程式設計思想第四版學習随記

java之單使用者登入

Java反射是什麼，為什麼要用反射

Double類parseDouble和valueOf方法的差別

java調用Windows指令行

java列印任意邊長的菱形

java 8 Lamda 求 List 中 Bigdecimal類型的各種值求最大值求最小值求和求平均值