我們都知道,分割字元串要使用 String 的 split() 方法,split 方法雖然深入人心,使用也簡單,但效率太低!
其實在 JDK 中,還有一個性能很強的純字元串分割工具類:StringTokenizer。
這個類在 JDK 1.0 中就推出來了,但在實際工作卻發現很少有人使用,網上有人說不建議使用了,甚至還有人說已經廢棄了,真的是這樣嗎?
StringTokenizer 被廢棄了嗎?
棧長翻閱了一些資料,原來在 Oracle JDK 官方文檔中已經有了描述,這是最新的 Oracle JDK 15 的官方文檔關于 StringTokenizer 的說明:
StringTokenizer is a legacy class that is retained for compatibility reasons although its use is discouraged in new code. It is recommended that anyone seeking this functionality use the split method of String or the java.util.regex package instead.
參考:
https://docs.oracle.com/en/java/javase/15/docs/api/java.base/java/util/StringTokenizer.htmlStringTokenizer 原來是一個遺留類,并未被廢棄,隻是出于相容性原因而被保留,在新代碼中已經不鼓勵使用它了,建議使用 String 的 split 方法或 java.util.regex 包代替。
再來看 StringTokenizer 類的源碼:
可以看到 StringTokenizer 類并未辨別 @Deprecated,說明在後續的版本中也還可以繼續使用,官方還會繼續保留,并不會進行删除。
就像 JDK 集合中的 Vector 和 Hashtable 類一樣,雖然它們略顯笨重,但并不說明它們沒有用了,另外,它們也不存在緻命缺陷,是以一直保留到現在并未廢除掉。
StringTokenizer 沒人用了嗎?
答案:非也!
棧長在最新的 Spring 5.x 架構 StringUtils 工具類中就發現了 StringTokenizer 的使用身影:

org.springframework.util.StringUtils#tokenizeToStringArray
另外,棧長還看到了一篇《Faster Input for Java》的文章,其中就介紹了他們是使用 StringTokenizer 來分割字元串的,其效率是 string.split() 的 4 倍:
We split the input line into string tokens, since one line may contain multiple values. To split the input, StringTokenizer is 4X faster than string.split().
https://www.cpe.ku.ac.th/~jim/java-io.html是以,即使 JDK 不鼓勵使用它了,但它并未被廢除,并且性能還這麼強,在一些對性能比較敏感的系統中,或者對性能比較有要求的程式設計競賽中,StringTokenizer 就能發揮重要作用。
是以,大膽用吧,StringTokenizer 還是可以用的,用的好還能出奇效!另外,往期 Java 技術系列文章我也已經整理好了,關注公衆号Java技術棧,在背景回複:java,可以擷取閱讀,非常齊全。
StringTokenizer vs split
說了這麼多,相信大部分人都隻用過 split,而沒用過 StringTokenizer,那麼棧長今天就來對比下這兩個字元串分割法的性能及利弊。
測試代碼如下:
import java.util.Random;
import java.util.StringTokenizer;
/**
* @author: 棧長
* @from: 公衆号Java技術棧
*/
public class SplitTest {
private static final int MAX_LOOP = 10000;
/**
* @author: 棧長
* @from: 公衆号Java技術棧
*/
public static void main(String[] args) {
StringBuilder sb = new StringBuilder();
System.out.println(sb.toString());
for (int i = 0; i < 1000; i++) {
sb.append(new Random().nextInt()).append(" ");
}
split(sb.toString());
stringTokenizer(sb.toString());
}
/**
* @author: 棧長
* @from: 公衆号Java技術棧
*/
private static void split(String str) {
long start = System.currentTimeMillis();
for (int i = 0; i < MAX_LOOP; i++) {
String[] arr = str.split(" ");
StringBuilder sb = new StringBuilder();
for (int j = 0; j < arr.length; j++) {
sb.append(arr[j]);
}
}
System.out.printf("split 耗時 %s ms\n", System.currentTimeMillis() - start);
}
/**
* @author: 棧長
* @from: 公衆号Java技術棧
*/
private static void stringTokenizer(String str) {
long start = System.currentTimeMillis();
for (int i = 0; i < MAX_LOOP; i++) {
StringTokenizer stringTokenizer = new StringTokenizer(str, " ");
StringBuilder sb = new StringBuilder();
while (stringTokenizer.hasMoreTokens()) {
sb.append(stringTokenizer.nextToken());
}
}
System.out.printf("StringTokenizer 耗時 %s ms", System.currentTimeMillis() - start);
}
}
在我本機測試結果如下:
從測試資料看,雖然 StringTokenizer 有一點性能優勢,但并不太明顯,我并沒有測試出有 4 倍的性能差距,可能和測試資料、測試方法、以及測試的 JDK 版本有關系。
然後,我再把 split 測試方法中的
" "
改成
"\\s"
:
把 split 方法改成正規表達式再測試,這下差距就明顯了。
我們都知道解析正規表達式會比較慢一點,這很正常,但 StringTokenizer 并不支援傳入正規表達式,隻能使用字元串作為分隔符,是以這測試結果就沒多大意義了,這就是症結了。。
總結
雖然 JDK 不鼓勵使用 StringTokenizer 了,但并不說明它不能用了,相反,如果你的系統對性能有非常嚴格的要求,又不是很複雜的字元串分割,好好使用它反而可以帶來高效。
但話又說回來,一般的應用程式用 split 也就夠了,因為它夠簡單、又支援正規表達式,在一般的應用中也不會存在像文中測試的大批量的字元串循環分割,另外,StringTokenizer 在單次分割的性能上也沒有性能優勢。
最後,關于字元串的分割方法,我們除了字元串本身的 split 方法,我們還要知道 StringTokenizer 這個類,多知道點不是壞事。另外,在 Spring、Apache Commons 工具類中也都有封裝好的 StringTokenizer 工具類,有興趣的可以直接拿去用。
好了,今天的分享就到這裡了,後面棧長我會更新更多好玩的 Java 技術文章,關注公衆号Java技術棧第一時間推送,不要走開哦。
本節教程所有實戰源碼已上傳到這個倉庫:
https://github.com/javastacks/javastack