天天看點

Java8中的流操作-基本使用&性能測試

Java8中的流操作-基本使用&性能測試

一、流(Stream)簡介

流是 Java8 中 API 的新成員,它允許你以聲明式的方式處理資料集合(通過查詢語句來表達,而不是臨時編寫一個實作)。這有點兒像是我們操作資料庫一樣,例如我想要查詢出熱量較低的菜品名字我就可以像下面這樣:

SELECT name FROM dishes WHERE calorie < 400;

您看,我們并沒有對菜品的什麼屬性進行篩選(比如像之前使用疊代器一樣每個做判斷),我們隻是表達了我們想要什麼。那麼為什麼到了 Java 的集合中,這樣做就不行了呢?

另外一點,如果我們想要處理大量的資料又該怎麼辦?是否是考慮使用多線程進行并發處理呢?如果是,那麼可能編寫的關于并發的代碼比使用疊代器本身更加的複雜,而且調試起來也會變得麻煩。

基于以上的幾點考慮,Java 設計者在 Java 8 版本中,引入了流的概念,來幫助您節約時間!并且有了 lambda 的參與,流操作的使用将更加順暢!

特點一:内部疊代

就現在來說,您可以把它簡單的當成一種進階的疊代器(Iterator),或者是進階的 for 循環,差別在于,前面兩者都是屬于外部疊代,而流采用内部疊代。

上圖簡要說明了内部疊代與外部疊代的差異,我們再舉一個生活中實際的例子(引自《Java 8 實戰》),比如您想讓您兩歲的孩子索菲亞把她的玩具都收到盒子裡面去,你們之間可能會産生如下的對話:

你:“索菲亞,我們把玩具收起來吧,地上還有玩具嗎?”

索菲亞:“有,球。”

你:“好,把球放進盒子裡面吧,還有嗎?”

索菲亞:“有,那是我的娃娃。”

你:“好,把娃娃也放進去吧,還有嗎?”

索菲亞:“有,有我的書。”

你:“好,把書也放進去,還有嗎?”

索菲亞:“沒有了。”

你:“好,我們收好啦。”

這正是你每天都要對 Java 集合做的事情。你外部疊代了一個集合,顯式地取出每個項目再加以處理,但是如果你隻是跟索菲亞說:“把地上所有玩具都放進盒子裡”,那麼索菲亞就可以選擇一手拿娃娃一手拿球,或是選擇先拿離盒子最近的那個東西,再拿其他的東西。

采用内部疊代,項目可以透明地并行處理,或者用優化的順序進行處理,要是使用 Java 過去的外部疊代方法,這些優化都是很困難的。

這或許有點雞蛋裡挑骨頭,但這差不多就是 Java 8 引入流的原因了——Streams 庫的内部疊代可以自動選擇一種是和你硬體的資料表示和并行實作。

特點二:隻能周遊一次

請注意,和疊代器一樣,流隻能周遊一次。當流周遊完之後,我們就說這個流已經被消費掉了,你可以從原始資料那裡重新獲得一條新的流,但是卻不允許消費已消費掉的流。例如下面代碼就會抛出一個異常,說流已被消費掉了:

List title = Arrays.asList("Wmyskxz", "Is", "Learning", "Java8", "In", "Action");

Stream s = title.stream();

s.forEach(System.out::println);

// 運作上面程式會報以下錯誤

/*

Exception in thread "main" java.lang.IllegalStateException: stream has already been operated upon or closed

at java.util.stream.AbstractPipeline.sourceStageSpliterator(AbstractPipeline.java:279)
at java.util.stream.ReferencePipeline$Head.forEach(ReferencePipeline.java:580)
at Test1.main(Tester.java:17)           

*/

特點三:友善的并行處理

Java 8 中不僅提供了友善的一些流操作(比如過濾、排序之類的),更重要的是對于并行處理有很好的支援,隻需要加上 .parallel() 就行了!例如我們使用下面程式來說明一下多線程流操作的友善和快捷,并且與單線程做了一下對比:

public class StreamParallelDemo {

/** 總數 */
private static int total = 100_000_000;

public static void main(String[] args) {
    System.out.println(String.format("本計算機的核數:%d", Runtime.getRuntime().availableProcessors()));

    // 産生1000w個随機數(1 ~ 100),組成清單
    Random random = new Random();
    List<Integer> list = new ArrayList<>(total);

    for (int i = 0; i < total; i++) {
        list.add(random.nextInt(100));
    }

    long prevTime = getCurrentTime();
    list.stream().reduce((a, b) -> a + b).ifPresent(System.out::println);
    System.out.println(String.format("單線程計算耗時:%d", getCurrentTime() - prevTime));

    prevTime = getCurrentTime();
    // 隻需要加上 .parallel() 就行了
    list.stream().parallel().reduce((a, b) -> a + b).ifPresent(System.out::println);
    System.out.println(String.format("多線程計算耗時:%d", getCurrentTime() - prevTime));

}

private static long getCurrentTime() {
    return System.currentTimeMillis();
}           

}

以上程式分别使用了單線程流和多線程流計算了一千萬個随機數的和,輸出如下:

本計算機的核數:8

655028378

單線程計算耗時:4159

多線程計算耗時:540

并行流的内部使用了預設的 ForkJoinPool 分支/合并架構,它的預設線程數量就是你的處理器數量,這個值是由 Runtime.getRuntime().availableProcessors() 得到的(當然我們也可以全局設定這個值)。我們也不再去過度的操心加鎖線程安全等一系列問題。

二、流基本操作

至少我們從上面了解到了,流操作似乎是一種很強大的工具,能夠幫助我們節約我們時間的同時讓我們程式可讀性更高,下面我們就具體的來了解一下 Java 8 帶來的新 API Stream,能給我們帶來哪些操作。

1、篩選和切片

filter

Stream 接口支援 filter 方法,該操作會接受一個傳回 boolean 的函數作為參數,并傳回一個包含所有符合該條件的流。例如,你可以這樣選出所有以字母 w 開頭的單詞并列印:

List words = Arrays.asList("wmyskxz", "say", "wow", "to", "everybody");

words.stream()

.filter(word -> word.startsWith("w"))
 .forEach(System.out::println);           

// ==============輸出:===============

// wmyskxz

// wow

這個過程類似下圖:

當然如果您不是想要輸出而是想要傳回一個集合,那麼可以使用 .collect(toList()),就像下面這樣:

List filteredWords = words.stream()

.filter(word -> word.startsWith("w"))
                              .collect(Collectors.toList());           

distinct

流還支援一個叫做 distinct 的方法,它會傳回一個元素各異(根據流所生成的元素的 hashCode 和 equals 方法實作)的流。例如,以下代碼會篩選出清單中所有的偶數,并確定沒有重複:

List numbers = Arrays.asList(1, 2, 1, 3, 2, 1, 3, 4);

numbers.stream()

.filter(integer -> integer % 2 == 0)
   .distinct()
   .forEach(System.out::println);           

// 2

// 4

limit

流支援 limit(n) 方法,該方法會傳回一個不超過給定長度的流,所需長度需要作為參數傳遞給 limit。如果流是有序的,則最多會傳回前 n 個元素。比如,你可以建立一個 List,選出前 3 個元素:

List numbers = Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8);

.filter(integer -> integer % 2 == 0)
   .limit(3)
   .forEach(System.out::println);           

// 6

請注意雖然上述的集合是有序的,但 limit 本身并不會做任何排序的操作。

skip

流還支援 skip(n) 方法,傳回一個扔掉了前 n 個元素的流。如果流中元素不足 n 個,則傳回一個空流。請注意 litmit 和 skip 是互補的!例如,下面這段程式,選出了所有的偶數并跳過了前兩個輸出:

.filter(integer -> integer % 2 == 0)
   .skip(2)
   .forEach(System.out::println);           

// 8

2、映射

一個非常常見的資料處理套路就是從某些對象中選擇資訊。比如在 SQL 裡,你可以從表中選擇一列,Stream API 也通過 map 和 flatMap 方法提供了類似的工具。

map

流支援 map 方法,他會接受一個函數作為參數。這個函數會被應用到每個元素身上嗎,并将其映射成一個新的函數。例如,下面的代碼把方法引用 Words::getContent 傳給了 map 方法,來提取流中 Words 的具體内容:

public static void main(String[] args) {

List<Words> numbers = Arrays.asList(new Words("我沒有三顆心髒"),
        new Words("公衆号"), new Words("wmyskxz"));
numbers.stream()
       .map(Words::getContent)
       .forEach(System.out::println);           

@Data

@AllArgsConstructor

private static class Words {

private String content;           

// 我沒有三顆心髒

// 公衆号

但是如果你現在隻想要找出每個 Words 具體内容的長度又該怎麼辦呢?我們可以再進行一次映射:

List<Words> numbers = Arrays.asList(new Words("我沒有三顆心髒"),
        new Words("公衆号"), new Words("wmyskxz"));
numbers.stream()
       .map(Words::getWords)
       .map(String::length)
       .forEach(System.out::println);           
private String words;           

// 7

// 3

flatMap:流的扁平化

你已經看到我們是如何使用 map 方法來傳回每個 Words 的具體長度了,現在讓我們來擴充一下:對于一個 Words 集合,我需要知道這個集合裡一共有多少個不相同的字元呢?例如,給定單詞清單為:["Hello", "World"],則需要傳回的清單是:["H", "e", "l", "o", "W", "r", "d"]。

您可能會覺得簡單,而後寫下下列錯誤的第一版本:

List words = Arrays.asList("Hello", "World");

.map(s -> s.split(""))
 .distinct()
 .collect(Collectors.toList())
 .forEach(System.out::println);           

// [Ljava.lang.String;@238e0d81

// [Ljava.lang.String;@31221be2

為什麼會這樣呢?這個方法的問題自傲與,傳遞給 map 方法的 lambda 表達式為每個單詞傳回了一個 String[],是以經過 map 方法之後傳回的流就不是我們預想的 Stream,而是 Stream,下圖就說明了這個問題:

幸好我們可以使用 flatMap 來解決這個問題:

.map(s -> s.split(""))
 .flatMap(Arrays::stream)
 .distinct()
 .collect(Collectors.toList())
 .forEach(System.out::println);           

// H

// e

// l

// o

// W

// r

// d

使用 flatMap 方法的效果是,各個數組并不是分别映射成一個流,而是映射成流的内容。一言蔽之就是 flatMap 讓你一個流中的每個值都轉換成另一個六,然後把所有的流連接配接起來成為一個流,具體過程如下圖:

3、查找和比對

另一個常見的資料處理套路是看看資料集中的某些元素是否比對一個給定的屬性,Stream API 通過 allMatch、anyMatch、noneMatch、findFirst 和 findAny 方法提供了這樣的工具(其實到這裡看名字就會大概能夠知道怎麼使用了)。

我們簡單的舉兩個例子就好。

比如,你可以用它來看看集合裡面是否有偶數:

List numbers = Arrays.asList(1, 2, 3);

if (numbers.stream().anyMatch(i -> i % 2 == 0)) {

System.out.println("集合裡有偶數!");           

再比如,你可以用來它來檢驗是否集合裡都為偶數:

List numbers = Arrays.asList(2, 2, 4);

if (numbers.stream().allMatch(i -> i % 2 == 0)) {

System.out.println("集合裡全是偶數!");           

再或者,給定一個數字清單,找出第一個平方能被 3 整除的數:

List numbers = Arrays.asList(1, 2, 3, 4, 5, 6, 7);

Optional firstSquareDivisibledByThree =

numbers.stream()
           .map(x -> x * x)
           .filter(x -> x % 3 == 0)
           .findFirst();           

System.out.println(firstSquareDivisibledByThree.get());

// 9

Optional 簡介:

Optional 類是 java.util.Optional 包裡的一個容器類,代表一個值存在或者不存在。在上面的代碼中,findFirst() 可能什麼元素都找不到,Java 8 的設計人員引入了 Optional,這樣就不用傳回衆所周知容易出問題的 null 了。我們在這裡不對 Optional 做細緻的讨論。

4、歸約:reduce

到目前為止,你見到過的終端操作(下面我們會說到這些操作其實分為中間操作和終端操作)都是傳回一個 boolean(allMatch 之類的)、void(forEach)或 Optional 對象(findFirst 等)。你也見到過了使用 collect 來将流中的所有元素合并成一個 List。

接下來我們來接觸更加複雜的一些操作,比如 “挑出單詞中長度最長的的單詞” 或是 “計算所有單詞的總長度”。此類查詢需要将流中的元素反複結合起來,得到一個值。這樣的查詢可以被歸類為歸約操作(将流歸約成一個值)。

數組求和

在研究 reduce 之前,我們先來回顧一下我們在之前是如何對一個數字數組進行求和的:

List numbers = Arrays.asList(1, 2, 3, 4, 5);

int sum = 0;

for (int x : numbers) {

sum += x;           

System.out.println(sum);

// 15

numbers 中的每個元素都用加法運算符反複疊代來得到結果。通過反複使用加法,我們最終把一個數字清單歸約成了一個數字。在這段代碼中,我們一共使用了兩個參數:

sum:總和變量的初始值,在這裡是 0;

x:用于接受 numbers 中的每一個元素,并與 sum 做加法操作不斷疊代;

要是還能把所有的數字相乘,而不用複制粘貼這段代碼,豈不是很好?這正是 reduce 操作的用武之地,它對這種重複應用的模式做了抽象。你可以像下面這樣對流中所有的元素求和:

int sum = numbers.stream().reduce(0, (a, b) -> a + b);

其中 reduce 接受了兩個參數:

一個初始值,這裡是 0;

一個是 BinaryOperator 來将兩個元素結合起來産生一個新值,這裡我們用的是 lambda (a, b) -> a + b;

你也可以很容易改造成所有元素相乘的形式,隻需要将另一個 Lambda:(a, b) -> a * b 傳遞給 reduce 就可以了:

int product = numbers.stream().reduce(0, (a, b) -> a * b);

我們先來深入研究一下 reduce 是如何對一個數字流進行求和的:

如上圖所示一樣的,reduce 每一次都把結果傳回并與下一次的元素進行操作,比如第一次當周遊到元素 1 時,此時傳回初始值 0 + 1 = 1,然後再用此時的傳回值 1 與第二個元素進行疊加操作,如此往複,便完成了對數字清單的求和運算。

當然你也可以使用方法引用讓這段代碼更加簡潔:

int sum = numbers.stream().reduce(0, Integer::sum);

無初始值

reduce 還有一個重載的變體,它不接受初始值,但是會傳回一個 Optional 對象(考慮到流中沒有任何元素的情況):

Optional sum = numbers.stream().reduce(Integer::sum);

最大值和最小值

有點類似于上面的操作,我們可以使用下面這樣的 reduce 來計算流中的最大值or最小值:

// 最大值

Optional max = numbers.stream().reduce(Integer::max);

// 最小值

Optional max = numbers.stream().reduce(Integer::min);

5、中間操作和結束操作(終端操作)

Stream API 上的所有操作分為兩類:中間操作和結束操作。中間操作隻是一種标記,隻有結束操作才會觸發實際計算。

中間操作又可以分為無狀态的(Stateless)和有狀态的(Stateful),無狀态中間操作是指元素的處理不受前面元素的影響,而有狀态的中間操作必須等到所有元素處理之後才知道最終結果,比如排序是有狀态操作,在讀取所有元素之前并不能确定排序結果;

結束操作又可以分為短路操作和非短路操作,短路操作是指不用處理全部元素就可以傳回結果,比如找到第一個滿足條件的元素。之是以要進行如此精細的劃分,是因為底層對每一種情況的處理方式不同。 為了更好的了解流的中間操作和終端操作,可以通過下面的兩段代碼來看他們的執行過程:

IntStream.range(1, 10)

.peek(x -> System.out.print("nA" + x))

.limit(3)

.peek(x -> System.out.print("B" + x))

.forEach(x -> System.out.print("C" + x));

// A1B1C1

// A2B2C2

// A3B3C3

中間操作是懶惰的,也就是不會對資料做任何操作,直到遇到了結束操作。而結束操作都是比較熱情的,他們會回溯之前所有的中間操作。

拿上面的例子來說,當執行到 forEach() 的時候,它會回溯到上一步中間操作,再到上一步中間操作,再上一步..直到第一步,也就是這裡的 .peek(x -> System.out.println("nA" + x),然後開始自上而下的依次執行,輸出第一行的 A1B1C1,然而第二次執行 forEach() 操作的時候等同,以此類推..

我們再來看第二段代碼:

.skip(6)

// A1

// A2

// A3

// A4

// A5

// A6

// A7B7C7

// A8B8C8

// A9B9C9

根據上面介紹的規則,同樣的當第一次執行 .forEach() 的時候,會回溯到第一個 peek 操作,列印出 A1,然後執行 skip,這個操作的意思就是跳過,也就是相當于 for 循環裡面的 continue,是以前六次的 forEach() 操作都隻會列印 A。

而第七次開始,skip 失效之後,就會開始分别執行 .peek() 和 forEach() 裡面的列印語句了,就會看到輸出的是:A7B7C7。

OK,到這裡也算是對 Stream API 有了一定的認識,下面我們對中間操作和結束操作做一個總結:

圖檔截自:

https://github.com/CarpenterLee/JavaLambdaInternals/blob/master/6-Stream%20Pipelines.md

三、Stream 性能測試

引用自:下方參考文檔第 4 條。

已經對 Stream API 的用法鼓吹夠多了,用起簡潔直覺,但性能到底怎麼樣呢?會不會有很高的性能損失?本節我們對 Stream API 的性能一探究竟。

為保證測試結果真實可信,我們将 JVM 運作在 -server 模式下,測試資料在 GB 量級,測試機器采用常見的商用伺服器,配置如下:

名額 數值

OS CentOS 6.7 x86_64

CPU Intel Xeon X5675, 12M Cache 3.06 GHz, 6 Cores 12 Threads

記憶體 96GB

JDK java version 1.8.0_91, Java HotSpot(TM) 64-Bit Server VM

測試所用代碼在這裡,測試結果彙總.

測試方法和測試資料

性能測試并不是容易的事,Java性能測試更費勁,因為虛拟機對性能的影響很大,JVM對性能的影響有兩方面:

GC的影響。GC的行為是Java中很不好控制的一塊,為增加确定性,我們手動指定使用CMS收集器,并使用10GB固定大小的堆記憶體。具體到JVM參數就是-XX:+UseConcMarkSweepGC -Xms10G -Xmx10G

JIT(Just-In-Time)即時編譯技術。即時編譯技術會将熱點代碼在JVM運作的過程中編譯成本地代碼,測試時我們會先對程式預熱,觸發對測試函數的即時編譯。相關的JVM參數是-XX:CompileThreshold=10000。

Stream并行執行時用到ForkJoinPool.commonPool()得到的線程池,為控制并行度我們使用Linux的taskset指令指定JVM可用的核數。

測試資料由程式随機生成。為防止一次測試帶來的抖動,測試4次求出平均時間作為運作時間。

實驗一 基本類型疊代

測試内容:找出整型數組中的最小值。對比for循環外部疊代和Stream API内部疊代性能。

測試程式IntTest,測試結果如下圖:

圖中展示的是for循環外部疊代耗時為基準的時間比值。分析如下:

對于基本類型Stream串行疊代的性能開銷明顯高于外部疊代開銷(兩倍);

Stream并行疊代的性能比串行疊代和外部疊代都好。

并行疊代性能跟可利用的核數有關,上圖中的并行疊代使用了全部 12 個核,為考察使用核數對性能的影響,我們專門測試了不同核數下的Stream并行疊代效果:

分析,對于基本類型:

使用Stream并行API在單核情況下性能很差,比Stream串行API的性能還差;

随着使用核數的增加,Stream并行效果逐漸變好,比使用for循環外部疊代的性能還好。

以上兩個測試說明,對于基本類型的簡單疊代,Stream串行疊代性能更差,但多核情況下Stream疊代時性能較好。

實驗二 對象疊代

再來看對象的疊代效果。

測試内容:找出字元串清單中最小的元素(自然順序),對比for循環外部疊代和Stream API内部疊代性能。

測試程式StringTest,測試結果如下圖:

結果分析如下:

對于對象類型Stream串行疊代的性能開銷仍然高于外部疊代開銷(1.5倍),但差距沒有基本類型那麼大。

再來單獨考察Stream并行疊代效果:

分析,對于對象類型:

使用Stream并行API在單核情況下性能比for循環外部疊代差;

随着使用核數的增加,Stream并行效果逐漸變好,多核帶來的效果明顯。

以上兩個測試說明,對于對象類型的簡單疊代,Stream串行疊代性能更差,但多核情況下Stream疊代時性能較好。

實驗三 複雜對象歸約

從實驗一、二的結果來看,Stream串行執行的效果都比外部疊代差(很多),是不是說明Stream真的不行了?先别下結論,我們再來考察一下更複雜的操作。

測試内容:給定訂單清單,統計每個使用者的總交易額。對比使用外部疊代手動實作和Stream API之間的性能。

我們将訂單簡化為構成的元組,并用Order對象來表示。測試程式ReductionTest,測試結果如下圖:

分析,對于複雜的歸約操作:

Stream API的性能普遍好于外部手動疊代,并行Stream效果更佳;

再來考察并行度對并行效果的影響,測試結果如下:

使用Stream并行歸約在單核情況下性能比串行歸約以及手動歸約都要差,簡單說就是最差的;

以上兩個實驗說明,對于複雜的歸約操作,Stream串行歸約效果好于手動歸約,在多核情況下,并行歸約效果更佳。我們有理由相信,對于其他複雜的操作,Stream API也能表現出相似的性能表現。

結論

上述三個實驗的結果可以總結如下:

對于簡單操作,比如最簡單的周遊,Stream串行API性能明顯差于顯示疊代,但并行的Stream API能夠發揮多核特性。

對于複雜操作,Stream串行API性能可以和手動實作的效果匹敵,在并行執行時Stream API效果遠超手動實作。

是以,如果出于性能考慮,1. 對于簡單操作推薦使用外部疊代手動實作,2. 對于複雜操作,推薦使用Stream API, 3. 在多核情況下,推薦使用并行Stream API來發揮多核優勢,4.單核情況下不建議使用并行Stream API。

如果出于代碼簡潔性考慮,使用Stream API能夠寫出更短的代碼。即使是從性能方面說,盡可能的使用Stream API也另外一個優勢,那就是隻要Java Stream類庫做了更新優化,代碼不用做任何修改就能享受到更新帶來的好處。

參考文檔

https://redspider.gitbook.io/concurrent/di-san-pian-jdk-gong-ju-pian/19

- Java 8 Stream并行計算原理

http://hack.xingren.com/index.php/2018/10/17/java-stream/

- 原來你是這樣的 Stream —— 淺析 Java Stream 實作原理

- Stream Pipelines

https://github.com/CarpenterLee/JavaLambdaInternals/blob/master/8-Stream%20Performance.md

- Stream Performance

《Java 8 實戰》

原文位址

https://www.cnblogs.com/wmyskxz/p/11296063.html