天天看點

yield生成器助了PHP性能調優一臂之力

如果是做Python或者其他語言的小夥伴,對于生成器應該不陌生。但很多PHP開發者或許都不知道生成器這個功能,可能是因為生成器是PHP 5.5.0才引入的功能,也可能是生成器作用不是很明顯。但是,生成器功能的确非常有用。

優點

直接講概念估計你聽完還是一頭霧水,是以我們先來說說優點,也許能勾起你的興趣。那麼生成器有哪些優點,如下:

  • 生成器會對PHP應用的性能有非常大的影響
  • PHP代碼運作時節省大量的記憶體
  • 比較适合計算大量的資料

那麼,這些神奇的功能究竟是如何做到的?我們先來舉個例子。

概念引入

首先,放下生成器概念的包袱,來看一個簡單的PHP函數:

function createRange($number){
    $data = [];
    for($i=0;$i<$number;$i++){
        $data[] = time();
    }
    return $data;
}      

這是一個非常常見的PHP函數,我們在處理一些數組的時候經常會使用。這裡的代碼也非常簡單:

  1. 我們建立一個函數。
  2. 函數内包含一個 for 循環,我們循環的把目前時間放到​

    ​$data​

    ​裡面
  3. ​for​

    ​循環執行完畢,把 $data 傳回出去。

下面沒完,我們繼續。我們再寫一個函數,把這個函數的傳回值循環列印出來:

$result = createRange(10); // 這裡調用上面我們建立的函數
foreach($result as $value){
    sleep(1);//這裡停頓1秒,我們後續有用
    echo $value.'<br />';
}      

我們在浏覽器裡面看一下運作結果:

yield生成器助了PHP性能調優一臂之力

這裡非常完美,沒有任何問題。(當然 sleep(1) 效果你們看不出來)

思考一個問題

我們注意到,在調用函數 createRange 的時候給 $number 的傳值是10,一個很小的數字。假設,現在傳遞一個值​

​10000000​

​(1000萬)。

那麼,在函數 createRange 裡面,​

​for​

​​循環就需要執行​

​1000​

​​萬次。且有​

​1000​

​​萬個值被放到 $data 裡面,而​

​$data​

​數組在是被放在記憶體内。是以,在調用函數時候會占用大量記憶體。

這裡,生成器就可以大顯身手了。

建立生成器

我們直接修改代碼,你們注意觀察:

function createRange($number){
    for($i=0;$i<$number;$i++){
        yield time();
    }
}      

看下這段和剛剛很像的代碼,我們删除了數組 $data ,而且也沒有傳回任何内容,而是在 time() 之前使用了一個關鍵字yield。

使用生成器

我們再運作一下第二段代碼:

$result = createRange(10); // 這裡調用上面我們建立的函數
foreach($result as $value){
    sleep(1);
    echo $value.'<br />';
}      
yield生成器助了PHP性能調優一臂之力

我們奇迹般的發現了,輸出的值和第一次沒有使用生成器的不一樣。這裡的值(時間戳)中間間隔了1秒。

這裡的間隔一秒其實就是 sleep(1) 造成的後果。但是為什麼第一次沒有間隔?那是因為:

  • 未使用生成器時: createRange 函數内的 for 循環結果被很快放到 $data 中,并且立即傳回。是以, foreach 循環的是一個固定的數組。
  • 使用生成器時: createRange 的值不是一次性快速生成,而是依賴于 foreach 循環。 foreach 循環一次, for 執行一次。

到這裡,你應該對生成器有點兒頭緒。

深入了解生成器

代碼剖析

下面我們來對于剛剛的代碼進行剖析。

function createRange($number){
    for($i=0;$i<$number;$i++){
        yield time();
    }
}

$result = createRange(10); // 這裡調用上面我們建立的函數
foreach($result as $value){
    sleep(1);
    echo $value.'<br />';
}      

我們來還原一下代碼執行過程。

  1. 首先調用 createRange 函數,傳入參數10,但是 for 值執行了一次然後停止了,并且告訴 foreach 第一次循環可以用的值。
  2.  foreach 開始對 $result 循環,進來首先 sleep(1) ,然後開始使用 for 給的一個值執行輸出。
  3.  foreach 準備第二次循環,開始第二次循環之前,它向 for 循環又請求了一次。
  4.  for 循環于是又執行了一次,将生成的時間戳告訴 foreach .
  5.  foreach 拿到第二個值,并且輸出。由于 foreach 中 sleep(1) ,是以, for 循環延遲了1秒生成目前時間

是以,整個代碼執行中,始終隻有一個記錄值參與循環,記憶體中也隻有一條資訊。

無論開始傳入的 $number 有多大,由于并不會立即生成所有結果集,是以記憶體始終是一條循環的值。

概念了解

到這裡,你應該已經大概了解什麼是生成器了。下面我們來說下生成器原理。

首先明确一個概念:生成器yield關鍵字不是傳回值,他的專業術語叫産出值,隻是生成一個值

那麼代碼中 foreach 循環的是什麼?其實是PHP在使用生成器的時候,會傳回一個 Generator 類的對象。 foreach 可以對該對象進行疊代,每一次疊代,PHP會通過 Generator 執行個體計算出下一次需要疊代的值。這樣 foreach 就知道下一次需要疊代的值了。

而且,在運作中 for 循環執行後,會立即停止。等待 foreach 下次循環時候再次和  for  索要下次的值的時候,循環才會再執行一次,然後立即再次停止。直到不滿足條件不執行結束。

實際開發應用

很多PHP開發者不了解生成器,其實主要是不了解應用領域。那麼,生成器在實際開發中有哪些應用?

讀取超大檔案

PHP開發很多時候都要讀取大檔案,比如csv檔案、text檔案,或者一些日志檔案。這些檔案如果很大,比如5個G。這時,直接一次性把所有的内容讀取到記憶體中計算不太現實。

這裡生成器就可以派上用場啦。簡單看個例子:讀取text檔案

yield生成器助了PHP性能調優一臂之力

我們建立一個text文本文檔,并在其中輸入幾行文字,示範讀取。

<?php
header("content-type:text/html;charset=utf-8");
function readTxt()
{
    # code...
    $handle = fopen("./test.txt", 'rb');

    while (feof($handle)===false) {
        # code...
        yield fgets($handle);
    }

    fclose($handle);
}

foreach (readTxt() as $key => $value) {
    # code...
    echo $value.'<br />';
}      
yield生成器助了PHP性能調優一臂之力

通過上圖的輸出結果我們可以看出代碼完全正常。

但是,背後的代碼執行規則卻一點兒也不一樣。使用生成器讀取檔案,第一次讀取了第一行,第二次讀取了第二行,以此類推,每次被加載到記憶體中的文字隻有一行,大大的減小了記憶體的使用。

這樣,即使讀取上G的文本也不用擔心,完全可以像讀取很小檔案一樣編寫代碼。

 百萬級别的通路量

yield生成器是php5.5之後出現的,yield提供了一種更容易的方法來實作簡單的疊代對象,相比較定義類實作 Iterator 接口的方式,性能開銷和複雜性大大降低。

yield生成器允許你 在 foreach 代碼塊中寫代碼來疊代一組資料而不需要在記憶體中建立一個數組。

使用示例:

/** 
 * 計算平方數列 
 * @param $start 
 * @param $stop 
 * @return Generator 
 */  
function squares($start, $stop) {  
    if ($start < $stop) {  
        for ($i = $start; $i <= $stop; $i++) {  
            yield $i => $i * $i;  
        }  
    }  
    else {  
        for ($i = $start; $i >= $stop; $i--) {  
            yield $i => $i * $i; //疊代生成數組: 鍵=》值  
        }  
    }  
}  
foreach (squares(3, 15) as $n => $square) {  
    echo $n . ‘squared is‘ . $square . ‘<br>‘;  
}  
輸出:  
    3 squared is 9  
    4 squared is 16  
    5 squared is 25  
    ...      
/對某一數組進行權重處理  
$numbers = array(‘nike‘ => 200, ‘jordan‘ => 500, ‘adiads‘ => 800);  

//通常方法,如果是百萬級别的通路量,這種方法會占用極大記憶體  
function rand_weight($numbers)  
{  
    $total = 0;  
    foreach ($numbers as $number => $weight) {  
        $total += $weight;  
        $distribution[$number] = $total;  
    }  
    $rand = mt_rand(0, $total-1);  

    foreach ($distribution as $num => $weight) {  
        if ($rand < $weight) return $num;  
    }  
}  

//改用yield生成器  
function mt_rand_weight($numbers) {  
    $total = 0;  
    foreach ($numbers as $number => $weight) {  
        $total += $weight;  
        yield $number => $total;  
    }  
}  

function mt_rand_generator($numbers)  
{  
    $total = array_sum($numbers);  
    $rand = mt_rand(0, $total -1);  
    foreach (mt_rand_weight($numbers) as $num => $weight) {  
        if ($rand < $weight) return $num;  
    }  
}