這篇文章節選自《java performance》,對java性能比較關心的同學大概都知道這本書,性能這個東西可能是很多同學在日常寫java code的時候很少去關心的,但是在我們寫code的過程中确又時時離不開對程式性能的影響,小到我們使用位運算來實作算術運算,大到我們對JAVA代碼的總體架構設計,性能其實離我們很近。本片文章主要提到幾個點,主要是在性能領域我們比較關注的一些問題,并且是有啟發性的,如果同學對性能較感興趣,那麼我們可以一起深入研究各個點。
對于性能調優,通常會有三個步驟:1,性能監控;2,性能剖析;3,性能調優
我們對于作業系統的性能關注主要在下面幾個點上:CPU使用率、CPU排程執行隊列、記憶體使用率、網絡I/O、磁盤I/O。
對于一個應用來說,為了讓應用達到最好的性能和可擴充性,我們不僅僅要充分利用CPU周期内可用的部分,而且要讓這部分CPU的使用更有價值,而不是浪費。能夠讓CPU的周期利用的更充分對于多線程應用運作在多處理器和多核系統上至很有挑戰性的。另外,當CPU達到飽和狀态的時候并不能說明CPU的性能和伸縮性已經達到了最佳的狀态。為了區分應用是如何利用CPU資源的,我們必須從作業系統級别來檢測。在很多作業系統上,CPU的使用率統計報告通常包括使用者和系統或核心對作業系統的使用。使用者對CPU的使用是指應用用來執行應用代碼執行所需要的時間。相比之下,核心和系統對CPU的使用是指應用用來執行作業系統核心代碼鎖花費的時間。高的核心或者系統CPU使用率可以表明共享資源緊迫,或者是有大量的I/O裝置互動。理想的狀态為了提高應用的性能和伸縮性,讓核心或系統CPU時間為0%,因為花在執行核心或系統代碼的時間是可以用來執行應用代碼的。是以CPU使用優化的一個正确方向就是盡可能減少CPU花在執行核心代碼或者系統代碼上的時間。
對于計算密集型應用,性能監控比監測使用者CPU使用和核心或系統CPU使用要更深層次,在計算密集型應用中,我們需要監測CPU時鐘周期内的執行執行條數(Instructions per clock;IPC)或者是每條CPU執行所使用的CPU周期(cycles per instruction;CPI)。對于計算密集型應用來說我們從這兩個次元來監測CPU是不錯的選擇,因為現代作業系統的打包CPU性能報告工具通常隻會列印CPU的使用率,而不會列印CPU周期内CPU用來執行指令的時間。這意味着當CPU正在等待記憶體中的資料的時候,作業系統CPU性能報告工具也會認為CPU是正在使用的狀态,我們把這個場景叫做“Stall”,“Stall”場景經常會發生,比如在CPU正在執行指令的任何時候,隻要是指令需要的資料沒有準備好,也就是沒有在寄存器或者CPU緩存内,都會發生“Stall”場景。
如果你想學習java可以來這個群,首先是532,中間是259,最後是952,裡面可以學習和交流,也有資料可以下載下傳
當“Stall”場景發生的時候CPU會浪費時鐘周期,因為CPU必須要等待指令需要的資料到達寄存器或者緩沖器。而且在這個場景中,數百個CPU時鐘周期被浪費是很正常的事情,是以在計算密集型應用中,提高性能的政策是減少“Stall”場景的發生或者是增強CPU的緩存使用進而使得更少的CPU周期因為等待資料而浪費掉。這類的性能監控知識已經超越了本書的内容,需要性能專家的幫助了。然而,後面講到的Oracle Solaris Studio Performance Analyzer這種性能剖析工具将會包括此類資料。
除了對CPU使用的監控,我們也可以通過監控CPU執行隊列來檢查系統是否已經滿負載。執行隊列是用來存儲輕量級程序,這些程序通常是已經準備好執行了但是正在等待CPU排程而在排程隊列等待的一種狀态,當輕量級程序别目前處理器能來得及處理的數量更多的時候,排程隊列将會産生。比較深的CPU排程隊清單明系統已經滿負荷了。系統的執行隊列深度等于虛拟處理器執行不了的等待數,虛拟處理器數等于系統的硬體線程數。我們可以用java的api來拿到虛拟處理器數,Runtime.avaliableProcessors()。當執行隊列深度大于虛拟處理器個數的四倍或更多的時候,作業系統将會出現反應遲鈍的現象。
對于CPU排程隊列的檢測的一個通用指導是當我們發現隊列深度高于虛拟程序數一倍的時候就要注意了,但是沒有必要立即采取行動。當大于三倍或四倍或者更高的時候就要注意了,解決問題刻不容緩。
通常有兩個可選的途徑來觀察隊列的深度,第一個是通過增加CPU來分擔負載或者減少對現有CPU的負載。這種途徑從本質上減少了每個執行單元的負載線程數,進而減少執行執行隊列的深度。
除了CPU的使用率,系統的記憶體屬性也需要被監控,這些屬性包括比如:分頁、交換、鎖、多線程引起的上下文交換等。
交換通常發生在當應用需要的記憶體大于實際的實體記憶體的時候,處理這種情況作業系統通常會配置一個相應的區域叫做交換區。交換區通常位于實體磁盤上,當實體記憶體内應用耗盡的時候,作業系統會将一部分記憶體資料暫時交換到磁盤空間上,這部分記憶體區域通常是通路頻率最低的一塊區域,而不會影響比較“忙”的記憶體區域;當被交換到磁盤區域的記憶體又被應用通路的時候,這個時候就需要從磁盤交換區将以頁為機關讀入記憶體,交換會影響應用的性能。
虛拟機的垃圾收集器在交換的時候性能非常差,因為垃圾收集器所通路的大部分區域都是不可達的,也就是垃圾收集器會引起交換活動的發生。場景是戲劇性的,如果垃圾收集的堆區域已經被交換到了磁盤空間,這個時候将會以頁為機關發生交換,這樣才能夠被垃圾收集器所掃描到,在交換的過程中會戲劇性的引發垃圾收集器的收集時間延長,這個時候如果垃圾收集器是“Stop The World”(使得應用響應停止)的,那麼這個時間就會被延長。
分布式JAVA應用的性能和伸縮性會受到網絡帶寬和網絡性能的限制。例如,如果我們往網絡接口發送比他能夠處理的更多的資料包,資料包将會堆積在作業系統的緩沖區内,這将會引發應用延遲,另外其他的情況也會導緻網絡應用的延遲。
區分和監控的工具通常在作業系統的打包工具中很難找到。盡管linux提供了netstat指令,linux和solaris都提供了網絡使用情況的實作,他們都提供了包括每秒發包、接包、錯包、沖突等資訊的統計。在以太網中,一小部分包沖突是很正常的現象。如果錯包情況比較多那可能是網卡有問題了。同時,盡管netstat可以統計網絡接口的發送和接收資料情況,這很難斷定網卡是否被充分利用。例如,如果netstat -i顯示現在每秒有2500個包從網卡發出,但是我們仍然無法判斷目前的網絡使用率是100%還是1%,我們僅僅能夠知道目前有流量。這僅僅是在不知道網絡包大小的情況下能夠得到的結論。簡單的說我們無法通過linux和solaris提供的netstat來判斷目前網絡是否影響了性能。我們需要一些其他的工具在我們的JAVA應用運作的過程中來監測網絡。
如果應用有對磁盤進行操作,我們需要對磁盤進行監控,來監測可能出現的磁盤性能問題。一些應用是I/O密集型的,比如資料庫。磁盤的使用通常還存在于應用日志系統,日志通常是我們用來記錄系統運作過程中重要資訊的。