Java I/O 操作及優化建議

I/O。即 Input/Output(輸入/輸出) 的簡稱。

就 I/O 而言。概念上有 5 種模型：blocking I/O，nonblocking I/O。I/O multiplexing (select and poll)，signal driven I/O (SIGIO)。asynchronous I/O (the POSIX aio_functions)。不同的作業系統對上述模型支援不同，UNIX 支援 IO 多路複用。不同系統叫法不同。freebsd 裡面叫 kqueue，Linux 叫 epoll。而 Windows2000 的時候就誕生了 IOCP 用以支援 asynchronous I/O。

Java 是一種跨平台語言。為了支援異步 I/O，誕生了 NIO，Java1.4 引入的 NIO1.0 是基于 I/O 複用的，它在各個平台上會選擇不同的複用方式。Linux 用的 epoll，BSD 上用 kqueue，Windows 上是重疊 I/O。

Java I/O 的相關方法例如以下所述：

同步并堵塞 (I/O 方法)：server實作模式為一個連接配接啟動一個線程，每一個線程親自處理 I/O 而且一直等待 I/O 直到完畢，即用戶端有連接配接請求時server端就須要啟動一個線程進行處理。可是假設這個連接配接不做不論什麼事情就會造成不必要的線程開銷。當然能夠通過線程池機制改善這個缺點。I/O 的局限是它是面向流的、堵塞式的、串行的一個過程。對每一個用戶端的 Socket 連接配接 I/O 都須要一個線程來處理，而且在此期間，這個線程一直被占用。直到 Socket 關閉。在這期間。TCP 的連接配接、資料的讀取、資料的傳回都是被堵塞的。也就是說這期間大量浪費了 CPU 的時間片和線程占用的記憶體資源。此外。每建立一個 Socket 連接配接時。同一時候建立一個新線程對該 Socket 進行單獨通信 (採用堵塞的方式通信)。這樣的方式具有非常快的響應速度，而且控制起來也非常easy。

在連接配接數較少的時候非常有效。可是假設對每一個連接配接都産生一個線程無疑是對系統資源的一種浪費，假設連接配接數較多将會出現資源不足的情況；

同步非堵塞 (NIO 方法)：server實作模式為一個請求啟動一個線程。每一個線程親自處理 I/O，可是另外的線程輪詢檢查是否 I/O 準備完畢。不必等待 I/O 完畢，即用戶端發送的連接配接請求都會注冊到多路複用器上，多路複用器輪詢到連接配接有 I/O 請求時才啟動一個線程進行處理。NIO 則是面向緩沖區，非堵塞式的。基于選擇器的，用一個線程來輪詢監控多個傳輸資料通道，哪個通道準備好了 (即有一組能夠處理的資料) 就處理哪個通道。server端儲存一個 Socket 連接配接清單，然後對這個清單進行輪詢。假設發現某個 Socket 端口上有資料可讀時，則調用該 Socket 連接配接的對應讀操作；假設發現某個 Socket 端口上有資料可寫時。則調用該 Socket 連接配接的對應寫操作。假設某個端口的 Socket 連接配接已經中斷，則調用對應的析構方法關閉該端口。這樣能充分利用server資源，效率得到大幅度提高；

異步非堵塞 (AIO 方法，JDK7 公布)：server實作模式為一個有效請求啟動一個線程，用戶端的 I/O 請求都是由作業系統先完畢了再通知server應用去啟動線程進行處理。每一個線程不必親自處理 I/O，而是委派作業系統來處理，而且也不須要等待 I/O 完畢，假設完畢了作業系統會另行通知的。該模式採用了 Linux 的 epoll 模型。

在連接配接數不多的情況下，傳統 I/O 模式編寫較為easy。使用上也較為簡單。

可是随着連接配接數的不斷增多，傳統 I/O 處理每一個連接配接都須要消耗一個線程。而程式的效率，當線程數不多時是随着線程數的添加而添加，可是到一定的數量之後。是随着線程數的添加而降低的。是以傳統堵塞式 I/O 的瓶頸在于不能處理過多的連接配接。非堵塞式 I/O 出現的目的就是為了解決這個瓶頸。

非堵塞 IO 處理連接配接的線程數和連接配接數沒有聯系。比如系統處理 10000 個連接配接，非堵塞 I/O 不須要啟動 10000 個線程，你能夠用 1000 個，也能夠用 2000 個線程來處理。因為非堵塞 IO 處理連接配接是異步的，當某個連接配接發送請求到server，server把這個連接配接請求當作一個請求“事件”。并把這個“事件”配置設定給對應的函數處理。我們能夠把這個處理函數放到線程中去執行，執行完就把線程歸還，這樣一個線程就能夠異步的處理多個事件。而堵塞式 I/O 的線程的大部分時間都被浪費在等待請求上了。

Java.nio 包是 Java 在 1.4 版本号之後新添加的包。專門用來提高 I/O 操作的效率。

表 1 所看到的是 I/O 與 NIO 之間的對照内容。

<col>

I/O

NIO

面向流

面向緩沖

堵塞 IO

非堵塞 IO

無

選擇器

NIO 是基于塊 (Block) 的，它以塊為基本機關處理資料。

在 NIO 中，最為重要的兩個元件是緩沖 Buffer 和通道 Channel。緩沖是一塊連續的記憶體塊。是 NIO 讀寫資料的中轉地。

通道辨別緩沖資料的源頭或者目的地，它用于向緩沖讀取或者寫入資料，是訪問緩沖的接口。Channel 是一個雙向通道，就可以讀，也可寫。Stream 是單向的。應用程式不能直接對 Channel 進行讀寫操作，而必須通過 Buffer 來進行。即 Channel 是通過 Buffer 來讀寫資料的。

使用 Buffer 讀寫資料一般遵循下面四個步驟：

寫入資料到 Buffer。

調用 flip() 方法。

從 Buffer 中讀取資料。

調用 clear() 方法或者 compact() 方法。

當向 Buffer 寫入資料時，Buffer 會記錄下寫了多少資料。一旦要讀取資料，須要通過 flip() 方法将 Buffer 從寫模式切換到讀模式。在讀模式下。能夠讀取之前寫入到 Buffer 的全部資料。

一旦讀完了全部的資料，就須要清空緩沖區。讓它能夠再次被寫入。有兩種方式能清空緩沖區：調用 clear() 或 compact() 方法。clear() 方法會清空整個緩沖區。compact() 方法僅僅會清除已經讀過的資料。不論什麼未讀的資料都被移到緩沖區的起始處。新寫入的資料将放到緩沖區未讀資料的後面。

Buffer 有多種類型，不同的 Buffer 提供不同的方式操作 Buffer 中的資料。

Buffer 寫資料有兩種情況：

從 Channel 寫到 Buffer，如樣例中 Channel 從檔案裡讀取資料，寫到 Channel；

直接調用 put 方法，往裡面寫資料。

從 Buffer 中讀取資料有兩種方式：

從 Buffer 讀取資料到 Channel；

使用 get() 方法從 Buffer 中讀取資料。

Buffer 的 rewin 方法将 position 設回 0，是以你能夠重讀 Buffer 中的全部資料。

limit 保持不變，仍然表示能從 Buffer 中讀取多少個元素（byte、char 等）。

clear() 和 compact() 方法

一旦讀完 Buffer 中的資料，須要讓 Buffer 準備好再次被寫入。能夠通過 clear() 或 compact() 方法來完畢。

假設調用的是 clear() 方法，position 将被設回 0，limit 被設定成 capacity 的值。

換句話說。Buffer 被清空了。Buffer 中的資料并未清除。僅僅是這些标記告訴我們能夠從哪裡開始往 Buffer 裡寫資料。

假設 Buffer 中有一些未讀的資料，調用 clear() 方法。資料将“被遺忘”，意味着不再有不論什麼标記會告訴你哪些資料被讀過，哪些還沒有。假設 Buffer 中仍有未讀的資料，且興許還須要這些資料，可是此時想要先寫些資料，那麼使用 compact() 方法。

compact() 方法将全部未讀的資料複制到 Buffer 起始處。然後将 position 設到最後一個未讀元素正後面。

limit 屬性依舊像 clear() 方法一樣，設定成 capacity。如今 Buffer 準備好寫資料了，可是不會覆寫未讀的資料。

Buffer 參數

Buffer 有 3 個重要的參數：位置 (position)、容量 (capacity) 和上限 (limit)。

capacity 是指 Buffer 的大小。在 Buffer 建立的時候已經确定。

limit 當 Buffer 處于寫模式，指還能夠寫入多少資料。處于讀模式，指還有多少資料能夠讀。

position 當 Buffer 處于寫模式，指下一個寫資料的位置；處于讀模式，目前将要讀取的資料的位置。

每讀寫一個資料，position+1，也就是 limit 和 position 在 Buffer 的讀/寫時的含義不一樣。

當調用 Buffer 的 flip 方法。由寫模式變為讀模式時，limit(讀)=position(寫)，position(讀) =0。

散射&聚集

NIO 提供了處理結構化資料的方法，稱之為散射 (Scattering) 和聚集 (Gathering)。散射是指将資料讀入一組 Buffer 中，而不僅僅是一個。

聚集與之相反，指将資料寫入一組 Buffer 中。散射和聚集的基本用法和對單個 Buffer 操作時的用法相當相似。在散射讀取中，通道依次填充每一個緩沖區。填滿一個緩沖區後，它就開始填充下一個，在某種意義上，緩沖區數組就像一個大緩沖區。在已知檔案詳細結構的情況下，能夠構造若幹個符合檔案結構的 Buffer，使得各個 Buffer 的大小恰好符合檔案各段結構的大小。此時。通過散射讀的方式能夠一次将内容裝配到各個對應的 Buffer 中。進而簡化操作。

假設須要建立指定格式的檔案，僅僅要先構造好大小合适的 Buffer 對象。使用聚集寫的方式，便能夠非常快地建立出檔案。清單 1 以 FileChannel 為例。展示怎樣使用散射和聚集讀寫結構化檔案。

輸出例如以下清單 2 所看到的。

<code>java 性能優化技巧 test</code>

清單 3 所看到的代碼對傳統 I/O、基于 Byte 的 NIO、基于記憶體映射的 NIO 三種方式進行了性能上的對照，使用一個有 400 萬資料的檔案的讀、寫操作耗時作為評測根據。

清單 3 執行輸出如清單 4 所看到的。

除上述描寫叙述及清單 3 所看到的代碼以外，NIO 的 Buffer 還提供了一個能夠直接訪問系統實體記憶體的類 DirectBuffer。DirectBuffer 繼承自 ByteBuffer，但和普通的 ByteBuffer 不同。普通的 ByteBuffer 仍然在 JVM 堆上配置設定空間。其最大記憶體受到最大堆的限制。而 DirectBuffer 直接配置設定在實體記憶體上，并不占用堆空間。

在對普通的 ByteBuffer 訪問時，系統總是會使用一個“核心緩沖區”進行間接的操作。

而 DirectrBuffer 所處的位置，相當于這個“核心緩沖區”。是以，使用 DirectBuffer 是一種更加接近系統底層的方法，是以。它的速度比普通的 ByteBuffer 更快。

DirectBuffer 相對于 ByteBuffer 而言。讀寫訪問速度快非常多，可是建立和銷毀 DirectrBuffer 的花費卻比 ByteBuffer 高。DirectBuffer 與 ByteBuffer 相比較的代碼如清單 5 所看到的。

執行輸出如清單 6 所看到的。

由清單 6 可知，頻繁建立和銷毀 DirectBuffer 的代價遠遠大于在堆上配置設定記憶體空間。使用參數-XX:MaxDirectMemorySize=200M –Xmx200M 在 VM Arguments 裡面配置最大 DirectBuffer 和最大堆空間，代碼中分别請求了 200M 的空間。假設設定的堆空間過小，比如設定 1M。會抛出錯誤如清單 7 所看到的。

<code>Error occurred during initialization of VM</code>

<code>Too small initial heap </code><code>for</code> <code>new</code> <code>size specified</code>

DirectBuffer 的資訊不會列印在 GC 裡面，因為 GC 僅僅記錄了堆空間的記憶體回收。能夠看到。因為 ByteBuffer 在堆上配置設定空間，是以其 GC 數組相對非常頻繁，在須要頻繁建立 Buffer 的場合，因為建立和銷毀 DirectBuffer 的代碼比較高昂。不宜使用 DirectBuffer。可是假設能将 DirectBuffer 進行複用，能夠大幅改善系統性能。清單 8 是一段對 DirectBuffer 進行監控代碼。

<code>maxMemoryValue=</code><code>67108864</code>

<code>reservedMemoryValue=</code><code>0</code>

因為 NIO 使用起來較為困難，是以很多公司推出了自己封裝 JDK NIO 的架構，比如 Apache 的 Mina，JBoss 的 Netty。Sun 的 Grizzly 等等，這些架構都直接封裝了傳輸層的 TCP 或 UDP 協定，當中 Netty 僅僅是一個 NIO 架構，它不須要 Web 容器的額外支援，也就是說不限定 Web 容器。

AIO 相關的類和接口：

java.nio.channels.AsynchronousChannel：标記一個 Channel 支援異步 IO 操作；

java.nio.channels.AsynchronousServerSocketChannel：ServerSocket 的 AIO 版本号，建立 TCP 服務端。綁定位址，監聽端口等；

java.nio.channels.AsynchronousSocketChannel：面向流的異步 Socket Channel。表示一個連接配接；

java.nio.channels.AsynchronousChannelGroup：異步 Channel 的分組管理，目的是為了資源共享。一個 AsynchronousChannelGroup 綁定一個線程池。這個線程池執行兩個任務：處理 IO 事件和派發 CompletionHandler。AsynchronousServerSocketChannel 建立的時候能夠傳入一個 AsynchronousChannelGroup。那麼通過 AsynchronousServerSocketChannel 建立的 AsynchronousSocketChannel 将同屬于一個組，共享資源；

java.nio.channels.CompletionHandler：異步 IO 操作結果的回調接口，用于定義在 IO 操作完畢後所作的回調工作。AIO 的 API 同意兩種方式來處理異步操作的結果：傳回的 Future 模式或者注冊 CompletionHandler。推薦用 CompletionHandler 的方式。這些 handler 的調用是由 AsynchronousChannelGroup 的線程池派發的。這裡線程池的大小是性能的關鍵因素。

這裡舉一個程式範例，簡介一下 AIO 怎樣運作。

清單 11. 用戶端程式

清單 12.Main 函數

興許會專門出文章詳細深入介紹 AIO 的源碼、設計理念、設計模式等等。

I/O 與 NIO 一個比較重要的差别是我們使用 I/O 的時候往往會引入多線程，每一個連接配接使用一個單獨的線程。而 NIO 則是使用單線程或者僅僅使用少量的多線程。每一個連接配接共用一個線程。

而因為 NIO 的非堵塞須要一直輪詢，比較消耗系統資源，是以異步非堵塞模式 AIO 就誕生了。

本文對 I/O、NIO、AIO 等三種輸入輸出操作方式進行一一介紹，力求通過簡單的描寫叙述和執行個體讓讀者能夠掌握主要的操作、優化方法。

Java I/O 操作及優化建議

繼續閱讀

Java小案例——随機數猜測随機數猜測

nginx location中斜線的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

詳解STM32單片機的堆棧

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method