伺服器壓力測試的一次優化曆程

作者介紹：Robben，騰訊進階開發工程師。工作多年，長期從事背景的開發、架構設計、優化等方面的相關工作。

對技術人員來說，知其然還需知其是以然——搞清技術的底層機制、弄明白問題的深層次原因、知悉解決方案的适用場景，是每個開發人員應有的技術素養，也是個人發展上積累功底、産品生命上維持穩定所必須的。

機器人模拟測試是對各類已有的壓力測試方法做了一個平衡，通過高還原真實玩家的使用者行為，模拟高并發場景，進而得到類似很多人同時遊戲的測試效果。

其中通過模拟機器人測試有四個優勢：

高還原遊戲玩法，深度模拟真實使用者行為；

并發性不受限制，從1W到10W，壓力能夠自主設定；

可以反複執行，便于性能調優回歸；

實作724小時不斷監控。

在開發送出代碼之後，版本在自動編譯之後就跑新的測試，這樣每天都能進行性能監控，在調優方面，完全的進行一個重複性測試，可以不斷的進行回歸和調優。這個方法的問題就在于機器人模拟需要專人開發，對測試者的開發能力，分析能力都有一個比較高的要求。

而要開發一款進行伺服器性能測試的機器人，需要通過模組化、分析、開發三個步驟，那麼今天我們就要來介紹一下，具體在開發伺服器性能測試機器人的時候，如何讓它表現的更像人？有更加平穩和正常的表現？

為了讓介紹的内容更加形象和具有說服力，我從我們自己的産品開始介紹，扒一扒騰訊WeTest伺服器性能測試在開發機器人的過程中遇到的一些坑。

WeTest平台的伺服器壓測，支援使用者在一個測試用例中定義遞增的機器人數量，通過逐漸增壓的方式，來探索伺服器的實際承受能力。從下圖的機器人壓力曲線圖可以擷取直覺的概念：

曲線統計的是每個時刻連接配接到伺服器并且進行業務資料收發包的線上機器人個數，由曲線看上去，可以感受到壓力是平穩遞增的（中間有微小下跌，是因為目前的模式下，會在不同的階段更新和重新開機機器人，這個也是後面會優化之處）。然而，為了在測試結果報告中畫出這樣一張合理的圖，也是經曆了幾番折騰，總結一下，還是蠻有意思的。

對于上圖描述的同一個壓力逐漸遞增的測試用例，經過了許多版本的疊代才能得到最終的效果，最早版本的機器人壓力曲線，統計生成後出現了這樣的問題。

問題：模拟機器人在開始的十幾秒内，壓力還算有些頭緒，後面某個時刻，就經曆了急劇的下跌，之後就完全無規律可循了。

分析：經過定位，這個階段的問題是，我們的壓力測試工具在響應包較大時，會出現接收緩存區資料被并發寫入而資料污染的情況，導緻程式core掉。經過快速的修改調試，問題終于被修複。OK，壓力曲線應該會比較平穩了吧。

然而理想很豐滿，現實很骨感，模拟機器人依然存在問題：在大概二十秒内的時間，還是比較平穩地增增減減，維持在一個穩定的水準。然後到二十秒後，又會出現急劇地下降，壓力上不去，大概半分鐘後，反撲，上升，沒多久再急劇下降。

分析：首先檢視壓力工具的運作邏輯，一切正常；程式，沒core，一切正常；日志錯誤，沒有，一切正常。那壓力為何上不去呢？檢視系統的各種運作時資料，終于發現了問題所在：

原因1：由于咱們的機器是部署在合作夥伴騰訊雲這裡的，機器拿到後也并未進行大的配置調整，是以系統預設可用的端口範圍還是比較小的，如下圖：

而作為一個模拟機器人的壓力機，必然會在短時間内并發和伺服器建立大量的連接配接，是以本地的端口号是必須大一點的，直接改檔案，增加範圍，搞定：

原因2：其實就是經典到有些老生常談的TCP timewait問題了。因為我們壓力機的機器人，會并發建立很多短連接配接，并且每次都由機器人主動斷開短連接配接，是以導緻系統中存在大量的timewait連接配接。直接結果就是沒法建立新的連接配接，線上機器人數量上不去。

這裡簡單地提兩個要點：

1、timewait是在TCP連接配接的主動發起方才有的狀态，一句話概況，它是為了防止“主動斷開連接配接方發送的最後一個ACK包異常，導緻被動關閉防會重發FIN請求，影響該四元組上的下一個連接配接的正确性”這一問題而設計的，通過主動關閉方等待2MSL，即兩倍的封包生存期的時長來避免。如此，封包一來一回的時間都等完了，大機率保證了确實沒異常了。繼而，系統中也就常常會出現大量的timewait連接配接。

2、解決的方法，一般是把兩個核心參數：net.ipv4.tcp_tw_recycle、net.ipv4.tcp_tw_reuse都改為1，前者指啟動time wait連接配接的快速回收，後者指讓time wait的四元組可以快速用于新連接配接。

然而兩個優化都是有需要注意之處的：

對于第一個參數，當它置1後，為了解決timewait設計時出發點的風險，新來的連接配接請求在如下情況會被拒掉：同一用戶端IP在某時間窗内的新連接配接時間戳變小。雖然一般是不會存在這種情況的，但是，對于NAT而言，則天然容易出現這個問題：A連接配接伺服器 -->B連接配接伺服器 --> B 先被accept --> A（同一NAT IP）請求到了伺服器 --> A請求被據。

對于第二個參數，一般認為，它不太能解決純服務端的資源占用問題，因為四元組雖然能用了，但資源還是沒釋放；但對于有用戶端性質的情況是适用的，如連接配接mysql的服務端php程序。

了解了這些之後，我們的壓力機，既不存在要響應NAT過來的用戶端請求的情況，又不存在伺服器端的特點，是以天然是非常适合用這兩個核心參數的優化的。

經過這一輪系統參數的優化後，線上機器人數量基本穩定了：

因為是短連接配接，是以線上機器人的數量曲線并不是水準的，但至少可以一直保持較高的并發。更進一步，我們在産品的實作層面又做了優化，開放長短連接配接配置給使用者，同時對于HTTP協定的簡單模式，仿照真實的浏覽器行為，将預設行為置為長連接配接。這樣，就會出現文章開頭的理想曲線了：

其實本文中的優化隻是非常小的一個點，也沒有什麼驚心動魄的過程與艱深晦澀的理論，幾輪優化着手點涉及的概念範疇也雜，但卻是一個真實的逐漸解決問題的典型。

在這個網絡發達，資訊爆炸的時代，基本上對于每個技術點或者問題，都可以迅速地擷取到大量資料。關鍵是對于技術的實作原理和問題的解決方案，卻不能僅僅知其然，還必須知其是以然——搞清技術的底層機制、弄明白問題的深層次原因、知悉解決方案的适用場景，是每個開發人員應有的技術素養，也是個人發展上積累功底、産品生命上維持穩定所必須的。

而騰訊WeTest的壓力測試團隊正是運用了沉澱十多年的内部實踐經驗總結，通過基于真實業務場景和使用者行為進行壓力測試，推出一套面向遊戲業務的綜合性應用性能管了解決方案，該方案旨在幫助遊戲開發者發現伺服器端的性能瓶頸，進行針對性的性能調優，降低伺服器采購和維護成本，提高使用者留存和轉化率。

目前騰訊WeTest伺服器性能測試已經正式對外開放，業務場景模拟，持續壓力觸達伺服器極限，幫助尋找伺服器性能問題！點選立即體驗！