解決TCP網絡傳輸“粘包”問題

目前在網絡傳輸應用中，廣泛采用的是TCP/IP通信協定及其标準的socket應用開發程式設計接口（API）。TCP/IP傳輸層有兩個并列的協定：TCP和UDP。其中TCP（transport control protocol，傳輸控制協定）是面向連接配接的，提供高可靠性服務。UDP（user datagram protocol，使用者資料報協定）是無連接配接的，提供高效率服務。在實際工程應用中，對可靠性和效率的選擇取決于應用的環境和需求。一般情況下，普通資料的網絡傳輸采用高效率的udp，重要資料的網絡傳輸采用高可靠性的TCP。

在應用開發過程中，筆者發現基于TCP網絡傳輸的應用程式有時會出現粘包現象（即發送方發送的若幹包資料到接收方接收時粘成一包）。針對這種情況，我們進行了專題研究與實驗。本文重點分析了TCP網絡粘包問題，并結合實驗結果提出了解決該問題的對策和方法，供有關工程技術人員參考。

一、TCP協定簡介

TCP是一個面向連接配接的傳輸層協定，雖然TCP不屬于iso制定的協定集，但由于其在商業界和工業界的成功應用，它已成為事實上的網絡标準，廣泛應用于各種網絡主機間的通信。

作為一個面向連接配接的傳輸層協定，TCP的目标是為使用者提供可靠的端到端連接配接，保證資訊有序無誤的傳輸。它除了提供基本的資料傳輸功能外，還為保證可靠性采用了資料編号、校驗和計算、資料确認等一系列措施。它對傳送的每個資料位元組都進行編号，并請求接收方回傳确認資訊（ack）。發送方如果在規定的時間内沒有收到資料确認，就重傳該資料。資料編号使接收方能夠處理資料的失序和重複問題。資料誤碼問題通過在每個傳輸的資料段中增加校驗和予以解決，接收方在接收到資料後檢查校驗和，若校驗和有誤，則丢棄該有誤碼的資料段，并要求發送方重傳。流量控制也是保證可靠性的一個重要措施，若無流控，可能會因接收緩沖區溢出而丢失大量資料，導緻許多重傳，造成網絡擁塞惡性循環。TCP采用可變視窗進行流量控制，由接收方控制發送方發送的資料量。

TCP為使用者提供了高可靠性的網絡傳輸服務，但可靠性保障措施也影響了傳輸效率。是以，在實際工程應用中，隻有關鍵資料的傳輸才采用TCP，而普通資料的傳輸一般采用高效率的udp。

二、粘包問題分析與對策

TCP粘包是指發送方發送的若幹包資料到接收方接收時粘成一包，從接收緩沖區看，後一包資料的頭緊接着前一包資料的尾。

出現粘包現象的原因是多方面的，它既可能由發送方造成，也可能由接收方造成。發送方引起的粘包是由TCP協定本身造成的，TCP為提高傳輸效率，發送方往往要收集到足夠多的資料後才發送一包資料。若連續幾次發送的資料都很少，通常TCP會根據優化算法把這些資料合成一包後一次發送出去，這樣接收方就收到了粘包資料。接收方引起的粘包是由于接收方使用者程序不及時接收資料，進而導緻粘包現象。這是因為接收方先把收到的資料放在系統接收緩沖區，使用者程序從該緩沖區取資料，若下一包資料到達時前一包資料尚未被使用者程序取走，則下一包資料放到系統接收緩沖區時就接到前一包資料之後，而使用者程序根據預先設定的緩沖區大小從系統接收緩沖區取資料，這樣就一次取到了多包資料（圖1所示）。

圖1

圖2

圖3

粘包情況有兩種，一種是粘在一起的包都是完整的資料包（圖1、圖2所示），另一種情況是粘在一起的包有不完整的包（圖3所示），此處假設使用者接收緩沖區長度為m個位元組。

不是所有的粘包現象都需要處理，若傳輸的資料為不帶結構的連續流資料（如檔案傳輸），則不必把粘連的包分開（簡稱分包）。但在實際工程應用中，傳輸的資料一般為帶結構的資料，這時就需要做分包處理。

在處理定長結構資料的粘包問題時，分包算法比較簡單；在處理不定長結構資料的粘包問題時，分包算法就比較複雜。特别是如圖3所示的粘包情況，由于一包資料内容被分在了兩個連續的接收包中，處理起來難度較大。實際工程應用中應盡量避免出現粘包現象。

為了避免粘包現象，可采取以下幾種措施。一是對于發送方引起的粘包現象，使用者可通過程式設計設定來避免，TCP提供了強制資料立即傳送的操作指令push，TCP軟體收到該操作指令後，就立即将本段資料發送出去，而不必等待發送緩沖區滿；二是對于接收方引起的粘包，則可通過優化程式設計、精簡接收程序工作量、提高接收程序優先級等措施，使其及時接收資料，進而盡量避免出現粘包現象；三是由接收方控制，将一包資料按結構字段，人為控制分多次接收，然後合并，通過這種手段來避免粘包。

以上提到的三種措施，都有其不足之處。第一種程式設計設定方法雖然可以避免發送方引起的粘包，但它關閉了優化算法，降低了網絡發送效率，影響應用程式的性能，一般不建議使用。第二種方法隻能減少出現粘包的可能性，但并不能完全避免粘包，當發送頻率較高時，或由于網絡突發可能使某個時間段資料包到達接收方較快，接收方還是有可能來不及接收，進而導緻粘包。第三種方法雖然避免了粘包，但應用程式的效率較低，對實時應用的場合不适合。

一種比較周全的對策是：接收方建立一預處理線程，對接收到的資料包進行預處理，将粘連的包分開。對這種方法我們進行了實驗，證明是高效可行的。

三、程式設計與實作

1．實作架構

實驗網絡通信程式采用TCP/IP協定的socket api程式設計實作。socket是面向客戶機/伺服器模型的。TCP實作架構如圖4所示。

圖4

2．實驗硬體環境：

伺服器：pentium 350 微機

客戶機：pentium 166微機

網絡平台：由10兆共享式hub連接配接而成的區域網路

3．實驗軟體環境：

作業系統：windows 98

程式設計語言：visual c++ 5.0

4．主要線程

程式設計采用多線程方式，伺服器端共有兩個線程：發送資料線程、發送統計顯示線程。用戶端共有三個線程：接收資料線程、接收預處理粘包線程、接收統計顯示線程。其中，發送和接收線程優先級設為thread_priority_time_critical（最高優先級），預處理線程優先級為thread_priority_above_normal（高于普通優先級），顯示線程優先級為thread_priority_normal（普通優先級）。

實驗發送資料的資料結構如圖5所示：

圖5

5．分包算法

針對三種不同的粘包現象，分包算法分别采取了相應的解決辦法。其基本思路是首先将待處理的接收資料流（長度設為m）強行轉換成預定的結構資料形式，并從中取出結構資料長度字段，即圖5中的n，而後根據n計算得到第一包資料長度。

1)若n

2)若n=m，則表明資料流内容恰好是一完整結構資料，直接将其存入臨時緩沖區即可。

3)若n>m，則表明資料流内容尚不夠構成一完整結構資料，需留待與下一包資料合并後再行處理。

對分包算法具體内容及軟體實作有興趣者，可與作者聯系。

四、實驗結果分析

實驗結果如下：

1．在上述實驗環境下，當發送方連續發送的若幹包資料長度之和小于1500b時，常會出現粘包現象，接收方經預處理線程處理後能正确解開粘在一起的包。若程式中設定了“發送不延遲”：（setsockopt (socket_name，ipproto_tcp，tcp_nodelay，(char *) &on，sizeof on) ，其中on=1），則不存在粘包現象。

2．當發送資料為每包1kb～2kb的不定長資料時，若發送間隔時間小于10ms，偶爾會出現粘包，接收方經預處理線程處理後能正确解開粘在一起的包。

3．為測定處理粘包的時間，發送方依次循環發送長度為1.5kb、1.9kb、1.2kb、1.6kb、1.0kb資料，共計1000包。為制造粘包現象，接收線程每次接收前都等待10ms，接收緩沖區設為5000b，結果接收方收到526包資料，其中長度為5000b的有175包。經預處理線程處理可得到1000包正确資料，粘包處理總時間小于1ms。

實驗結果表明，TCP粘包現象确實存在，但可通過接收方的預處理予以解決，而且處理時間非常短（實驗中1000包資料總共處理時間不到1ms），幾乎不影響應用程式的正常工作。

解決TCP網絡傳輸“粘包”問題

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希