一個PES對應一幀這點應該不對。
簡單講:以視訊為例,我們将視訊壓縮成的H264碼流 可以稱作為ES流,将其每幀打包變為PES流 然後拆分成多個188位元組,稱為TS流

從上往下解釋:
一段ES流=N幀(就是第2行中的資料)
1幀 = 1 PES_payload
1PES = 1PES標頭 + 1 PES_payload
第四行解釋
從PES方面了解:
1PES 切成N段,每段組成一個TS包的負載。
從TS方面了解:
1段TS流的草綠色部分+白色部分 = PES
最開始的TS包由 TS標頭(圖中有T标志的) + PES 標頭(草綠色) + PES_payload(白色) 組成
最末尾的TS包由 TS標頭(圖中有T标志的) + 自适應字段(橙色)+ PES_payload(白色) 組成
以上兩種TS包很簡單,在中間的TS包有點複雜,經過血的教訓,發現其由3種包組成,出現位置随機,每種出現的機率不相同,如下:
第一種 TS標頭(圖中有T标志的) + 自适應字段(橙色)+ PES_payload(白色),出現機率 1%
第二種 TS標頭(圖中有T标志的) + 自适應字段(橙色)出現機率 0.1%