視訊、音頻打時間戳的方法及其音視訊同步(播放)原理音視訊同步(播放)原理

http://blog.csdn.net/wfqxx/article/details/5497138

1. 視訊時間戳

pts = inc++ *(1000/fps); 其中inc是一個靜态的，初始值為0，每次打完時間戳inc加1.

在ffmpeg，中的代碼為

pkt.pts= m_nVideoTimeStamp++ * (m_VCtx->time_base.num * 1000 / m_VCtx->time_base.den);

2. 音頻時間戳

pts = inc++ * (frame_size * 1000 / sample_rate)

在ffmpeg中的代碼為

pkt.pts= m_nAudioTimeStamp++ * (m_ACtx->frame_size * 1000 / m_ACtx->sample_rate);

采樣頻率是指将模拟聲音波形進行數字化時，每秒鐘抽取聲波幅度樣本的次數。

。正常人聽覺的頻率範圍大約在20Hz~20kHz之間，根據奈奎斯特采樣理論，為了保證聲音不失真，采樣頻率應該在40kHz左右。常用的音頻采樣頻率有8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz等，如果采用更高的采樣頻率，還可以達到DVD的音質

對采樣率為44.1kHz的AAC音頻進行解碼時，一幀的解碼時間須控制在23.22毫秒内。

背景知識:

(一個AAC原始幀包含一段時間内1024個采樣及相關資料)

分析：

1 AAC

音頻幀的播放時間=一個AAC幀對應的采樣樣本的個數/采樣頻率(機關為s)

一幀 1024個 sample。采樣率 Samplerate 44100KHz，每秒44100個sample, 是以根據公式音頻幀的播放時間=一個AAC幀對應的采樣樣本的個數/采樣頻率

目前AAC一幀的播放時間是= 1024*1000000/44100= 22.32ms(機關為ms)

2 MP3

mp3 每幀均為1152個位元組，則：

frame_duration = 1152 * 1000000 / sample_rate

例如：sample_rate = 44100HZ時，計算出的時長為26.122ms，這就是經常聽到的mp3每幀播放時間固定為26ms的由來。

每一幀音頻或視訊都有一個持續時間：duration：

。正常人聽覺的頻率範圍大約在20Hz~20kHz之間，根據奈奎斯特采樣理論，為了保證聲音不失真，采樣頻率應該在40kHz左右。常用的音頻采樣頻率有8kHz、

11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz等，如果采用更高的采樣頻率，還可以達到DVD的音質

1) AAC

一幀 1024個 sample。采樣率 Samplerate 44100KHz，每秒44100個sample, 是以根據公式音頻幀的播放時間=一個AAC幀對應的采樣樣本的個數/采樣頻率

2) MP3

例如：sample_rate = 44100HZ時，計算出的時長為26.122ms，這就是經常聽到的mp3每幀播放時間固定為26ms的由來。

3)H264

視訊的播放時間跟幀率有關 frame_duration = 1000/fps

例如：fps = 25.00 ，計算出來的時常為40ms，這就是同行所說的40ms一幀視訊資料。

理論上的音視訊(播放)同步是這樣的：

由此得到了每一幀資料的持續時間，音視訊交叉存儲在容器中：一個時間軸：

時間軸：0 22.32 40 44.62 66.96 80 89.16 111.48 120 ................

音頻：0 22.32 44.62 66.96 89.16 111.48 ................

視頻：0 40 80 120 ................

即視訊的持續時間相加和音頻的持續時間相加作比較，誰小寫入哪個。

但實際情況(播放)是不成立的

1：首先解決一個問題

為什麼不音頻播音頻的視訊播視訊的即上面的到第22.32ms播一幀音頻，到40ms播一幀視訊。

因為這個22.32ms 或40ms是算不準的或者說和聲霸卡播的時間是不一樣的。這裡就需要知道聲霸卡播一幀/或者說播放一個buf音頻需要多長時間。

2：聲霸卡每次播一個采樣點而不是一幀。聲音當一個采樣點丢失了都可以聽出來，視訊則不然。

3：音視訊同步方式：1----回調方式

假設聲霸卡有兩塊緩存都是存放要播放的聲音pcm的一直在播放"B"buf 首先确定幾點

(1)buf大小是固定的這樣播放一個buf的時間就是固定的，假設30ms;

(2)當buf“B”播放完畢即buf用完，再播放buf“A",保證音頻pcm一直都連續

(3)當一個buf播放完畢,那說明系統(聲霸卡)過了30ms, 這時候有可能真正的時間過了40ms(這裡不用關心),這裡則通過回調得到一次時間30ms;

(4)再去用視訊對應音頻的30ms,這時候的時間就是準确的：

時間軸：0 30 60 90 120 ................

音頻：0 22.32 44.62 66.96 89.16 111.48 ................

視頻：0 40 80 120 ................

(5)這裡有個問題就是視訊中 30ms 到40ms 這中間的10ms是怎麼算出來的，這個是不用關心的，因為人的眼睛10ms是看不出來的，

即當音頻的30ms一次回調時，就可以播放第二幀視訊，如上圖

第一次回調(30ms)---播(40ms)視訊，

第一次回調(60ms)---播(80ms)視訊，

第一次回調(90ms)---不播視訊，

第一次回調(120ms)---播(120ms)視訊。

4：音視訊同步方式：1----阻塞方式

還是看上面的圖

(1)buf"B"一直在播放，傳入buf"A"的外部buf把資料給buf"A"後不立即傳回，等到buf"B"播放完成再傳回，

這時從傳入到經過阻塞出來就是一個buf的時間例如上面的30ms。

(2)然後buf"A"一直在播放，傳入buf"B"的外部buf把資料給buf"B"後不立即傳回，等到buf"A"播放完成再傳回，

(3)循環上面(1)(2),即得到了如回調方式同樣的那個30ms時間。下面和回調方式一樣，見回調方式(4)(5)。

轉自 http://blog.csdn.net/zhuweigangzwg/article/details/25815851

視訊、音頻打時間戳的方法及其音視訊同步(播放)原理音視訊同步(播放)原理

繼續閱讀

淺談資料挖掘評估技術

資料挖掘001

DB2表壓縮功能

Docker-compose 進行Doris自動化編排部署

華為筆試軟體

服裝資訊化數字化變革

項目管理那些事兒

OS --written test1

OS-written test2

從大資料看技術，為什麼天貓雙11是史上最大數字經濟節日

壓縮編碼M-JPEG、MPEG4、H.264

用Matlab搞計算機視覺是怎樣的體驗？

轉詳解C#資料庫存取圖檔三大方式

在weka中內建自己的算法

BMP檔案結構及圖像每行位元組計算方法

磁盤結構及在Linux中的命名

視訊、音頻打時間戳的方法及其音視訊同步(播放)原理 音視訊同步(播放)原理

繼續閱讀

視訊、音頻打時間戳的方法及其音視訊同步(播放)原理音視訊同步(播放)原理