pdf(Portable Document Format的簡稱,意為“便攜式文檔格式”),是由Adobe Systems用于與應用程式、作業系統、硬體無關的方式進行檔案交換所發展出的檔案格式
PDF檔案結構四個部分
- 檔案頭 Header
- 檔案體 Body
- 交叉引用表 Cross-reference table
- 檔案尾 Trailer
更新方式:采用增量更新
PDF檔案支援8種基本類型對象
- 布爾
true和false
- 整數和實數
549
- 字元串
(This is a string) % 可見字元
<4E6F762073686D6F7A206B6120706F702E> % 16進制
- 名稱
/Type
- 數組
[549 3.14false (Ralph) /SomeName]
- 字典
<</Type /Example
/StringItem(a string)
/Subdictionary<< /Item1 0.4
/Item2true
/LastItem(not!)
/VeryLastItem(OK)
>>
>>
- 流對象
stream
流資料
Endstream
- 空對象
以null來表示
各種對象的辨識方法
(1) 以(開頭:字元串對象
(2) 以/開頭:名稱對象
(3) 以<開頭:若後面不接<,便是字元串對象(見<<開頭的說明)
(4) 以<<開頭:詞典對象,若之後再接stream便是流對象
(5) 以負号開頭:後面接數字便是數字對象
(6) 以數字開頭:數字對象,整數對象必須再往後看兩個對象,才能決定是否為對象參用形式
(7) 以f開頭:若是false便是布爾對象
(8) 以n開頭:若是null便是空對象
(9) 以t開頭:若是true便是布爾對象
(10) 以[開頭:數組對象
(11) 其他:不合法的對象
1、首部
%PDF-1.4
PDF檔案格式版本号
2、檔案體
3 0 obj
<<
/Type /Pages
/Count 1
/Kids [4 0 R]
>>
endobj
對象号, 唯一辨別一個對象 eg: 3
産生号, 修改次數 eg: 0
對象内容, 包含在<< 和>>之間 以關鍵字endobj結束
3、交叉引用表
用來索引各個obj 對象在文檔中的位置,以實作随機通路
xref
0 8
0000000000 65535f
0000000009 00000n
0000000074 00000 n
0000000120 00000 n
0000000179 00000 n
0000000322 00000 n
0000000415 00000 n
0000000445 00000 n
解釋:
- xref:交叉引用表的開始
- 第一行0 8: 下面各行所描述的對象号是從0開始,并且有8個對象
- 0000000000 65535f:
(1) 對象0的起始位址為0000000000,産生号(generation number)為65535
(2) 65535是最大産生号,不可以再進行更改
(3) f:對象為free
(4) 一般每個PDF檔案都是以這一行開始交叉應用表,其實這個對象可以看作是檔案頭
- 0000000009 00000n:
(1) 表示對象1,0000000009是其偏移位址,
(2) 00000為5位産生号(最大為65535),0表明該對象未被修改過,
(3) n表示該對象在使用,差別與自由對象(f),可以更改。
4、尾部
Trailer
<<
/Size 8
/Root 1 0 R
>>
startxref
553
%%EOF
解釋
(1)trailer 說明檔案尾 trailer對象的開始
(2)/Size 8 說明該PDF檔案的對象數目
(3)/Root 1 0 R 說明根對象的對象号為1
(4)Startxref 553說明交叉引用表的偏移位址,進而可以找到PDF文檔中所有的對象的相對位址,進而通路對象。
(5)%%EOF 為檔案結束标志
參考