天天看點

PDF檔案結構PDF檔案結構四個部分PDF檔案支援8種基本類型對象各種對象的辨識方法

pdf(Portable Document Format的簡稱,意為“便攜式文檔格式”),是由Adobe Systems用于與應用程式、作業系統、硬體無關的方式進行檔案交換所發展出的檔案格式

PDF檔案結構四個部分

  1. 檔案頭 Header
  2. 檔案體 Body
  3. 交叉引用表 Cross-reference table
  4. 檔案尾 Trailer

更新方式:采用增量更新

PDF檔案支援8種基本類型對象

  1. 布爾
true和false      
  1. 整數和實數
549      
  1. 字元串
(This is a string)  % 可見字元
<4E6F762073686D6F7A206B6120706F702E>  % 16進制      
  1. 名稱
/Type      
  1. 數組
[549 3.14false (Ralph) /SomeName]      
  1. 字典
<</Type /Example

/StringItem(a string)

/Subdictionary<< /Item1 0.4

/Item2true

/LastItem(not!)

/VeryLastItem(OK)

>>
>>
      
  1. 流對象
stream

流資料

Endstream      
  1. 空對象
以null來表示      

各種對象的辨識方法

(1) 以(開頭:字元串對象

(2) 以/開頭:名稱對象

(3) 以<開頭:若後面不接<,便是字元串對象(見<<開頭的說明)

(4) 以<<開頭:詞典對象,若之後再接stream便是流對象

(5) 以負号開頭:後面接數字便是數字對象

(6) 以數字開頭:數字對象,整數對象必須再往後看兩個對象,才能決定是否為對象參用形式

(7) 以f開頭:若是false便是布爾對象

(8) 以n開頭:若是null便是空對象

(9) 以t開頭:若是true便是布爾對象

(10) 以[開頭:數組對象

(11) 其他:不合法的對象

1、首部

%PDF-1.4       

PDF檔案格式版本号

2、檔案體

3 0 obj
<<
/Type /Pages
/Count 1
/Kids [4 0 R]
>>
endobj      

對象号, 唯一辨別一個對象 eg: 3

産生号, 修改次數 eg: 0

對象内容, 包含在<< 和>>之間 以關鍵字endobj結束

3、交叉引用表

用來索引各個obj 對象在文檔中的位置,以實作随機通路

xref
0 8
0000000000 65535f
0000000009 00000n
0000000074 00000 n
0000000120 00000 n
0000000179 00000 n
0000000322 00000 n
0000000415 00000 n
0000000445 00000 n      

解釋:

  • xref:交叉引用表的開始
  • 第一行0 8: 下面各行所描述的對象号是從0開始,并且有8個對象
  • 0000000000 65535f:

(1) 對象0的起始位址為0000000000,産生号(generation number)為65535

(2) 65535是最大産生号,不可以再進行更改

(3) f:對象為free

(4) 一般每個PDF檔案都是以這一行開始交叉應用表,其實這個對象可以看作是檔案頭

  • 0000000009 00000n:

(1) 表示對象1,0000000009是其偏移位址,

(2) 00000為5位産生号(最大為65535),0表明該對象未被修改過,

(3) n表示該對象在使用,差別與自由對象(f),可以更改。

4、尾部

Trailer
<<
/Size 8
/Root 1 0 R
>>
startxref
553
%%EOF      

解釋

(1)trailer 說明檔案尾 trailer對象的開始

(2)/Size 8 說明該PDF檔案的對象數目

(3)/Root 1 0 R 說明根對象的對象号為1

(4)Startxref 553說明交叉引用表的偏移位址,進而可以找到PDF文檔中所有的對象的相對位址,進而通路對象。

(5)%%EOF 為檔案結束标志

參考

  1. https://baike.baidu.com/item/pdf/317608
  2. PDF學習二:PDF檔案實體結構
  3. PDF文檔結構說明

繼續閱讀