天天看點

網絡資源歸檔标準WARC介紹

作者:數字羅塞塔計劃

關注我們 - 數字羅塞塔計劃 -

網絡資源歸檔标準WARC介紹

01

● WARC格式概述 ●

WARC(Web ARChive)格式是網絡資源存檔中使用的常見檔案格式,全稱為Web Archive File Format,由網際網路儲存聯盟(International Internet Preservation Consortium,IIPC)資助,網際網路檔案館(Internet Archive,IA)等機構負責開發,于2009年5月成為正式國際标準,标準号為ISO 28500:2009 Information and documentation — WARC file format。2017進行過一次修訂,标準号為ISO 28500:2017。

網絡資源歸檔标準WARC介紹

WARC檔案格式是唯一面向網絡資源長期儲存的資源儲存格式,在世界各國的圖書館和檔案館得到了廣泛的應用(比如美國網際網路檔案館、澳洲國家圖書館、日本國立圖書館、荷蘭國家圖書館、英國國家檔案館等),具有軟體生态環境完善、内容豐富、便于管理、易于擴充、支援大容量檔案儲存等突出優點,同時适合網絡資源和數字資源的長期儲存使用。由于其廣泛而巨大的影響力,該标準于2017年被采标為中國國家标準:GB/T 33994-2017《資訊和文獻 WARC檔案格式》。

WARC格式是ARC(ARChive)格式的延續。ARC格式由網際網路檔案館IA在1996年完成開發,規定了一種将多個數字資源整合到一個存檔檔案中的方法,用于管理IA所儲存的數以億計的網絡文檔。

網絡資源歸檔标準WARC介紹

IA在後來的工作中逐漸發現,ARC格式無法滿足網絡資源存檔進一步的要求,是以開始在ARC格式的基礎上開發新的格式,後來确定為WARC格式。相對于之前的格式,WARC格式詳細記錄了HTTP請求的頭資訊和中繼資料資訊,可以識别儲存的資源、備援的資源、遷移的資源和切割的資源塊等;WARC支援更多協定,包括HTTP、FTP等常用網絡協定。

02

●WARC格式特點●

可以說,WARC格式就是為了實作網絡資源長期儲存而生的。所謂網絡資源是指依托網際網路等大型網絡,以網站、社交媒體等形式釋出的資訊資源。網絡資源存在壽命短、易丢失、不可再生的特點,這意味着如果沒有得到及時歸檔儲存,這些寶貴的資源将不複存在。網絡資源存檔(Web Archiving)的目的就是搶在這些資源消失之前将它們歸檔儲存起來,WARC格式則是網絡資源存檔儲存的封裝格式,本質上是一種Web“容器”,用于解決網絡資源格式多樣、聯系複雜等儲存問題。

WARC格式可用于建構收割、管理、通路和交換網絡資源等各種應用。WARC格式的特點總結如下:

01 具備完善的軟體生态環境,易于使用✦

WARC格式擁有較長的發展時間和較多的使用使用者,很多網絡存檔機構針對WARC格式開發了多種開源軟體,覆寫了網絡存檔流程中的采集、中繼資料抽取、索引、格式檢查、内容回放、管理等各個環節。這些軟體降低了網絡存檔工作的技術門檻,使WARC格式變得簡單易用。

02 記錄了大量的資訊,保留了當時的網絡環境✦

WARC格式是面向網絡資源存檔的資料格式,記錄了大量的資料資訊。這些資訊主要包括: (1)網絡資源被儲存時的網絡環境,如爬蟲資訊、伺服器資訊、協定控制資訊及響應資訊等;(2)網絡資源互相聯通的資訊,即錨點資訊和URL;(3)網絡資源的中繼資料資訊,通過這些資訊可以重制當時的網絡環境,對于網絡資源長期儲存和未來的使用具有重要意義。

03 支援打包和壓縮,便于管理和儲存✦

網絡資源本身具有零散的特性,并不便于管理和儲存。WARC格式支援壓縮和打包操作,可将所采集下來的零散檔案進行打包壓縮并儲存,降低了長期儲存的空間開銷和處理小檔案的計算開銷,便于對資源進行管理。

04 支援大容量資源的儲存✦

WARC格式中continuation類型的記錄支援将大容量的網絡資源進行分割以便儲存,并且可以控制分割塊的大小,使用靈活,且可以應用于網絡資源外的其他類型數字資源的長期儲存。

05 易于擴充✦

WARC标準在很多部分都預留了擴充的空間,如記錄類型、截斷原因等,可以友善地在不破壞現有功能的基礎之上進行擴充。

03

●結構與内容 ●

根據GB/T 33994-2017中的描述,WARC檔案格式提供了一個由多個資源記錄(資料對象)連接配接成的一個長檔案的協定,其中每個資源記錄由一組簡單文本頭和任意資料内容塊構成。文本頭資訊儲存了本WARC記錄的管理資訊,内容塊儲存了本WARC記錄中的網絡資源的内容。

網絡資源歸檔标準WARC介紹

WARC記錄有多種類型,包括warcinfo、response、resource、request、metadata、revisit、conversion、continuation 八種,用于記錄采集軟體收割網頁時的所有資訊,包括通路請求、中繼資料等,盡可能完整地儲存網絡資源,而不僅僅是網頁内容。

1. 管理資訊

對應“warcinfo”類型,是WARC文檔中必備的類型,WARC文檔中第一個WARC記錄類型必須是“warcinfo”類型。其中儲存了該WARC檔案的相關技術資訊,所記錄的資訊包括生成時間、伺服器IP、軟體資訊、主機資訊、WARC格式、代理資訊、操作者等。

2. 環境資訊

這些資訊記錄了網絡資源在被采集和儲存時所處的網絡環境的情況,主要包括WARC記錄中的“request”和“response”類型。

“request”類型的記錄包含一個完整的向對方伺服器發出的請求資訊,内容包括目标URL、日期、長度、網絡協定(如HTTP、FTP等)的完整内容等。

“response”類型的記錄包含一個來自于對方伺服器的完整的響應,主要包括所請求的URL、對方伺服器的IP位址、内容摘要算法和摘要值、網絡協定内容以及所傳回的頁面内容HTML代碼等。如果所傳回的内容是以檔案形式存在,例如圖檔等,則以二進制字元流的形式傳回,儲存在下文中提到的“resource”、“continuation”等類型中。

2. 内容資訊

記錄了網絡資源的内容,包括中繼資料和網絡資源本身。這種資訊包括WARC文檔中的“metadata”、“resource”、“continuation”類型的WARC記錄,以及上文提到的“response”類型中的響應内容部分。

“metadata”記錄了對于所儲存網絡資源的進一步描述和解釋,即網絡資源的中繼資料,包括所指向的資源URN、内容摘要算法和摘要值、内容長度、采集時間、擷取時長等資訊。

“resource”類型的記錄包括資源的技術資訊和資源本身。技術資訊包括URL、采集時間、記錄ID号、内容類型以及摘要算法和摘要值、内容長度。資源本身以二進制形式儲存在文本資訊中。

“continuation”類型,用于儲存網絡中通常存在的較大的檔案,例如音視訊、高分辨率圖像等。當這類資源被采集并儲存時,有可能會超出網絡爬蟲(采集軟體)所設定的WARC檔案大小限制。這時,需要将較大的檔案分段儲存,每一段都會儲存為一個continuation類型的WARC記錄。

4. 結構資訊

記錄了WARC文檔互相之間的邏輯結構資訊,包括“revisit”和“conversion”類型的WARC文檔。

“revisit”類型是為了減少資源備援而設定的類型。當網絡爬蟲在進行網絡采集的過程中發現某些類型的資源已經進行過存檔,則會将目前所采集的資源類型設定為revisit類型。

“conversion”類型的記錄包含另一條作為存檔過程結果而建立的記錄内容的替換版本。在網絡中,某些資源的原始内容可能已經被遷移或轉換為另一種格式,conversion類型的WARC文檔記錄新的類型位址以及與原始類型的關聯關系。

04

●流程與工具●

采用WARC格式歸檔和利用網絡資源非常友善,基本的步驟就三步:收割(采集/攝入)、打包(存儲)、浏覽(通路)。

網絡資源歸檔标準WARC介紹

采集過程示意如下圖所示:

網絡資源歸檔标準WARC介紹

當然,在實際操作過程中沒有那麼簡單,每個步驟都需要借助第三方的工具軟體來完成,這就要歸功于WARC格式完善的軟體生态環境。工具軟體主要包括以下四類:

01 采集(攝入)軟體✦

目前最常用的兩種采集軟體是Heritrix和GNU Wget,面向使用者桌面的工具中常用的是WarcCreate軟體。

02 檔案處理軟體✦

指以儲存、交換等應用為目的,對WARC檔案進行處理的軟體,包括格式驗證、切割、組合、中繼資料抽取等,比如Jhove2、JWAT、Warc tools等軟體。

03 索引、檢索與通路軟體✦

這類軟體可對WARC檔案進行索引,用于檢索,并提供檢索界面,響應使用者的檢索請求,将檢索結果在浏覽器中呈現給使用者。常用的軟體包括NutchWAX、Wayback Machine、Solr和Momento等。

04 綜合管理軟體✦

內建了采集、管理、索引和釋出等流程,便于儲存機構快速開展網絡存檔活動的軟體。其中較知名的是紐西蘭和英國圖書館開發的Web Curator Tools(WCT)和荷蘭圖書館開發的NetArchiveSuite軟體。

WARC格式的工具軟體生态示意如下圖所示:

網絡資源歸檔标準WARC介紹

WARC格式的設計思路和應用情況反映了目前網絡資源長期儲存的主要研究方向,WARC格式的特點決定了它可以承擔網絡資源長期儲存的重要職責,它開放的架構可以使本身得到進一步擴充,以适應網絡技術的發展。對WARC格式進行進一步的跟蹤、研究和應用,勢必可以推進大陸網絡資源存檔和數字資源長期儲存工作的開展。

對國外數字資源長期儲存先進理論、标準、項目進行跟蹤研究是數字羅塞塔計劃研究任務的重要組成部分。數字羅塞塔計劃是由楊安榮博士聯合國内知名投資機構發起的一項利用藍光存儲、數字膠片、玻璃存儲等技術,旨在解決電子檔案乃至數字資訊長期儲存的國産化替代科技攻關工程項目,以實作“儲存社會記憶,傳承人類文明”的最終目标。

關注我們 - 數字羅塞塔計劃 -

繼續閱讀