天天看點

美國“存儲Twitter”,中國也要給博文“建檔”

4月19日,“國家圖書館網際網路資訊戰略儲存項目”在北京啟動。

美國“存儲Twitter”,中國也要給博文“建檔”

這個項目的名字有些讓人費解,國家圖書館與網際網路資訊怎麼會聯系在一起,還要戰略儲存呢?這要從圖書館的變遷說起。

圖書館存儲公共數字資源

查一下國家圖書館的百度百科就能知道是以然。

國家圖書館是世界最大、最先進的國家圖書館之一,也是亞洲最大圖書館。網際網路時代,随着資訊創造、傳播和存儲的數字化,國家圖書館與時俱進,1995年就按照數字化、網絡化建設的思路,制定了《國家圖書館網絡建設發展規劃(1997-2000)》。2001年11月,國家圖書館二期工程暨國家數字圖書館工程正式立項。截至2017年12月,館藏數字資源總量達1323.35TB,包括電子圖書、期刊、報紙、特藏專藏和視聽文獻。

美國“存儲Twitter”,中國也要給博文“建檔”

換言之,圖書館早已不是人們印象中的一個存滿紙質圖書的實體空間,而是一個以各種載體儲存人類創作資訊的地方,圖書館的本質就是資訊存儲空間。在軟體工程裡面,library也有“資訊庫”的意思,它包含建構應用所需的一切,如源代碼、資源檔案等等。我大學讀的是軟體工程,一個室友留校在圖書館工作,當初以為他放棄了本業,現在看來,我誤會他了,圖書館數字化的大趨勢下,計算機、資訊化、數字化都變得越來越重要。

網際網路公司有海量資訊存儲在自己的資料庫,就像人人家裡都有藏書一樣,但在社會中扮演書籍收藏和公共文化服務的則是圖書館,這樣再來看“國家圖書館網際網路資訊戰略儲存項目”就更容易了解。

按照官方說法:

“國家圖書館網際網路資訊戰略儲存項目”是一個旨在“建設覆寫全國的分級分布式中文網際網路資訊資源采集與儲存體系,通過與國内重點數字文化生産和儲存機構的合作,推動網際網路資訊的社會化儲存與服務,建構國家網際網路資訊資源戰略保障體系。”

翻譯一下,就是國家圖書館啟動一個項目,希望可以采集和存儲有價值的中文網際網路資訊,再将這些資訊用于社會,比如政策決策和學術研究等非商業用途。

用國家圖書館官方公布的話術來說就是:

“網際網路資訊成為人類文明和社會記憶的新載體,客觀反映着一定時期内政治、經濟、文化和社會等方面的變遷。易逝性和不可再生性,使網際網路資訊的采集和儲存尤為迫切,而随着移動網際網路和物聯網的普及,網際網路資訊的規模爆炸式增長,調動社會力量參與也成為網際網路資訊采集和儲存的趨勢。”

美國“存儲Twitter”,中國也要給博文“建檔”

現已成為阿裡副總裁的塗子沛在《大資料》一書也曾分享,美國政府運轉的底層基礎其實就是資料,“社會計算是大資料時代最大的亮點。”這本書拿到了國家圖書館文津圖書獎,想必對國家圖書館管理層也有所啟發。

國家圖書館從2003年開始嘗試對網際網路資源進行采集和儲存,2009年成立網際網路資訊儲存保護中心,對國内外政治、經濟、文化、科技等領域重要網站和重大專題資源進行采集儲存,截至2018年,全國各級公共圖書館累計采集網站23000餘個。“推進數字資源建設與儲存工作”是國家圖書館“十三五”規劃的重要工作之一。在這樣的整體規劃下,國家圖書館啟動了網際網路資訊戰略儲存項目。

首家網際網路資訊戰略儲存基地同日在新浪挂牌,由國家圖書館與新浪共建。國家圖書館相關負責人透露:

“在中國境内開展網際網路業務、并在相關領域處于領先地位的企業機構,均可申請成為網際網路資訊戰略儲存基地共建主體。共建主體需確定其提供的資訊資料完整、有效、安全,并擁有合法所有權、知識産權或已獲得相應授權。”

換言之,大多數網際網路公司都可加入這一項目,這是國家圖書館牽頭的一次社會化資料共享、存儲和應用實驗。

美國國會圖書館存儲Twitter

美國圖書館行業一直走在世界前列,一方面,圖書館曆史久、數量多、規格高,比如每個大城市都有曆史古老且富麗堂皇的公共圖書館,很多城市圖書館已成為旅遊者打卡地。另一方面,受益于發達的IT産業,圖書館擁抱數字化技術較為積極。

美國國會圖書館是美國四個官方國家圖書館之一,是美國曆史最悠久的聯邦文化機構,已經成為世界上最大的知識寶庫。2010年,它就與Twitter達成一項合作協定,後者向前者提供所有公開的推文,已被删除和屏蔽的除外,其認為,Twitter上簡短的資訊可以将“國家故事”中微小、但卻非常重要的部分反映出來。

美國“存儲Twitter”,中國也要給博文“建檔”

美國國會圖書館與Twitter的“Twitter儲存項目”通過總部位于科羅拉多州博爾德市的社交媒體聚合網站Gnip落地,Gnip發現要做好這件看似簡單的“資訊存儲”的事并不容易。

首先,資料高速膨脹。項目啟動三年後,2013年Gnip終于實作了對1700億條推文的存儲,當時已需要每天存儲使用者創造的4億條内容,這對存儲空間的消耗十分驚人。移動網際網路時代,随着越來越多人使用Twitter,每天産生的内容高速膨脹,而且短視訊等新的内容形式被不斷引入——資料大爆炸是整個網際網路面臨的問題。

其次,資料峰值問題。Gnip直言,這一項目真正的挑戰來自高峰時期對tweets 的收集,比如2011年3月日本海嘯期等事件的爆發,當時,每秒鐘産生的tweet資訊數量有好幾千。

再次,資料利用問題。碎片化的資料多且雜,要利用它們就需要大資料挖掘等技術。美國國會圖書館的想法是,先把資料存下來再說,怎麼用來不及考慮,甚至連歸類都來不及做,到現在,這些資料也僅僅是存儲下來而已。

最後,資料開放問題。既然是公共圖書館,最大價值就是對全社會開放,數字内容也不例外。在美國國會圖書館啟動“Twitter儲存項目”後,全世界研究人員都很感興趣,他們很快收到來自世界各地研究人員的約400個查詢請求,查詢的主題涉及文化、政治、醫療、經濟等諸多方面,然而資料量太大,技術實作不了——即使對2006年和2010年間産生的tweet查閱一邊也需要24個小時。

美國“存儲Twitter”,中國也要給博文“建檔”

美國國會圖書館在2013年公布的白皮書中寫到:

“讓研究人員獲得這些資料的技術水準要明顯落後于這些資料的産生和傳播的技術水準。現在技術不足,而開發這些技術的成本非常高。”

當時,美國政府開始推行财政緊縮政策,國會圖書館經費緊張,此前其在資料收集上已花費一大筆資金,沒有更多資金投入到資料的挖掘、利用和開放上。2018年,這一項目再次遇到困難,Twitter資訊爆炸式增長,伺服器不堪重負,美國國會圖書館表示将不再收集Twitter上所有公開推文,而是儲存他們認為重要的(比如特朗普的?),到現在為止,這一項目也僅限于資料存儲,依然未能實作對資料的挖掘、利用和開放,當然我們不用懷疑這樣做的價值:資料就是資産,未來終可挖掘。

不隻是美國,澳洲、法國、瑞典和荷蘭等國都在90年代啟動了國家級的網際網路資料收集政策,相對而言,中國“國家圖書館網際網路資訊戰略儲存項目”雖然來得較晚,卻有望基于當下更加成熟的技術和更加獨特的模式,實作網際網路資訊存儲、利用和開放的多赢。

國家圖書館憑什麼存儲整個網際網路?

或許是看到了美國國會圖書館與Twitter合作遇到的困難,“國家圖書館網際網路資訊戰略儲存項目”采取了截然不同的模式。

與美國國會圖書館将Twitter内容存儲到合作方的伺服器不同,“國家圖書館網際網路資訊戰略儲存項目”采取社會化、分布式和分級式的資料儲存機制,國家圖書館根據儲存規範、資料遴選機制和服務需要提供使用需求,網際網路公司負責内容存儲,這樣可以避免資料的重複存儲。

将所有網際網路資料進行二次存儲本身就不現實。網際網路内容十分多元,比如首家參與到這一項目的微網誌,覆寫的資料類型比Twitter更多樣,不隻是有短文字,還有短視訊、圖檔和文章等大雜燴内容,财報顯示,2018年12月微網誌月活已達4.62億,12月日均活躍使用者數突破2億關口,微網誌上的存量内容,截至2018年12月已有多達2000多億條博文、500多億張圖檔、4億個視訊和近5000億互動,每天博文增量超過1億,資料量巨大。如此海量資料,再轉存到單獨伺服器即不可能,亦無必要。

正是基于社會化存儲的模式,“國家圖書館網際網路資訊戰略儲存項目”不像美國國會圖書館隻與Twitter一樣“點對點”合作,而是“點對多”合作。國家圖書館牽頭,任何符合條件的網際網路公司都可申請加入其中。随着移動網際網路的普及,網際網路正時時刻刻對真實世界進行映射,不僅是微網誌的博文,快手記錄真實世界的短視訊、知乎的文章,都是寶貴的社會資訊資源,都可以成為“國家圖書館網際網路資訊戰略儲存項目”儲存的目标。

尤為重要的是,“國家圖書館網際網路資訊戰略儲存項目”不隻是單純地儲存資料,而是“儲存、利用和開放”三管旗下,國家圖書館擅長的是學術和公信力,而不是技術,是以具體的應用依然是國圖提需求,網際網路公司負責資訊處理。

美國“存儲Twitter”,中國也要給博文“建檔”

比如在與新浪的合作中,網際網路資料分析報告、政府公開資訊分析報告、社會群體的公益性資訊服務,都有可能成為這些資訊的用途。今天,AI技術特别是自然語言處理技術比前幾年已經成熟很多,擁有資訊流、搜尋等業務的微網誌和新浪在自然語言處理技術上也有深厚積累,這意味着,它們有能力對平台上的海量網際網路内容進行挖掘,滿足公共社會的非商業公益查詢需求。

從“國家圖書館網際網路資訊戰略儲存項目”的設計來看,應該是看到美國國會圖書館與Twitter的合作模式的弊端後,進行的全新機制設計。雖然這一項目沒有形式上的“儲存”,但事實上卻實作了網際網路公開資訊的“歸檔”,同時可以實作利用和開放。

跟美國國會圖書館看中Twitter“小卻重要”内容能反映社會程序的邏輯一樣,國家圖書館首先與微網誌合作也是看中其UGC社會化屬性。微網誌上每個使用者以不同形式從個體視角記錄生活、探索世界和讨論話題,形成了海量資訊,這部分資訊和其他網際網路平台的資訊是差異化的,而在國家圖書館此前對網際網路資訊的采集和保護中,這類資訊也不是重點,是從結構上豐富了國家圖書館的館藏資訊,是以具有更大的價值。

不僅如此,最近幾年已經發生過很多因為公衆在微網誌上的參與而引起關注、最後推動事件獲得解決的案例,比如2017年網友舉報有人駕駛越野車追趕藏羚羊的案件、2018年的“疫苗造假事件”等。可以說,微網誌不但是能全面反映社會發展程序的網際網路平台,而且使用者在微網誌上釋出的内容,本身就是社會發展程序的一部分。這種獨特的價值是其他平台無法取代的。

如果“國家圖書館網際網路資訊戰略儲存項目”項目能夠成功,對于很多已經和即将開展網際網路資訊儲存的國家來說,應該會成為又一個“中國式樣本”。