天天看點

5 億微網誌資料疑洩露,Python 爬蟲如何避免踩天坑?

雲栖号資訊:【 點選檢視更多行業資訊

在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

編者按:本文來自微信公衆号“CSDN”(ID:CSDNnews),作者:馬超,36氪經授權釋出。

3月19日,默安科技CTO魏興國發微網誌稱,微網誌資料洩露了不少使用者的手機号,當中涉及不少微網誌認證的明星和企業家。

亦有網友在他的微網誌評論區表示:“有超過5.38億條微網誌使用者資訊在暗網出售,其中1.72億條有賬戶基本資訊,售價0.177比特币。涉及到的賬号資訊包括使用者ID、賬号釋出的微網誌數、粉絲數、關注數、性别、地理位置等。”

目前,這條微網誌已經删除。

針對此事,微網誌方面回應稱,資料洩露屬實,目前微網誌已經及時強化安全政策,微網誌一直有提供根據通訊錄手機号查詢微網誌好友昵稱的服務,使用者授權後可以使用該服務。

但微網誌不提供使用者性别和身份證号等資訊,也沒有“根據使用者昵稱查手機号”的服務。是以這起資料洩露不涉及身份證、密碼,對微網誌服務沒有影響。

據此我們可以判斷出這次微網誌個人資訊洩漏的安全事件,其原因應該是通訊錄好友比對攻擊導緻的。很多社交App都有通過通訊錄比對好友的功能。攻擊者可以僞造本地通訊錄來獲得手機号到微網誌使用者賬号的關聯。比如通過僞造的手機号比對好友,并不斷列舉,就能關聯出所有使用者帳号到微網誌ID到手機号的關系。

本次事件糾其本質其實是利用合法API的不合理使用來套取、收集資訊的過程,簡單來講就是一個爬蟲引發的血案。

有關爬蟲的是是非非實在太多了,據筆者觀察2019年幾乎所有的大資料即爬蟲公司全部被查,包括新顔科技與魔蠍科技的CEO被查、公信寶被封、聚信立也宣布将暫停爬蟲服務、國内大資料風控平台龍頭同盾科技也被曝解散爬蟲部門。

這其中最惹人關注的事件,還是那位來自巧達科技的程式員,因為寫了一段爬蟲程式,非法從某招聘網站上下載下傳履歷資訊而被起訴,引發了全網關于程式員面向“監獄”程式設計的大讨論。

而站在筆者角度來看,有關爬蟲的争議和資訊洩漏防護需要從資料持有方和資料爬取方兩個角度來審視。

資料持有方的盾:DLP資料洩露防護系統

這次資訊洩漏事件發生後,我們可以看到微網誌第一時間就回應不涉及身份證、密碼等敏感資訊的外流,我相信這背後的底氣還是來自于微網誌對其資料洩漏防護(Data leakage prevention, DLP)的信心。

遠端辦公大背景下,先要做好内部預防:據國家計算機資訊安全測評中心資料顯示,重要資料被黑客竊取和被内部員工洩露的比例為1:99.也就是說有網際網路出口的企業,其内部重要機密通過網絡洩密而造成重大損失的事件中,隻有1%是被黑客竊取造成的,而都是由于内部員工有意或者無意之間洩露而造成的。尤其是在目前遠端辦公的背景下,這種由員工引發的資訊洩漏情況其實風險更高,企業在資料邊界建立一套安全防護體系十分重要。

員工終端出口防控:部分大廠都有一套資料沙盒運作或者加密機制,用來阻止資料由使用的用戶端流出,并且一般在DLP的整體解決方案中,還會使用圖像處理技術還會将員工螢幕圖像的頻域中加入特定指紋,以追蹤員工洩漏截屏資訊。記得在2017年阿裡腳本秒殺月餅的事件中,就有人因洩漏截圖資訊而被處理,這背後其實就是頻域指紋的技術。再有就是對内網中包括U盤、移動硬碟、紅外、WIFI、藍牙等輸出端口實施監控,對拷貝到移動儲存設備的文檔進行強制加密。

網際網路出口防控:而針對網際網路出口DLP技術幾乎和AI圖像處理與NLP技術同步發展,一般都會使用最新的分類模型,監控異常流量,防止資料外洩,這裡還是再次強調一下系統上雲的重要性。

資料爬取方之道:避免面向監獄程式設計

根據最新的流量分析,網際網路40%左右的流量都是機器人也就是爬蟲發起的,站在資料爬取方的角度,必須關注爬蟲技術的法律邊界,“技術無罪”的号往往不能保護廣大程式員。

而有關爬蟲的法律問題,筆者特意咨詢了法務同僚,根據我國的《刑法》、《網絡安全法》的規定,爬蟲可能涉及到的犯罪行為有如下情況:

1.首先侵入國家事務、國防建設、尖端科學技術領域的計算機資訊系統的,不論情節嚴重與否,構成非法侵入計算機資訊系統罪。

2.違反國家有關規定,向他人出售或者提供公民個人資訊,構成“侵犯公民個人資訊罪”。也就是說通過出售個人資訊獲利或者侵入含有國家機密的系統均會構成犯罪,但這兩種情況均不會是無心之過,但是以下規定需要格外注意。

3.違反國家規定,對計算機資訊系統功能進行删除、修改、增加、幹擾,造成計算機資訊系統不能正常運作,後果嚴重的,構成犯罪。也就是如果使用爬蟲的抓取力度過大,造成被攫取的網站無法正常運作的情況,并造成嚴重後果的也會構成犯罪。我們前文所述巧達科技的程式員也是因為爬蟲流量太大,造成目标網絡接近癱瘓,而涉嫌觸犯此條被捕。

也就是說避免面向監獄程式設計的三原則是

1. 不要觸碰國家事務、國防建設的系統

2. 不要觸碰個人資訊,更不能販賣個人資訊

3. 合理設定爬取流量,避免DDOS攻擊式的爬蟲

另外為避免其它民事糾紛,要盡量遵守Robots 協定。Robots 協定是一種存放于網站根目錄下的 ASCII 編碼的文本檔案,它通常告訴網絡搜尋引擎的漫遊器也就是爬蟲,此網站中的哪些内容是不應被爬蟲擷取的,哪些是可以被爬蟲擷取的。嚴格按照 Robots 協定 爬取網站相關資訊一般不會出現太大問題。

因為司法實踐中一般也會考慮行業的通行規範,是以一般遵守Robots 協定得到的資訊不會被認為是商業機密或者個人隐私資料。或者說遵守協定所得的資訊即使涉密其洩密責任一般也不會由爬取方承擔。

實際遭遇資訊洩漏時應該做什麼

在所有的資訊洩漏中最麻煩的就是密碼或者身份證資訊洩漏,對此筆者有如下建議:

1. 檢查自己的征信記錄:如果征信記錄中有異常,尤其是遭遇不明原因的貸款時,那麼大機率是遇到嚴重的資訊洩漏情況了。此時如果聯系不上貸款平台,可以盡早報案,以保護自己的合法權益。

2. 解除三方平台的綁定關系:一般來說銀行對于客戶銀行卡的保護力度還是比三方支付公司要大的,是以如遇資訊洩漏,可以先解除與三方支付平台的綁定關系及關閉定時自動扣款服務,必要時再更換銀行卡。

【雲栖号線上課堂】每天都有産品技術專家分享!

課程位址:

https://yqh.aliyun.com/zhibo

立即加入社群,與專家面對面,及時了解課程最新動态!

【雲栖号線上課堂 社群】

https://c.tb.cn/F3.Z8gvnK

原文釋出時間:2020-03-23

本文作者:馬超

本文來自:“

36Kr

”,了解相關資訊可以關注“

36Kr