又一家資料公司被查，爬蟲到底做錯了什麼？

9 月 6 日下午，多位業内人士稱，杭州知名大資料服務公司杭州魔蠍資料科技有限公司，疑似被相關執法人員控制，其中一位周姓核心高管人員被警方帶走。

以上是昨天技術圈傳播的一則新聞，又一家資料公司被調查，很多資料從業者、爬蟲開發者發出了“感歎” —— 「爬蟲用得好，XX進得早；資料玩得溜，XX吃個夠」。

魔蠍科技作為一家資料服務公司，曾在 2017 年一篇『爬蟲兇猛：爬支付寶、爬微信、竊取現金貸放貸資料』的文章中，被指出存在開發使用惡意爬蟲的行為。

當然關于魔蠍科技為什麼被查，這個等待執法部門的調查結果即可，咱們不在這裡無端猜測。

我今天要說的是關于爬蟲的合法性，我希望通過一些案例來探讨：怎樣做一個不觸碰紅線的爬蟲開發者。

爬蟲作為一種計算機技術，具有技術中立性，爬蟲技術在法律上從來沒有被禁止。爬蟲的發展曆史可以追溯到 20 年前，搜尋引擎、聚合導航、資料分析、人工智能等業務，都需要基于爬蟲技術。

但是爬蟲作為擷取資料的技術手段之一，由于部分資料存在敏感性，如果不能甄别哪些資料是可以爬取，哪些會觸及紅線，可能下一位上新聞的主角就是你。

如何界定爬蟲的合法性，目前沒有明文規定，但我通過翻閱大量文章、事件、分享、司法案例，我總結出界定的三個關鍵點：采集途徑、采集行為、使用目的。

通過什麼途徑爬取資料，這個是最需要重視的一點。總體來說，未公開、未經許可、且帶有敏感資訊的資料，不管是通過什麼管道獲得，都是一種不合法的行為。

是以在采集這類比較敏感的資料時，最好先查詢下相關法律法規，特别是使用者個人資訊、其他商業平台的資訊等這類資訊，尋找一條合适的途徑。

采集和分析個人資訊資料，應該是當下所有網際網路都會做的一件事，但是大部分個人資料都是非公開的，想獲得必須通過合法途徑，可參見『網絡安全法』第四十一條：

網絡營運者收集、使用個人資訊，應當遵循合法、正當、必要的原則，公開收集、使用規則，明示收集、使用資訊的目的、方式和範圍，并經被收集者同意...

也就是必須在提前告知收集的方式、範圍、目的，并經過使用者授權或同意後，才能采集使用，也就是我們常見的各種網站與 App 的使用者協定中關于資訊收集的部分。

相關反面案例：

8月20日，澎湃新聞從紹興市越城區公安分局獲悉，該局日前偵破一起特大流量劫持案，涉案的新三闆挂牌公司北京瑞智華勝科技股份有限公司，涉嫌非法竊取使用者個人資訊30億條，涉及百度、騰訊、阿裡、京東等全國96家網際網路公司産品，目前警方已從該公司及其關聯公司抓獲6名犯罪嫌疑人。

節選自澎湃新聞：『新三闆挂牌公司涉竊取30億條個人資訊，非法牟利超千萬元』[1]

從合法公開管道，并且不明顯違背個人資訊主體意願，都沒有什麼問題。但如果通過破解、侵入等“黑客”手段來擷取資料，那也有相關法律等着你：

刑法第二百八十五條第三款規定的“專門用于侵入、非法控制計算機資訊系統的程式、工具”：

雖然 Robots 協定沒有法規強制遵守，但 Robots 協定作為行業約定，在遵循之下會給你帶來合法支援。

因為 Robots 協定具有指導意義，如果注明 Disallow 就說明是平台明顯要保護的頁面資料，想爬取之前應該仔細考慮一下。

使用技術手段應該懂得克制，一些容易對伺服器和業務造成幹擾甚至破壞的行為，應當充分衡量其承受能力，畢竟不是每家都是 BAT 級。

做技術經常專注于優化，爬蟲開發也是如此，想盡各種辦法增加并發數、請求效率，但高并發帶來的近乎 DDOS 的請求，如果對對方伺服器造成壓力，影響了對方正常業務，那就應該警惕了。

如果一旦導緻嚴重後果，後果參見：

《刑法》第二百八十六條還規定，違反國家規定，對計算機資訊系統功能進行删除、修改、增加、幹擾，造成計算機資訊系統不能正常運作，後果嚴重的，構成犯罪

是以請爬取的時候，即使沒有反爬限制，也不要肆無忌憚地開啟高并發，掂量一下對方伺服器的實力。

除了高并發請求，還有一些影響業務的情況，常見的比如搶單，會影響正常使用者的體驗。

資料使用目的同樣是一大關鍵，就算你通過合法途徑采集的資料，如果對資料沒有正确的使用，同樣會存在不合法的行為。

一種情況是公開收集的資料，但沒有遵循之前告知的使用目的，比如使用者協定上說隻是分析使用者行為，幫助提高産品體驗，結果變成了出售使用者畫像資料。

還有一種情況，是有知識産權、著作權的作品，可能會允許你下載下傳或引用，但明顯标注了使用範圍，比如不能轉載、不能用于商業行為等，更不能去盜用，這些都是有法律明文保護，是以要注意使用。

其他情況就不列舉了。

關于出售個人資訊，千萬不要做，是法律特别指出禁止的，參見：

根據《最高人民法院最高人民檢察院關于辦理侵犯公民個人資訊刑事案件适用法律若幹問題的解釋》第五條規定，對“情節嚴重”的解釋：

如果将競品公司的資料，作為自己公司的商業目的，這就可能存在構成不正當商業競争，或者是違反知識産權保護。

這種情況在目前涉及爬蟲的商業訴訟案中比較常見，兩年前比較知名的案件，“車來了” App 抓取其競品 “酷米客” 的公共汽車資料，并展示在自己的産品上：

雖然公共汽車作為公共交通工具，其實時運作路線、運作時間等資訊僅系客觀事實，但當此類資訊經過人工收集、分析、編輯、整合并配合GPS精确定位，作為公交資訊查詢軟體的背景資料後，此類資訊便具有了實用性并能夠為權利人帶來現實或潛在、當下或将來的經濟利益，已經具備無形财産的屬性。元光公司利用網絡爬蟲技術大量擷取并且無償使用谷米公司“酷米客”軟體的實時公交資訊資料的行為，實為一種“不勞而獲”、“食人而肥”的行為，構成不正當競争。

節選自『深圳市中級人民法院（2017）粵03民初822号民事判決書』

好消息是，相關辦法已經在路上了。

5 月 28 日零點，國家網際網路資訊辦公室釋出了《資料安全管理辦法》征求意見稿。

我也查閱了這份意見稿，裡面對資料的擷取、存儲、傳輸、使用等都做了一些規定，包括關于爬蟲行為的若幹規定（還在征求階段，是以後續可能會有變化）。

比如，第二章第十六條：

網絡營運者采取自動化手段通路收集網站資料，不得妨礙網站正常運作；此類行為嚴重影響網站運作，如自動化通路收集流量超過網站日均流量三分之一，網站要求停止自動化通路收集時，應當停止。

第三章第二十七條：

網絡營運者向他人提供個人資訊前，應當評估可能帶來的安全風險，并征得個人資訊主體同意。下列情況除外：

節選自『資料安全管理辦法（征求意見稿）』[2]

在此聲明：以上所有内容僅是個人分析，可能存在錯誤之處，不能作為任何依據，具體以相關法律法規為準。

希望能給各位爬蟲開發者，也包括其他開發者一些啟示：技術雖中立，使用有善惡，一定要合理合規、嚴格謹慎地使用技術。

又一家資料公司被查，爬蟲到底做錯了什麼？

繼續閱讀

v2ex的簡單爬蟲

Python漫畫爬蟲開源 66漫畫 AJAX，包含資料庫連接配接，圖檔下載下傳處理

requests子產品進行人人網模拟登陸

Python image.show() 出錯FSPathMakeRef(/Applications/Preview.app) failed with error -43

2023爬蟲學習筆記 -- 多線程操作

M團店鋪評價采集不到問題問題展示：解決方案：

Python爬蟲學習（1）

Python爬蟲學習進階

Python爬蟲（入門+進階）學習筆記 1-2 初識Python爬蟲

Python進階爬蟲——Class1：認識爬蟲

python爬蟲學習筆記-1

python學習之urllib使用小結

NOIp模拟題之肮髒的牧師（桶排序）

一篇文章教你如何在一個月内學會爬取大規模資料

Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述和資料清洗Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述和資料清洗

sort()函數到底是怎樣進行數字排序的