天天看點

炒爬蟲違法真的看不下去了

  這一陣看到一直有人在提爬蟲違法的事情,先把一些似是而非/模棱兩可的新聞和真假不明的對話一一列舉,後把違法事情描述成是因為寫了爬蟲導緻的,然後把鍋甩給爬蟲,這是嚴重誤導人啊。

  文章中所舉新聞是某履歷大資料公司非法擷取/售賣個人履歷的事情。這個違法事情跟是不是用爬蟲抓的履歷沒有因果關系。你找幾個人每天靠人肉去網上收集個人資訊,售賣這些資訊也是犯法;你就算是在垃圾堆裡翻到一堆人員資訊拿去賣也是犯法的。

  因為這是侵犯公民個人資訊罪,竊取/提供/售賣/非法使用個人資訊(電話,住址,征信等等)。我們目前看到的幾則新聞都跟個人征信,個人隐私資料非法使用有關。尤其是P2P行業和為P2P行業提供征信服務等技術支援的公司,最近處在風口浪尖,他們的公民隐私資料很多都來路不正,在暗網購買,灰色管道收集,每個月給使用者發送的營銷騷擾短息消耗都是數百萬人民币。

  就像我之前說的一樣,你開發網站/APP是不違法的,但是你用網站/APP非法收集使用者資訊,或做黃賭毒/灰色地帶的網站/APP就是違法。但你确不能說開發網站就是違法,取決你做的那件事情是否違法。

  這一陣好幾家公司傳聞被抓的新聞有點多的原因,我個人認為是P2P行業最近在被嚴厲整治的原因。

  最近看到不明真相的人都不敢用爬蟲抓資料了,我也是無語了。

二手拍賣平台

爬蟲無論是幾年前火熱的大資料時代還是這兩年熱炒的人工智能都是不可或缺的。無論是做輿情/資料分析/模型訓練都需要大量資料,這些資料大多公司都需要靠外部抓取完成。

  那我們在抓取/使用資料時應該注意些什麼,以免誤入雷區呢?

  1.不要碰隐私/國防/科研相關資料。這個是大雷區。

  2.如果實在要做跟個人相關的資料研究。要注意敏感資訊脫敏,去掉個人隐私方面的。

  3.公開使用有知識産權的資料,會引起商業公司間的經濟糾紛。比如百度在百度地圖裡加上了大衆點評商店資訊,這就侵犯了點評的版權。這類問題大都是經濟糾紛或商業公司間的競争。但如果你隻是使用點評資料做研究分析,出行業分析報告/趨勢分析,這個問題就不大。

  4.花20分鐘去讀下《網絡安全法》

  簡而言之,資料的兩大雷區就是隐私資料和版權資料。

繼續閱讀