
圖蟲創意/畫彭春霞/圖表
證券時報記者李思路
你有沒有想過:隻是和朋友聊聊理财、美容、購房、貸款等日常話題,如何接收包括搖音、騰訊新聞甚至一些視訊網站推送的與聊天内容相關的廣告?
人們從未像現在這樣對自己的隐私感到焦慮。今年的"三一五晚會"曝光了情報聯盟招募、未來無憂、獵網等因管理不善,大量履歷洩露,被出售形成黑産業。此外,記憶體優化大師、超級清理大師、手機管家Pro以清理記憶體的名義,但通過技術手段不斷擷取手機中的資訊,包括應用清單、位置資訊、聯系人等。
近日,證券時報記者深入數點資料交易數千人QQ群發現,各行各業使用者隐私資料被肆意轉運,震撼人心。群中不時有人喊出一句話,"出手了GM(股東)、WD(淨貸款)、BJ(醫保)資訊,拼得更多,淘寶,JD.com 第一手網購資料,需要資料跟我聯系......"這些資料根據行業劃分明确标明價格。甚至有系統地顯示個人資訊,聲稱能夠收集全國各地老闆的個人聯系方式。還有一些抓取資料的軟體,在網站上"抓取","嵌入"到APP中,"鏟子"下的資料。
在整個資料交易過程中,幽靈、黑客、爬行動物軟體開發商、清潔工、加工商、材料經銷商、買家等都在這裡,創造了年産值數千億的資料黑市。
應用權限請求猖獗
在2020年的Netflix紀錄片《監控資本主義:聰明的陷阱》中,畫面中出現了社交媒體背後的"三名從業人員"緊張地分析着眼前的年輕人,他在每張照片下呆了多長時間,什麼情緒會引起共鳴,什麼樣的廣告會吸引他。這三個人中的一個被稱為停留目标,它可以幫助您根據停留時間長短選擇下一個推送内容,讓您不斷滑動螢幕;一個被稱為成長目标,讓你邀請盡可能多的朋友來增加社會依賴性;其中一個稱為廣告目标,可確定您在對某件事感興趣時獲得訂單連結。
所有這些行為的背後都是所謂的算法模型,算法背後的精度是依靠大量資料作為支撐,是人類資料。
那麼這些資料從何而來呢?
擷取權限是大型和小型企業通過APP或小程式收集使用者隐私資料的第一步。當你安裝一個APP時,數萬字的使用者協定,呈現在你的大手機螢幕上,你會逐字閱讀還是快速按"同意"?"不同意"可能會使應用退出無法使用。
APP已經越界是無可争辯的事實。以美女秀為例,很難想象一個P-graph軟體能得到一個人這麼多的資訊,包括搜尋記錄、浏覽記錄,甚至月曆、地理位置等。仔細研究美圖秀秀的個人資訊保護政策發現,如果美圖秀秀的内容被分享到第三方平台,使用者的應用清單資訊也會被讀取。美圖秀還将向遊戲合作夥伴提供ID号資訊,甚至與合作夥伴共享使用者支付資訊。
本條款還規定,基于現代移動網際網路産品的互聯互通,産品可以連接配接到沙特阿美關聯公司或外部合作夥伴線上的其他産品或功能,例如使用錢包功能,這些功能可以獲得使用者的手機号碼、信用額度、還款金額、貸款成功狀态、逾期狀态、 等來自第三方。
這意味着,隻要使用者使用并授權,米圖秀秀不僅可以從自己的APP擷取使用者資訊,還可以從第三方平台擷取更詳細、更具體的使用者資訊。
"這種行為其實很普遍,國内使用者對個人資訊的保護意識可能不是很強,這給了企業很大的選擇,被行業稱為'占領坑'。現在不需要一些資料,但這并不意味着将來不需要它,獲得使用者授權後獲得的使用者資訊越多越好。一家金融科技公司的大資料風控架構師肖強說。
證券時報記者從服裝、食品、住房、旅遊、社交、娛樂、财務管理等方面擷取了25項APP相關權利的統計,發現與使用者社交圈密切相關的通訊錄權利已成為APP權限标準。此外,這些應用程式将通過特定功能讀取郵寄位址,手機存儲,照片,甚至記錄面部識别,月曆和通話記錄,移動應用程式權限請求已經傳播開來。
稍微令人欣慰的是,應用程式過度申請收集資料的權限正在收緊。
3月22日,國家網際網路資訊辦公室、工業和資訊化部、公安部、國家市場監督管理總局聯合印發《移動網際網路應用通用類型必要個人資訊範圍規定》,明确了39類常見必要個人資訊的範圍, 如地圖導航、即時通訊、網上購物等,并要求營運商不要因為不同意提供非必要的個人資訊而拒絕使用者通路應用基本功能服務。
不過,肖強告訴記者,"可能知道APP正在收集個人隐私資料,但除此之外,使用者的資料也可能隐藏在APP第三方SDK(軟體開發工具包)集合中。"
SDK收集的使用者資訊可以詳細到什麼程度?北京網際網路貸款協會資料安全專家韓宏輝表示,"SDK一旦嵌入,如果你注冊了這個APP,并且預設授權,所有的行為資料都可以被記錄下來,它會在不知不覺中抓取手機聯系人、聊天記錄、銀行賬戶密碼、短信、位址簿、位置資訊等等。"
是以,使用者授權APPS收集個人資訊,但通常不知道何時以及如何與第三方SDK共享其個人資訊。在許多有關共享的應用"隐私政策"中,最常見的是"可能與第三方共享使用者的個人資訊"。但是,很少有APP詳細說明其隐私政策中包含的所謂"第三方"。
對個人資訊安全的擔憂反映了使用者日益敏感的神經,但也反映了使用者缺乏對個人資料的知情權和主動權。SDK就像是使用者隐藏的"定時炸彈",危險不言而喻。
SDK提供商在洩露和濫用使用者資訊方面如此秘密,甚至成為披露使用者隐私的來源之一。
誰竊取了使用者隐私?
一位銷售經理告訴記者,他們有自己的特殊管道來擷取一些資料,其中最重要的是通過第三方SDK擷取資料。
"來自這個管道的資料會更準确,類似于漏鬥模式,資料會根據需求進行過濾。例如,線上信用行業的使用者資料,使用者登入XX包含,使用此APP将獲得授權,一旦獲得授權,SDK将收集使用者的所有登入痕迹。其他也使用SDK軟體開發包的消費金融公司可以共享它。"
當記者進一步詢問與哪些SDK朋友合作時,該經理以理由拒絕透露"敏感資訊"。
不容忽視的是,通過網際網路出售使用者個人資訊猖獗。近日,記者潛入數千人QQ群,發現群中不時有人大喊出售來自各行各業的市民的個人資訊。
記者作為買家聯系了一位名為"空城"的QQ賣家,并提出了第一次測試資料真實性作為理由,要求對方提供個人資訊資料。
為了證明自己的資料來源,《空城》向記者提供資料來源截圖,收集來自各大證券公司APP、廣發證券、中投證券、國泰君安等的個人資訊。
正如《空城》所說,QQ群中确實有一些人打着"内幕消息"的旗号出售資料,打開轉售資料。"内在幽靈"自我盜竊是個人資訊流入黑财産的重要管道之一。職業上可以接觸到大量的個人資訊,門檻不高,工作水準也不需要太高,洩露的來源可能來自各個層面。
2020年,公安機關打擊利用工作竊取和洩露公民個人資訊違法犯罪行為,各行業都涉案,抓獲重點行業涉案500餘人,而這隻是冰山一角。
除了"内鬼"洩密之外,還有通過各種技術手段竊取市民隐私。
在調研和訪談過程中,黑市資料交易市場非常活躍,收集的資料軟體種類繁多,其中一款叫彙融客戶APP,被譽為"網絡最大的資料采集軟體"。其銷售經理告訴記者,"我們的軟體是全自動采集的,隻要搜尋關鍵詞,就可以在各大網站中搜尋三張地圖,三個營運商來搜尋你想要的客戶資源和群組,不僅有客戶功能,我們還可以提供營銷資料、視訊搭配商品,每個功能都會對應不同的價格。"
當被記者問及哪三款地圖要合作時,銷售經理表示,主要是騰訊地圖、高德地圖和百度地圖,并被授權使用其資料接口,并發給記者與三家地圖營運商簽訂了合同協定。
對此,記者向百度、騰訊和黃金公司核實是否授權彙融客戶使用該平台的使用者資料,對方一緻表示,該公司不清楚,不會對API(資料接口)任意授權。騰訊内部人士告訴記者,這一章是假的,字型也不一樣。
為了證明該軟體的資料抓取能力,上述銷售經理表示,在第一次測試後可以幫助背景注冊。然後記者下載下傳了這個APP,發現軟體可以根據地理位置、行業、客戶類型等進行搜尋,然後導出相應的使用者資料,點選一個按鈕即可添加微信。
"因為這隻是一種體驗,是以你看不到客戶的電話号碼,這是我們公司為保護其他成員的權利所做的。我們将與一些第三方SDK合作,還将與一些大型網際網路公司合作,對接API資料接口,我們與騰訊、百度、華為、阿裡、吉銀、快遞、美國、餓了都有戰略層面的合作,資源高度整合。銷售經理說。
記者發現,彙融客戶軟體顯示的資料源主要是地圖資料、業務資料、抖動、快手、阿裡巴巴、美國、餓了、JD.com 網際網路巨頭。
針對軟體中提到的資料來源,證券時報記者對騰訊、阿裡、美國使團、JD.com 等進行了驗證,多數表示API資料接口與第三方惠融客戶分享,隻是快速手說沒有回應。阿裡公關進一步表示,該集團無法允許該公司通過API接口爬行以調用Ant使用者資訊,目前正在深入調查此事。
"能夠從這些網站抓取到使用者資料肯定是利用了一些相關技術,其實爬行動物技術并不神秘,'爬'在網頁上,'鏟'下的資料,然後進行處理和清理。這樣的軟體很多,其中大部分是在整個網絡中用來抓取客戶資訊的,沒有差別,其次是處理,以便準确分類。這也擴充了人員的職業清潔資料和标簽。專門編寫爬行動物代碼的一位強告訴記者。
黑客是竊取大量個人資訊的另一個重要來源,除了内部人員和通過技術。從以前的 JD.com 使用者密碼洩露到酒店,網站和黑客等使用者資料洩露事件,一直在對使用者資料進行曠日持久的攻防戰。
黑客通過技術闖入網站竊取市民的個人資訊并不難,少了一天多一個月,而且很少被管理者發現。在黑客圈子裡,大家都有一個默契,入侵網站後擷取權限和資訊,會互相交換資料、交換資訊,讓被盜市民的個人資訊庫越來越大,個人資訊越完整。
2020年,國家公安機關在"網網2020"專項行動中,調查黑客和新技術犯罪案件1782起,共抓獲涉案黑客2952人。事實上,更多的黑客仍然潛伏在地下。
個人資訊通過幽靈、網絡技術、黑客等管道進入資料黑市,并進入大大小小的代理"物質商家"手中。
個人資訊明确标明價格
資料經紀人,即資料中介機構,通過資料來源釋放資料購買者,在地下資料交易市場中是一個非常重要的角色。個人資料是商家以不同價格通過的黑市。物料供應商甚至會自己開發代理商,供應商的資料源級别越高,資料資訊越完整。
他告訴記者,上面提到的銷售經理是行業資料之一,隻包含個人一般資訊如電話号碼、微信、QQ号碼等,每條資訊的平均成本在4條左右,售出的單價約7~8毛,每條個人資訊賺3~4毛。"我每月銷售約40萬到50萬元,在銷售資料方面,金融、教育、醫療等行業确實,這個需求會比較大。
記者在采訪過程中與多家供應商接觸了解到,上述銷售經理不是一級供應商,一級供應商的采購成本在0.15元/件,類似于二級供應商的采購成本為0.4元/件,三級供應商的采購成本為0.7~0.8元/件,終端平均售價在1.2~1.5元/件。
這些隻不過是資料黑市交易中普通私有資料的價格。在資料黑市中,也有廠商專門從事"滲透資料"交易,所謂"滲透資料"就是所有資訊都可以抓取,除了電話号碼、微信等基本資訊外,還包含使用者的身份證号碼、出行記錄、開房記錄、通話記錄、家庭成員、工作、婚姻狀況、戶籍所在地等。
有些材質經銷商甚至在QQ群裡會直接"滲透資料"明确價格标簽,查詢個人簡單資訊15元/條,包括姓名、性别、手機号碼;
"正常市場價格隻有通話記錄,通話價格在1500元左右,開房記錄價格在2200~2500元左右,家庭成員資訊在300元左右。網名"風"的材料說。
據不完全統計,國内個人資訊洩露數量達到約55.3億。平均每個人都有4個相關的個人資訊洩露,車輛、房産、住址、職業、年齡、電話号碼、身份證資訊等頻頻流經黑市。
去年10月,國内知名資訊安全團隊"雨擊集團"釋出報告稱,在一年半的時間裡,多達8.6億條個人資訊資料被明确标明出售,個人資料基本裸存。
灰色産業鍊巨大
"我找買投機财經資訊,号碼不限,期待找到我!"一位買家在QQ群中釋出了這樣的消息,很快多家材料廠商通過私聊推薦自己手中的資料資源。
經過溝通和對比,買家告訴記者,他已經從一家供應商那裡收到了1萬條個人資訊,包括姓名、電話号碼和微信,價格為1元/條。知情人士進一步要求擷取資料的主要目的,買家表示,隻是為了推廣金融産品。
全面的多方訪談,個人資訊的購買是促進廣告、銷售假發票和釋出垃圾資訊以及從事網上貸款催收的最大需求。其中,房地産、理财公司、保險公司、母嬰,以及保健品行業、教育教育訓練機構是個人資訊的核心群體。
不乏因欺詐而被盜的個人資訊。例如,保健品使用者資訊主要針對老年人,專門用于欺詐。
記者與買家接觸後發現,他們大多知道銷售資料交易屬于黑生産,但還是做出這一舉動,一個重要原因就是通過正規管道的廣告,比如百度競價排名,客戶的成本在60到80元左右,而通過地下黑市購買使用者資料, 成本可以大大降低。
從資訊采集到資訊銷售再到資訊利用,每一個交易環節都互相關聯,由此産生的"灰色産業鍊"是不可估量的。據獵網報道,我國目前網絡黑産業有40多萬人,依托其網絡詐騙産業至少160萬人,"年産值"超過1000億元。
資料合規易痛點
關于個人資訊龐大的地下市場規模,沒有準确的統計資料。但從公安機關的專項打擊中,可以看到一瞥。
2020年,國家公安機關将進一步推進"網網2020"專項行動,共處理網絡犯罪案件5.6萬起,抓獲犯罪嫌疑人8萬餘人。其中,對侵犯公民個人資訊案件6524起,逮捕犯罪嫌疑人13000人。
但很明顯,這并不是整個黑市。"目前通過正規管道進行的資料交易并不多,更多的資料可能還在黑市上交易,"貴陽大資料交易所業務經理陳告訴記者。
貴陽大資料交易所是國内首家大資料交易所,于2015年4月正式上市,喊出了未來3~5年日交易量超過100億元的口号。現在,交易所已經成立6年了,陳經理告訴記者,目前交易所的日成交量遠未達到當時設定的目标。
大資料服務商巨信CEO羅偉和陳經理也提到,資料交易過程中産生的确認權、資料回溯、安全性、合法性、隐私保護等在交易過程中,至今尚未得到很好的解決。特别是,在實踐中,對于資料收集、處理、采用、交易等資料權,可能存在多個參與者以及在什麼情況下哪些類型的參與者可以通路資料,則在實踐中沒有達成共識。
目前可見的紅線是來源是否合法,以及交易資料是否脫敏(涉及敏感資訊的非個性化和隐私化)。然而,問題在于,在資料流期間,實際上很難檢測到與非法來源和未敏感資料混合的資料。
此外,資料開放程度還遠遠不夠,導緻市場合法流通的資料品類和數量有限的玩家難以施展拳頭。
像騰訊、阿裡這樣的網際網路巨頭,擁有海量資料,也可以自己實作大資料雲計算的關閉,它們希望以比單純買賣資料更有價值的包裝銷售資料産品和服務,規避法律風險。這些玩家不太願意共享資料,從騰訊,阿裡和貴陽大資料交易所可以看出,自合同到期以來,它們一直沒有續約。
但從技術角度來看,已經有一種技術可以實作 B2B 之間的資料合規易。大資料服務提供商星雲俱樂部首席技術官張俊學告訴記者,該公司已經采用了一套"聯邦學習"算法。簡單了解,就是根據雙方現有的資料共同建立一個坐标系,這個坐标系稱為模組化,模組化完成後,可以更準确地判斷客戶是在坐标系中是安全點還是危險點。但是,在模組化過程中,雙方并不了解對方的使用者資料,不用擔心使用者隐私被複制和洩露。
據張俊學介紹,聯邦學習算法目前隻解決了B2B資料合規交易,主要用于銀行和金融機構之間的資料交易,成本高,尚未大規模使用。
大成律師事務所律師肖偉告訴記者,目前中國個人資訊的合規使用更依賴于公司的自我限制,各大營運商對于使用者隐私已經履行了保護責任,如何在公共隐私保護和商業模式上找到平衡點,在保護個人權益的前提下進行規範化, 安全有序地使用個人資料,大資料紅利的釋放值得研究。