企查查是蘇州朗動網絡科技公司旗下的一款核心企業資訊查詢工具,立足于企業征信的相關資訊整合,經過深度學習、特征抽取和使用圖建構技術,為使用者提供全面、可靠、透明的資料資訊。企查查是最早一批的線上企業資訊查詢工具,早在2014年李克強總理說要開放國家工商大資料庫的時候,企查查最早抓住了這一批資料,通過網際網路技術以及通過自身的分析能力建立了大資料平台,進而為使用者提供企業資訊查詢服務。企查查終端所有企業工商資訊均實時同步更新,彙集了目前國内市場中的80個産業鍊,8000個行業,6000個市場以及8000多萬家企業資料。
通過企查查,使用者能夠實時查詢企業相關的工商登記資訊,年報,股東資訊,投資人資訊,涉訴,失信,擁有商标,知識産權,企業證書,主要人員資訊,變更記錄等資訊。企查查使用者人群囊括金融、征信、法律、行政等行業,被衆多法律界和金融界人士、求職者以及政府部門高度認可和廣泛使用。目前企查查登陸注冊使用者總數已經突破1800萬,部分産品及服務已經上架阿裡雲資料市場,很受客戶歡迎。
<b>企查查的資料分析挑戰</b>
企查查通過建構大資料平台,提供給使用者線上查詢、線上分析以及全方面的企業畫像功能,進而讓使用者友善快捷的查詢企業全方位多元度的資訊。企查查在業務快速發展過程中面臨以下挑戰:
1.資料量爆發式增長。企查查最早成立的時候采用單機的架構,使用的是sql server關系型資料庫,當時的資料量大概在一兩千萬條資料,起初sql server能夠滿足計算及查詢分析的需求。後來,随着業務的快速增長,企業資料已經達到九千萬條,并且企業的相關資料已經達到将近十億條的規模,在這個情況下,原來的關系型資料庫已經無法滿足需要,迫切需要大資料平台的支撐。
2.大并發量、大資料量查詢的快速響應能力。“在早期的時候,當使用者并發量達到每秒一千的時候,資料庫就直接癱瘓掉了。”企查查創始人兼cto陳德強回憶道。作為企業資訊查詢服務提供商,查詢能力必然是企查查的核心服務能力,是以選用高性能大資料平台的迫在眉睫。
3.“找關系”,企業與人、企業與企業之間複雜的關系分析。“企查查擁有八千多萬家企業資料,每家企業有大量的股東,高管,那麼怎麼樣通過資料分析把他們之間的關系找出來,之前企查查通過關系型資料庫去逐個逐個的搜尋,逐個逐個的寫代碼,非常複雜而且響應非常慢。” 陳德強說道。
4.資料安全不可控。企查查之前采用自建的方式搭建大資料平台,資料安全存在以下問題:依然會遇到一些資料洩露或者資料問題;使用自己的伺服器、自己的機房,也會遇到一些瓶頸,如突發事件怎麼去處理,那個機房、那個伺服器被攻擊了,安全出現問題怎麼解決等;遇到大規模并發攻擊時素手無策,“我們之前也遇到過大規模并發攻擊:在早期的時候,我們使用的伺服器不多,但是并發量在瞬間就達到了原來的50倍,那時候我們伺服器直接就癱瘓掉了,由于自己的伺服器、機房沒辦法快速擴容,我們隻有幹巴巴的在那裡等。”陳德強描述道。
5.彈性可擴充。面對偶發性的資料量及計算量激增的情況,自建方式很難快速低成本的進行按需購買及彈性擴容。
<b>企查查的技術選型思考</b>
之前,企查查使用自建機房的方式搭建大資料平台,在無錫自己的機房中購買了将近20台伺服器,然後搭建了整套的hadoop環境。當時,會遇到各種各樣的問題,包括擴容和計算能力不足等問題。資料量大的情況下企查查對計算性能的要求較高,但是之前遇到的一個複雜模型的計算分析,需要大量的時間,這種情況下如果在自己機房裡面進行擴容,需要自行購買機器,時間成本及費用非常之高,難以承受。之後,當企查查将這塊功能移到數加平台上之後,直接通過數加平台的可擴容機制,通過彈性計算很快的就把原來需要将近一個星期的計算縮短到一個小時内完成,解決了原來線下沒法完成的工作。是以,自建的機房已經是很難去滿足企查查的業務彈性需求,而阿裡雲數加平台能夠滿足這塊的需求。
另外,阿裡雲數加平台作為一站式的大資料平台,還幫助企查查解決了資料倉庫的問題,企查查的資料分散在各個不同資料庫裡面,有mysql、sql server、mongodb等,通過數加的資料彙總,将各個平台的資料全部彙總到數加的資料中心裡面,之後再通過數加的業務分析功能,将這些資料根據業務模型及業務需求進行離線計算,分析出結果存入到業務資料庫中。數加平台還引入了各種算法,包括人工智能的算法、圖形算法等,幫助企查查進行資料分析使用。這些功能如果是自行開發的方式,需要大量的人力投入,而通過數加平台能夠很快的使用提供的接口,很快就能實作這些功能,包括企業畫像功能,也是使用數加的接口實作的。
<b></b>
<b>企查查的大資料平台架構</b>
企查查基于企業征信的相關資訊整合,經過深度學習、特征抽取和使用圖建構技術,為使用者提供全面、可靠、透明的資料資訊,可通過saas服務或api的方式提供給使用者使用。企查查的大資料平台架構如下:

資料源:網際網路爬取資料、第三方合作資料。部分資料更新任務為使用者觸發。
資料抓取:通過網絡爬蟲爬取資料并進行初步的清洗并入庫,
資料存儲與處理:資料入庫後存放在mongodb、rds(mysql)中,然後資料同步到數加平台大資料計算服務maxcompute中進行離線計算和算法處理,處理結果再同步到rds(mysql)中。通過開放搜尋(open search)連接配接到rds(mysql)提供查詢搜尋服務。
資料使用:以api的方式提供資料服務。
收益
<b>1. </b>阿裡雲數加平台的分布式計算架構,不僅僅能夠存儲海量資料,還具有分析挖掘的功能,解決了企查查之前普通關系型資料庫沒法解決的一些技術問題。阿裡雲數加支援超大規模計算及存儲,最大可達eb級别,企查查可以從容應對資料量的爆發式增長。
<b>2. </b>使用阿裡雲數加平台之後,通過maxcompute進行離線計算,同時把計算結果推送到緩存資料庫,目前最大可以支撐每秒鐘五千次并發,使用者使用企查查時,隻要輸入任意一個關鍵字,在0.01秒之内就可以傳回結果,通過數加平台幫助企查查解決了查詢性能的問題。
<b>3.</b>“衆裡尋他”不再是難題,通過阿裡雲數加平台,僅需0.01秒就可以從8000萬家企業資料中計算出企業與企業之間,企業與人之間複雜的關系,數加平台幫助企查查解決了關系分析的問題。
<b>4. </b>阿裡雲數加平台的企業級資料安全控制,讓企查查“安枕無憂”。數加平台建立在安全性在業界領先的阿裡雲上,并內建了最新的阿裡雲大資料産品,這些大資料産品的性能和安全性在阿裡巴巴集團内部已經得到多年的錘煉。數加平台采用了先進的“可用不可見”的資料合作方式,并對資料所有者提供全方位的資料安全服務,資料安全體系包括:資料業務安全、資料産品安全、底層資料安全、雲平台安全、接入&網絡安全、運維管理安全。“很多資料行業創業公司,他們覺得資料就是企業的資産,是以不願意把資料放到阿裡雲上面,因為他們覺得放到阿裡雲上可能沒那麼保險,但是我覺得對于創業公司,自建機房和阿裡雲比起來,阿裡雲還是更安全。當遇到突發的安全問題,通過阿裡雲能很容易解決掉,因為阿裡雲有一整套安全體系。”陳德強說到,“遷移到阿裡雲之後,當遇到大并發量攻擊後出現流量暴漲的時候,我們很快就通過擴容伺服器把這個問題解決掉了,對于初創公司,為了應付未來的業務的快速增長,用雲平台比自己伺服器要更加的可靠,更加的有發展空間。”
<b>5. </b>阿裡雲數加平台的彈性有力的支撐了企查查業務的靈活和靈活性。數加平台最大程度減少了運維,即開即用,避免資源浪費,并且可以最經濟的對大資料資源進行調整,靈活快速的響應市場和業務需求變化。