本節書摘來自華章出版社《企業大資料系統建構實戰:技術、架構、實施與應用》一 書中的第3章,第3.1節,作者:呂兆星 鄭傳峰 宋天龍 楊曉鵬,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。
工欲善其事必先利其器,企業大資料解決方案既包括大資料産品和工具層面,又包括服務層面。企業大資料解決方案根據實作方式的不同可分為完全獨立研發、直接購買第三方解決方案和借助第三方的力量進行聯合開發三種。
獨立研發指的是企業内部通過組建大資料中心或部門,獨立進行大資料項目的研發。企業獨立研發大資料平台,在資料安全、技術可控、後期擴充等方面具有重要意義。
資料安全:獨立研發過程中的所有資料從輸入端到輸出端的整個流通都在企業内部進行,資料不會因為平台的開發以及外部人員的介入而産生資料安全性問題。
技術可控:大資料平台的所有技術、元件、功能、代碼等均由企業完全控制,這對于後期架構重構、代碼優化、接口擴充、系統解耦等非常重要。
後期擴充:獨立研發的大資料方案在應對業務需求更變、資料源增加、資料環境異構、系統部署更新、硬體平行擴充等運維過程中,會表現出更好的适應性、靈活性和擴充性。
但是,這種方式并不适合所有企業,它對企業來講具有以下幾個方面的要求和限制:
技術要求:要進行完全的獨立開發,對于大資料解決方案的所有環節,例如架構、運維、開發、部署等具有非常高的技術要求。
解決問題的能力:在大資料解決方案的開發和落地過程中,會面臨各種挑戰與問題。有些問題來自于客觀運作環境,也有些來自于技術能力和業務對接過程中。這就要求大資料項目的策劃者和推動者具有較高的分析問題、解決問題的能力。
時間投入:大資料技術的開發往往需要一定的人力和時間投入作為保障。與此同時,外部市場環境的瞬息萬變導緻大資料項目的價值需求也會與這種時間限定之間産生沖突,是以企業也需要有效協調二者的關系。
資源精力:由于大資料解決方案是服務于企業所有體系和部門的,是以在實踐過程中需要投入很大的資源和精力進行資源協調和利益平衡等;再加上企業初次實施大資料項目時的經驗有限,是以在處理這些問題時需要投入的資源更多。
行業專家:大資料解決方案不是純技術性的工作,而是結合了技術、資料和業務的全視角方案,這就在客觀上要求企業内部需要有一批了解技術、資料和業務的複合型專家以及各個細分領域的資深帶頭人,這樣才能保證方案落地的可靠性、有效性和價值性。
綜上,獨立自主研發的方式更适合具有下列特點的企業:企業内部有一批專家、具有非常強的解決問題的能力、較強的技術實力、充足的資源保障、對大資料沒有較強的時間緊迫性要求。除此以外,企業對于資料安全、技術可控、後期運維方面的需求較為明顯。
由于國外市場的開發性、企業營運的成熟性以及法律法規保障的完善性,很多國外的大型企業尤其是上市公司通常更願意直接購買成熟的大資料解決方案。直接購買第三方成熟的解決方案具有如下優勢:
标準解決方案:利于在内部各個辦事處、子公司、子體系内的推廣應用,整個部署、管理和應用都是相對标準化、流程化、規範化的,符合現代企業營運的要求。
彈性付費方式:第三方解決方案尤其是雲服務都允許客戶根據自身需求進行資源的彈性配置,然後再做彈性付費,這是一種非常靈活的付費方式。
動态資源配置:對于企業大多數需求的變更,都可以通過靈活的資源設定來比對,這是一種簡易且高效的資源配置與供需比對方式。
行業經驗積累:很多第三方解決方案都會根據行業做聚焦和細分,并推出行業性的垂直解決方案,提供比較成熟的環境配套、元件搭配、架構優化和應用模型等,這對于企業快速将大資料進行成果轉化具有極其重要的指導意義。從一定程度上看,不同的大資料技術方案在技術本身差異不大的前提下,成熟的行業應用和價值落地模型則是企業大資料價值差異化的關鍵。
自動化運維服務:基于雲平台的解決方案,服務供應商将提供自動化運維管理能力,這将大幅度降低企業日後的運維成本。
可靠的防護體系:安全一直都是it關心的焦點之一,雲平台的解決方案服務提供商都會提供全面的安全解決方案,并通過全方位縱深防禦體系來保障雲服務的安全,企業無需為安全擔憂。
第三方解決方案在提供了一定的安全性、便利性、可靠性的同時,也會帶來一定的不足:
無法提供定制化服務:即使能進行彈性配置,前提也是标準化的元件或服務,其中都是将行業内的通用應用規則進行固化,是以無法根據不同企業的需求進行定制開發,這在客觀上會限制企業内部個性化需求的實作。
關鍵技術的不可見:第三方解決方案都會對關鍵技術、元件等進行封裝或加密處理,使得其中的關鍵技術不可見,這将不利于企業的技術積累和創新。
雲服務的可靠性:大多數的雲服務在正常情況下都會提供相對穩定的可靠性,但在某些極端條件下,雲服務的可靠性會面臨巨大考驗。比如,在雙11這樣的大型活動中,某雲服務商會調用所有可用資源來保障其自身的可靠性,進而會對其他客戶對雲平台服務的可靠性造成威脅。
很難進行二次開發:第三方解決方案由于對關鍵技術的封裝将嚴重限制企業根據自身需求進行二次開發,即使提供了一定的api或rest服務,也隻能在既有功能下進行二次調用。
雲資料的安全性:基于雲端的大資料解決方案應用的前提是将資料放到雲端(通常是第三方服務平台),這對于企業意味着資料存在安全隐患和洩露風險。對很多大型企業來講資料即企業機密,尤其是有關企業核心競争力的資料将不被允許在企業外部流通。
綜上,直接采用第三方解決方案更适合希望借助第三方的平台快速進入大資料工作狀态,借助其成熟經驗将大資料的價值迅速落地,并在後期運維過程中不想投入太多的企業;但對于技術完全可控、二次開發需求大、資料安全要求高的企業将不适用。
第三方大資料方案服務商非常多,甚至可以說有一個大資料生态圈。在這個生态圈中既有能夠實作端到端的完整鍊條的整合解決方案,也有側重于資料采集、資料預處理、資料存儲、資料挖掘分析、資料可視化等環節的垂直型方案。國内的服務提供商包括阿裡巴巴、百度、騰訊、華為等,國際大資料巨頭包括amazon、oracle、sap、dell、teradata、emc、opower、splunk、intel、google、microsoft、ibm、hp等。
以阿裡巴巴為例,阿裡巴巴提供的阿裡雲是中國最成熟也是應用最為廣泛的大資料解決方案之一。阿裡雲不僅提供大資料方案的服務,更提供了包括雲計算、安全、域名與網站等不同服務。在大資料領域,阿裡巴巴提供的服務叫做“大資料(數加)”,其中包括資料應用、資料分析展現、人工智能、大資料基礎服務四類。如圖3-1所示為阿裡雲大資料解決方案内容。

1.?資料應用
推薦引擎
推薦引擎(recommendation engine, receng,)是在阿裡雲計算環境下建立的一套推薦服務架構,目标是讓廣大中小網際網路企業能夠在這套架構上快速地搭建滿足自身業務需求的推薦服務。
它基于阿裡雲的一體化部署(saas),為推薦業務定義了一整套規範,同時提供了預設算法模闆以及自定義功能;支援接入實時日志,以及實時修正api;通過多種測試手段和監控方式為業務決策提供參考。如圖3-2所示是阿裡雲的推薦引擎配置界面。
公衆趨勢分析
公衆趨勢分析是基于全網公開釋出資料,結合媒體傳播路徑和閱聽人群體畫像,利用語義分析、情感算法和機器學習等大資料技術,識别公衆對品牌形象、熱點事件和公共政策的認知趨勢。
它全面覆寫全網公開的資料(千萬源站,每日更新20億網頁),能最快2分鐘級别獲得資料;通過機器學習、自然語言、文本處理的協同處理等提供精準有效的結果,結合分級告警、智能分析、協同處理和深度內建等為客戶提供豐富的服務。如圖3-3所示為阿裡雲公衆趨勢分析報表。
資料內建
資料內建(data integration)是阿裡巴巴對外提供的穩定高效、彈性伸縮的資料內建平台,為阿裡雲大資料計算引擎(包括maxcompute、analyticdb、oss)提供離線的批量資料進出的通道。有别于傳統的用戶端點對點同步運作工具,資料內建本身以公有雲服務為基本設計目标,叢集化、服務化、多租戶、水準擴充等功能都是其基本實作要求。阿裡巴巴自己的采雲間、禦膳房、聚石塔、孔明燈的背景資料同步均是基于資料內建完成各自的資料傳輸需求。
目前,資料內建支援的資料通道包括:關系型資料庫、nosql資料存儲、資料倉庫、結構化存儲以及文本,通過離線資料同步的模式以讀取snapshot的方式從源端傳輸到目的端。但目前隻支援結構化(或可以轉換為結構化)的資料,不支援多個地域之間資料同步,本身不提供資料流的消費方式,即使用者不能直接通過資料內建的api消費資料流。如圖3-4所示為阿裡雲資料內建的配置界面。
移動資料分析
移動資料分析(mobile analytics)是阿裡雲推出的一款移動app資料統計分析産品,提供通用的多元度使用者行為分析,支援日志自主分析,助力移動開發者實作基于大資料技術的精細化營運、提升産品品質和體驗、增強使用者黏性。
移動分析能采集使用者行為和應用性能資料,通過秒級的實時計算,為客戶提供豐富的次元統計報表。同時,它還能通過與移動加速、移動推送、移動域名解析等合力為移動開發者提供更完善的移動服務。如圖3-5所示為阿裡雲移動資料分析報告界面。
阿裡巴巴還有另外一套移動資料分析産品——友盟,目前友盟已經跟締元信網絡資料、cnzz三家公司合并并統一更名【友盟+】,提供包括針對網站和app的統計分析服務,針對遊戲、廣告和線下分析的行業資料解決方案、自助智能分析,針對微社群、分享和推送的營運工具全域營運指數和營運報告。
資料市場相關api及應用
阿裡雲允許自身以及第三方企業通過api的形式提供大資料應用服務,它的定位是軟體交易及傳遞平台,作為2016年阿裡雲的戰略發展點,承接着中國雲生态各個鍊條産品的落地。目前,入駐雲市場的優秀isv遍布國内外,提供圍繞雲計算産品的軟體應用及服務,包括但不限于基礎軟體、服務市場、行業軟體、企業應用、建站市場等。如圖3-6所示為阿裡雲資料市場相關api及應用界面。
2.?資料分析展現
datav資料可視化
datav是一個可視化産品元件。相比于傳統圖表與資料儀表盤,其可視化緻力于用更生動、友好的形式,即時呈現隐藏在瞬息萬變且龐雜資料背後的業務洞察。datav提供指揮中心、地理分析、實時監控、彙報展示等多種場景模版來幫助客戶解決設計難題,并通過多種圖表、資料源接入、圖形化操作方式滿足開發和設計需要,最終在終端适配多分辨率與釋出方式,滿足不同場合下的使用。如圖3-7所示為阿裡雲datav資料可視化界面。
quickbi
quickbi是一個大資料商業智能套件,提供海量資料實時線上分析、拖拽式操作、豐富的可視化效果,幫助客戶更快地完成資料分析、業務資料探查。該産品更多地側重于通過快速的資料整合、分析和可視化的方式提供簡易可操作的資料分析服務。
quickbi内置柱狀圖、線圖、餅圖、雷達圖、散點圖等20多種可視化圖表,可通過類似于excel的操作方式進行多元資料分析;整個分析過程都是實時的,支援rds、maxcompute(原odps)、analyticdb等多種雲資料源;通過智能加速引擎針對海量資料提供秒級響應。如圖3-8所示為阿裡雲quickbi開始界面。
畫像分析
畫像分析所适用的場景主要是結合阿裡雲分析型資料庫(analytics database),将分布在多個存儲資源的資料整合起來,在标簽模型上建構大資料畫像類的互動式分析應用,讓業務人員可以自由靈活地分析這些對象各種屬性與行為之間的關聯性。它可以廣泛應用于工業裝置畫像分析、企業經營畫像分析、使用者行為畫像分析等多個場景。
大資料畫像類分析基于行為等明細資料産生,通過從半結構化資料中抽取特征并結合預測、評分、文本特征提取等算法技術來進一步挖掘有效使用者特征。在互動式分析過程中根據不斷調整的篩選條件、次元組合、下鑽、上卷能夠快速傳回結果,直到擷取到足夠多的資訊。如圖3-9所示為阿裡雲畫像分析。
郡縣圖治
“郡縣治,天下安”,區域發展亟需響應“網際網路”行動計劃,靈活應對經濟新常态。“郡縣圖治”能夠提供直覺的資料可視化技術,整合政府統計資料和網際網路資料源,動态反映目前區域經濟的發展态勢,集中呈現當地基礎産業、特色産業、内需消費特征等各類關鍵名額,民生經濟一覽無餘,為宏觀決策提供分析依據和輔助支撐。“郡縣圖治”基于雲計算環境部署,具備多種可配置參數,由阿裡雲實時推送網際網路資料分析的結果,并提供全鍊路維護和自動化更新服務。如圖3-10所示為阿裡“雲郡縣圖治”報告。
3.?人工智能
機器學習
阿裡雲機器學習平台是建構在阿裡雲maxcompute計算平台之上,集資料處理、模組化、離線預測、線上預測為一體的機器學習平台。該平台為算法開發者提供了豐富的mpi、ps、bsp等程式設計架構和資料存取接口,同時為算法使用者提供了基于web的ide可視化實驗搭建控制台。
它是一站式的算法與智能應用的開發、釋出與分享的平台,所有工作都在一個平台上完成,減少了多平台轉換、遷移、內建等繁瑣問題;支援處理億萬級大規模資料,适用于絕大多數企業資料規模;基于工作流的思路,通過簡單的拖拽即可完成資料挖掘、資料分析等功能。如圖3-11所示為阿裡雲機器學習平台工作流操作界面。
智能語音互動
智能語音互動(intelligent speech interaction),是基于語音和自然語言技術建構的線上服務,通過提供語音識别(asr)、語音合成(tts)、自然語言了解(nlu)為智能手機、智能電視以及物聯網等産品提供“能聽、會說、懂你”式的智能人機互動體驗。
智能語音互動提供的三類服務:
語音識别(asr):它可以将語音轉換成文字,支援多軌wav格式的長語音檔案識别、8k a-law wav、16k a-law wav、8k 16bit pcm、16k 16bit pcm的格式,但目前語音隻能識别國語。
語音合成(tts):它提供的是将文字轉換為聲音的能力。
自然語言了解(nlu):集語義解析、智能問答、意圖識别等功能于一體,讓應用具備了解能力。
印刷文字識别
印刷文字識别是ocr(optical character recognition,光學字元識别)的具體應用,它提供了包含多種場景下的文字識别,其中包括身份證證件識别、駕駛證識别、行駛證識别、營業執照識别、門店招牌識别、英文識别。
人臉識别
人臉服務是一款用于提供圖像和視訊幀中人臉分析的線上服務,通過提供人臉檢測、人臉特征提取、人臉年齡估計和性别識别、人臉關鍵點定位等,可應用于人臉美化、人臉識别和認證、大規模人臉檢索、照片管理等各種場景。
通用圖像識别
通用圖像分析服務是一款用于提供圖像内容分析和了解的線上服務産品。“通用”一詞是指,在該服務中提供的算法api子產品可以應用于各種圖像領域,沒有具體業務場景、垂直領域等場景限制。該服務旨在提供一些通用的圖像分析和了解算法api子產品,開發者和企業可以通過這些子產品組合,結合自身領域特點,獨立開發圖像分離和了解系統,滿足自身特定需求。
電商圖像分析
電商圖像分析服務是一款用于提供電商平台環境下的圖像分析的線上服務産品。該産品提供若幹圖像分析和了解技術的線上api服務給開發者和企業使用,其中包括牛皮癬圖像識别、圖像背景分析、炒信圖像識别等獨立服務子產品。這些獨立技術子產品可應用于電商平台下的商品主圖、副圖等品質判斷、選品投放過濾、搜尋和推薦等業務場景。
機器翻譯
機器翻譯(machine translation)通過阿裡巴巴的海量電商資料,結合機器學習、自然語言處理技術,實作多語言語種識别與自動翻譯功能,為跨境電商資訊本地化與跨語言溝通提供精準、快捷、可靠的線上翻譯服務。
4.?大資料基礎服務
大資料開發套件
大資料開發套件(data ide)是阿裡巴巴集團推出的大資料領域平台級産品,它提供了一站式大資料開發、管理、分析、挖掘、共享、交換等端到端的解決方案,其利用maxcompute(原名odps)在幾分鐘内可将原始資料轉變為業務洞察的海量資料處理能力,整個過程都是通過對可視化元件的拖拽來實作。如圖3-12所示為阿裡雲大資料開發套件配置界面。
大資料計算服務
大資料計算服務(maxcompute,原名odps)是一種快速、完全托管的tb/pb級資料倉庫解決方案。maxcompute主要服務于批量結構化資料的存儲和計算,可以提供海量資料倉庫的解決方案以及針對大資料的分析模組化服務。maxcompute已經在阿裡巴巴集團内部得到大規模應用,例如:大型網際網路企業的資料倉庫和bi分析、網站的日志分析、電子商務網站的交易分析、使用者特征和興趣挖掘等。如圖3-13所示為大資料計算服務界面。
分析型資料庫
阿裡雲分析型資料庫(原名:分析資料庫服務ads),則是一套rt-olap (realtime olap,
實時olap)系統。在資料存儲模型上,采用自由靈活的關系模型存儲,可以使用sql進行自由靈活的計算分析,無需預先模組化,而利用雲計算技術,分析型資料庫可以在處理百億條甚至更多量級的資料上達到甚至超越molap類系統的處理性能,實作百億資料毫秒級計算。如圖3-14所示為阿裡雲分析型資料庫使用界面。
批量計算
批量計算(batchcompute)是一種适用于大規模并行批處理作業的分布式雲服務。batch
compute可支援海量作業并發規模,系統自動完成資源管理、作業排程和資料加載,并按實際使用量計費。如圖3-15所示為阿裡雲批量計算作業配置。
聯合開發是一種介于上述兩種解決方案的折中方式,它是企業與第三方服務商一起進行大資料解決方案開發的方式。這種方式能融合二者的優點,并對缺點進行有效補足:
技術可控性強。聯合開發過程中所有的源代碼都是對企業開放的,有利于企業自身技術積累和技術創新;另外,基于對産品的完全可控性,企業也可以借此申請技術和産品專利,這對于增強企業核心競争力、增加行業進入壁壘、提高市場覆寫規模、提高企業技術高度具有非常高的戰略價值。
資料安全性高。聯合開發都是完全在企業内部封閉進行的,這将有效保障企業資料安全。
開發周期較短。借助于第三方服務商的成熟經驗,可以在架構設計、代碼開發、測試上線、後期運維中提供非常多的寶貴經驗,甚至很多大型第三方服務商還提供了可供二次開發的“半成品”類的大資料産品、元件和服務,這些都能夠極大地縮短開發周期。
二次開發靈活。正是由于所有的代碼完全由企業掌控,企業在後期二次開發、更新和個性化定制過程中具有了完全自主性。
價值落地較快。第三方服務商可提供成熟的價值落地場景和資料應用模型,并且可以根據企業資料規劃和需求提供更新、更個性化的價值落地應用,極大地促進了大資料價值落地。
綜上,聯合開發方式更适合那些想要對資料、技術完全可控,并且将大資料戰略作為重要發展戰略和核心競争力的企業,這些企業通常内部已經具有一定的技術實力、較多的行業專家、相對明确的資料規劃和預期。