這家資料公司為什麼能成為數百萬企業的選擇？

今年年初，oracle釋出了一份大資料變化趨勢報告，報告中指出，越來越多的企業将使用者分析甚至是企業應用同大資料加以結合。從ai支援型應用到megabox等資料流用戶端，各家企業都将迎來自己的大資料轉型及下一代資料驅動型應用。oracle亞太客戶體驗政策及轉型部門總監krisi mansfield也表示：“預見并了解了客戶的意向，并相應地采取行動之後，就可實作個人化（individualization）”

目前，國内一批大資料企業都開始緻力于此項技術的研究和探索——即圍繞使用者的使用過程來打造一對一的體驗。從已掌握的、能展現使用者在某個特定過程的資料入手，厘清這些資料将在接下來的哪些互動環節提供支援與幫助，進而據此制定具體的互動體驗。是以，這一過程也将改變企業開展業務的方式——從反應式到主動式和預測式。

　　大資料在量級、實時性、多樣性三項次元上的程序

圖檔來源：https://www.salesforce.com/hub/analytics/how-to-use-big-data-analytics-tools/

但總的來說，該項大資料應用還面臨着許多較大的技術難題。随着資料管道來源的多樣化、量級的巨幅提升和對實時性效果的需求增強，各家大資料公司該如何規劃技術演進的具體細節、技術架構又該如何設計和搭建……帶着這些問題，我們采訪了第三方全域大資料服務提供商【友盟+】coo葉謙，他也以【友盟+】的發展和技術演進為例，分享了合并後統一技術架構的一些經驗，闡述了當下大資料行業的痛點、難點和未來大資料的發展趨勢。

　　【友盟+】coo 葉謙

　　1為什麼叫“全域資料”？

“全域資料”是否意味着“線上”、“線下”資料概念的模糊化？從pc端到移動端，從線上資料到線下資料，資料在不斷擴張的管道中逐漸變得分散，隻有把這些資料有效打通，才能讓大資料發揮其價值。

在葉謙看來，大資料時代，大家越來越多的發現a場景下的一些資料，在b場景也非常有用，是以資料的範圍在延伸，意味着企業也要将探尋資料的觸角進行拓展。這是全域大資料的基礎。但大部分時候，某一家企業或某一個組織，隻擁有一部分或一方面資料，是以又很難把多個方面的資料收集、串聯起來。

于是，如何多管道收集資料、如何實作跨屏資料打通、如何解析更多形式的非結構化資料等問題，正使全域資料面臨着許多不言而喻的挑戰。

移動網際網路剛在國内興起之時，企業對資料的認知或需求還處于初級階段，大多數隻關心諸如留存、日活、新增量這類資料，一些規模較大的企業可能會附加更多元度的分析需求，比如對“各個管道所帶來的量是多少”、“日活人群都是哪些類型”等不同程度的使用者細分需求。發展到今天，企業在任何一個使用者分區的次元上都希望擷取針對其使用者的、更細粒度的資料分析，如年齡、喜好、通路頻度、地理位置等一系列使用者屬性。是以，【友盟+】現在的趨勢也在由資料統計、資料分析逐漸拓展到資料智能分析和資料深度挖掘。

那它基于一套怎樣的模型實作？這裡我們以u-dip（【友盟+】資料智能平台）的運作原理來舉例。

（點選檢視大圖）

目前，【友盟+】的資料源主要來源于pc端、移動端、線下資料這三支管道，而每一支管道采集的資料種類又不完全一樣。比如pc端資料會更多的聚集于頁面跳轉、浏覽時長、浏覽器資訊等，移動端資料包括使用app應用的各類資訊，而線下資料更集中在地理位置、移動路線等。這些資料會作為原始日志進入存儲平台中。第二步就是通過預定義的規則抽取資料中的特征資訊，這些特征資訊都和裝置（或人群）相關，并能通過一個大id關聯庫進行打通。

另一方面，【友盟+】從各類資訊中（網站資訊，社交網絡資訊，應用市場資訊等）建構關于app和網站的知識庫。這些資訊在第三步“深度加工”時，被輸入到機器學習算法模型中，得到各種類型的人口學标簽和興趣标簽。這個過程中，海量資料還可被利用，進行裝置品質和使用者真實性的識别工作，例如判斷哪些裝置是風險裝置（非正常使用者使用的裝置，可能是作弊裝置或者是虛拟機）。

北京大學新媒體研究院教授劉德寰也曾提出過，現在存在的很多标簽實際上都是僞标簽，未來進行有效大資料運算會有兩種路徑：第一，未來資料分析就是分析人，完善人的緯度。第二個路徑，對物的緯度探測，基于人的認知習慣。

　　2與業務并進，技術該如何更新？

在業務的演進和縱深的情況下，需要技術在背後予以很大的支撐，同時也需要技術能與業務并進。【友盟+】在以下三方面進行了技術上的調整和優化：

　　資料采集端的演進、後端計算的優化

在資料采集端的持續積累和演進上，它從之前較為簡單的采集方案、采集協定，演化成今天所具備的如虛拟機探測方案等較為完善的反作弊方式。同時，随着資料量級的擴增，後端計算也經曆了類似的演進，從最初較小體量的計算，到擁有上千台機器的大規模hadoop叢集，再逐漸遷移到阿裡雲的streamcompute、maxcompute大型雲計算平台上，【友盟+】根據資料量大、計算複雜等特定情況進行了大量優化和改造。

不斷發展的過程，資料量也開始呈現指數型增長态勢，每年平均會翻好幾倍，再加上計算任務複雜程度和任務個數的提升，導緻了後端計算的巨大壓力。早期時采用的是當時較為成熟且使用廣泛的一些開源架構，比如hadoop、storm、kafka、spark、elasticsearch等。随着業務的擴充，【友盟+】更多的采用了阿裡雲方案，由于穩定性和成熟度等優點，阿裡雲技術體系也在逐漸取代其曾經的開源系統。

　　将資料挖掘結果用于技術方案的優化

在資料累積的過程中，【友盟+】開始将資料挖掘的結果用于其自身的計算體系及技術體系優化。針對采集的海量網頁内容，技術團隊建立了一套資料模型體系，來區分哪些裝置、哪些網站和哪些流量存在異常，比如監測出涉及作弊作弊的流量和用戶端。對于電商、支付平台、o2o及網際網路廣告系統來說，反作弊在本質上發揮着反欺詐、杜絕虛假買賣、保證廣告主利益等作用。但作為一項核心技術，幾乎所有的公司都會對自己的反作弊技術諱莫如深，研發一套反作弊規則和系統也需要很深的技術積澱。

這一點上，【友盟+】的母公司阿裡巴巴在電商反作弊已形成了一整套監控預警、識别分析、處罰管控的多元度監管機制，特别是在對虛假交易的資料監控和算法識别上就應用了大規模圖搜尋技術。因而【友盟+】在這方面有一些技術優勢和先天基因。去年的雙十一當天，【友盟+】監測到的廣告投放量達34億多，通過反作弊進行流量過濾後識别出約七千多萬條的異常點選。而這一過程也相當于為廣告主節省了三千多萬廣告投放費用（按照0.5元一次點選計算）。

　　3多條業務線同步推進的情況下，如何統一技術棧？

【友盟+】在業務方向和技術架構上做的規劃和統一，同樣具有一些借鑒意義。

葉謙說，2017年【友盟+】将主要在三個次元上做新的業務規劃，一是網際網路應用資料業務，二是拓展新零售資料業務，三是發力廣告營銷資料業務。技術方面的調整則會圍繞着技術棧統一來展開，主要有四點：開發語言統一，開發架構的統一，通用技術元件的統一以及底層平台的統一。統一的結果不僅能使開發效率提升、穩定性增強、運維成本降低，同時也能在一定程度上縮減核心硬體成本。

以統一開發語言為例，之前所采用的開發語言非常多，比如python、java、scala、ruby、php等。而統一後，所有研發團隊會獨立使用java。在葉謙看來，java是這幾種語言中相對最成熟，因而也會圍繞java開發語言來選擇較為成熟的開發架構。例如，會統一使用spring framework作為前端開發架構。另外，在技術元件的統一上，【友盟+】也選擇了經過阿裡集團多年雙11檢驗的、能夠承載大資料量高吞吐和高并發，具有極高穩定性和較大可擴充性的通用技術元件。2016年雙十一期間就用到了阿裡集團提供的能支撐龐大資料量的一些通用元件，如：阿裡雲的maxcompute。

但總的來說，統一技術棧這件事在任何公司都不可能一蹴而就、一帆風順。在這個過程中，各技術團隊勢必會經曆一定程度上的心理鬥争。因為對于任何技術人而言，改變他所習慣的語言、開發架構，就是對其舒适區的挑戰。如何讓不同的團隊成員走出原有的固定模式，認可技術棧統一的價值，形成統一的認識，是推動技術向前、個人成長的一個最重要的契機。

葉謙認為，當大家逐漸認識到技術棧統一的價值之後，後續的研發推動才能順理成章，比如：大家一起來選擇更成熟技術方案、更成熟的技術體系和更成熟的元件等。

　　4用資料為客戶提供真正的價值

談到未來大資料的趨勢，葉謙認為主要會圍繞三點來進行。一是資料與垂直行業越來越緊密的結合，二是資料放開程度會提高、資料交換量會大大增加。當然，在這一點上還需先解決資料安全提取的問題，這也是目前困擾大資料行業的難點之一。三是與人工智能的結合産出，會更多的基于曆史資料對未來進行預測。

這三點同樣是【友盟+】發力的主要方向。葉謙希望，不管自己和團隊能走多遠，還是要回到原本的初心上——真正能用資料為客戶提供核心價值，解決他們在利用資料時遇到的困難。

提起印象最深刻一件事的時候，葉謙說起在去年【友盟+】的一個客戶，其資料名額曾出現了5%的波動，雙方先進行了半個多月的排查和異地讨論，工程師直接到現場和對方一起工作、找出可能的原因點，回來再跟内部人士圍繞可能的情況加深分析，才得出了那個細微的導緻問題産生的根源。雖然流程之繁瑣，但葉謙始終奉信“使命必達”，即使問題再棘手、再特殊，也需要做到客戶第一，最大程度上解決他們的需求，進而才能檢討和提升自我。

放在團隊中，葉謙也更多的在企業文化中植入工匠精神，有意識的在工程師群體培養“客戶第一”的理念，鼓勵每個人發揮自己的主觀能動性，能執着、專注、踏實的在行業耕耘。“越是多變、浮躁的網際網路，越需要對業務和技術深挖，把根紮深，這樣才能找到自己的核心競争力。對企業而言，也是如此。”葉謙如是說。

文章轉載http://it.sohu.com/20170306/n482444756.shtml

<a href="https://yq.aliyun.com/articles/72250" target="_blank">大資料打造你的變美頻道——數加平台上小紅唇的大資料實踐</a>

https://yq.aliyun.com/articles/72250

<a href="https://yq.aliyun.com/articles/70510">借助阿裡雲數加，小小的美甲行業被美甲幫玩出了天價</a>

https://yq.aliyun.com/articles/70510

<a href="https://yq.aliyun.com/articles/70509">與阿裡雲整個生态體系共同成長，更快更好的為房地産行業客戶提供高價值的服務</a>

https://yq.aliyun.com/articles/70509

<a href="https://yq.aliyun.com/articles/69333">蘇州協鑫與阿裡雲合作階段性完成，良品率已提升1%</a>

https://yq.aliyun.com/articles/69333

<a href="https://yq.aliyun.com/articles/68211">墨迹天氣-輕松處理每天2tb的日志資料，支撐營運團隊進行大資料分析挖掘，随時洞察使用者個性化需求</a>

https://yq.aliyun.com/articles/68211

<a href="https://yq.aliyun.com/articles/67275">阿裡雲數加讓企業更專注于業務，助力東潤環能高效利用大資料資源</a>

https://yq.aliyun.com/articles/67275

<a href="https://yq.aliyun.com/articles/70359">産品3周疊代一次，啟信寶駕馭8000萬企業征信的平台架構</a>

https://yq.aliyun.com/articles/70359

<a href="https://yq.aliyun.com/articles/70353">日交易筆百萬級，ping++的大資料平台架構</a>

https://yq.aliyun.com/articles/70353

<a href="https://yq.aliyun.com/articles/70412">專訪佰騰科技大資料團隊，談專利大資料領域的挑戰與實踐</a>

https://yq.aliyun.com/articles/70412

<a href="https://yq.aliyun.com/articles/70347">技術創業難？看彙合營銷如何玩轉大資料與機器學習</a>

https://yq.aliyun.com/articles/70347

這家資料公司為什麼能成為數百萬企業的選擇？

繼續閱讀

Java String.format方法的簡單使用

neo4j之cypher使用文檔

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method

hdu7108哈希