天天看點

《機器人作業系統ROS原理與應用》——2.1 大資料組織架構體系

本節書摘來自華章出版社《企業大資料系統建構實戰:技術、架構、實施與應用》一 書中的第2章,第2.2節,作者:呂兆星 鄭傳峰 宋天龍 楊曉鵬,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

在團隊組建過程中,科學地定義職位體系直接影響到大資料實施的效率和品質,由于大資料的創新性和嚴謹性,會有一批新的崗位,例如首席資料官、大資料解決方案架構師、大資料采集工程師,大資料研究員等;同時,也會強化原有崗位的新生命力,例如網絡工程師、算法工程師、系統架構師、咨詢顧問、資料庫管理與開發等。整個職位架構體系,如圖2-5所示。

《機器人作業系統ROS原理與應用》——2.1 大資料組織架構體系

大資料基礎平台共分為硬體平台和軟體平台兩大類别,硬體平台包括伺服器、作業系統和網絡維護等工作,主要由網絡工程師負責;軟體平台包括hadoop運維、資料倉庫管理、軟體系統運維等工作,由hadoop運維工程師、資料倉庫管理者和系統管理者負責。

1.?網絡工程師

網絡工程師在計算機行業是一個非常“古老”的職業,主要目的是維護多台計算機及其外部裝置,保障計算機在資源共享和資訊高速傳遞的穩定性。在大資料環境下,由于大資料系統是多台(幾十、幾百甚至成千上萬台)伺服器分布式環境,并且具有并行計算、實時傳輸的特性,對網絡傳輸、安全、讀寫效率及并發的要求更高,其中共涉及多項十分重要且複雜繁瑣的問題:機房網絡安全問題、跨機房伺服器叢集之間網絡傳輸問題、開發人員操作失誤風險規避問題、跨機房硬體穩定性保障問題、磁盤高速讀寫問題、跨區域網路的分布式叢集傳輸效率問題、分布式叢集伺服器ip及網絡配置問題。

随着大資料技術、ipv6标準、物聯網、移動網際網路技術的快速發展,使得對于新型網絡工程師的人才和技能要求也越來越多,由于上述每項技術對網絡和硬體的要求側重點都不一樣,也是以而細分出多個發展方向,對相應的技能要求的側重點也不同,例如網絡安全類、資料存儲類、架構設計類、移動網絡類、網絡效率類等。

2.?hadoop運維工程師

作為大資料産業下的一個新型職位,hadoop運維工程師是大資料系統穩定運作最重要的保障,其主要職責是維護高性能的hadoop分布式資料存儲系統,并為業務系統提供穩定的資料通路服務,開發新接口和維護原有系統。

由于hadoop技術生态元件絕大部分是由java語言實作并且基于linux作業系統運作的,對于該職位來說,首要要精通java程式設計和linux作業系統;其次要精通map/reduce運作機制、hadoop叢集的硬體資源(cpu、記憶體、存儲)配置與管理、hadoop各元件(如hdfs、

hive、hbase、impala等)的運作原理、叢集元件監控、叢集節點故障解決方案等;另外還需要懂得如何保證資料安全、資料存儲效率、計算效率、運維效率的優化與提高等。如果覺得hadoop叢集的性能差時,絕大部分責任是運維工程師對hadoop的了解太少,hadoop

的效率沒有被發揮出來。

3.?資料庫運維工程師

資料庫運維工程師在公司發展的不同階段有着不同的職責與定位。工作内容包括負責資料庫的營運和維護,包括資料庫的安裝、監控、備份、恢複等基本工作,并需要覆寫産品從需求設計、測試到傳遞上線的整個生命周期,在此過程中不僅要負責資料庫管理系統的搭建和運維,更要參與到前期的資料庫設計、中期的資料庫測試和後期的資料庫容量管理和性能優化。

當企業資料倉庫中的資料量達到了一定量級時,對資料源的監控和保障資料倉庫的穩定性是一個必要的工作,傳統的企業級資料倉庫一般都會建立在mysql、oracle等結構化資料庫之上,資料庫運維工程師為了提高資料庫工具和服務的有效性,會選擇合适的軟體和硬體工具,并使用各種工具實時監控資料庫性能和資料錄入程式,管理資料安全和隐私并建立和配置設定新的資料庫,從執行層面優化資料庫性能提高查詢和處理能力,建立資料備份、資料庫故障排除和恢複機制確定資訊得到保護和備份。在企業級大資料生态體系下,hadoop資料倉庫成了資料處理挖掘的主力軍,是以下一代資料庫運維工程師還需要精通各種hadoop技術生态元件的存儲運作機制和執行管理指令(如map/reduce、python、scala、java等)。最後,資料庫運維工程師特别重要的一個工作是確定所有的資料符合法律規定,對整體資料品質要定期做完整的報告并回報給工作團隊。

4.?系統運維工程師

和企業傳統的系統運維工程師一樣,大資料系統運維工程師需要維護所有業務系統的功能運作,并監測系統的所有功能是否正常,維持系統現狀,協助解決新的和現有的系統問題形成系統運維自動化流程。在業務系統進行測試和更新過程中,實作所有的目标,保持對所有系統更新之後的新技術維護,并确定系統運維的長期目标,根據運作的實際情況改進維護政策。除以上“已發生”類的問題之外,對“未發生”類的問題要及時監測,分析所有系統的更新和應用程式,確定遵守所有計劃要求,設計新上線的業務系統解決方案。監測和分析業務系統的運作名額,并保持最佳性能,與管理人員和社群成員協調落實各項業務活動,并确定所有伺服器配置。最後,由于大資料生态體系的技術元件更新更新頻率非常快,且新技術發展異常迅速,要求所有大資料系統運維工程師必須擁有非常高的行業知識更新和學習能力。

資料管理類崗位中的管理所針對的對象是資料,而非職能崗位中的管理角色。資料管理類崗位包括首席資料官、資料管理者和資料安全管控師。

1.?首席資料官

随着大資料的不斷發展,企業對于資料的依賴也越來越強,當企業内部的資料類型和資料用途越來越多時,需要一個“資料管理者”從資料全場景和流程方面進行整體規劃和管理,一個大資料新的工作崗位應運而生——首席資料官(cdo)。

該職位的職責包括:與資料所有者和資料管理者共同為内部和外部建立資料管理政策并且實作資料的準确性和制定工作流程的需求目标,定義大資料戰略,設計多階段實施路線圖。建立資料管理政策及标準,建立并上司資料管理團隊,監管組織内的資料品質工作,配合cio/cto和it部門協同管理和完善資料管理政策的實施,并負責企業資訊資料管理的預算和資料相關系統的稽核。

另外,作為技術高管需要有團隊成員梯隊建設能力,帶領團隊技術探索不斷創新,推進企業技術更新、技術架構完善以及資料倉庫和商業智能解決方案的發展,協助業務開發團隊提供售前活動和招标書,幫助評估和計劃項目,協同cio/cto管理技術和項目團隊。

2.?資料管理者

對于一般的公司來說,資料管理者的工作可能由資料庫運維工程師來兼任,從部署作業系統,到資料庫安裝、設計和部署監控,防止漏洞和攻擊、主資料管理、權限管理與稽核等,而大資料環境下對資料管理者工作的技能要求更加精細。

對資料管理者的崗位要求包括指定并實施資料管理政策、協調和執行資料管了解決方案、資料庫權限管控三大方面,是以該項職位的主要任務是:了解企業内部的資料需求資訊,并将其傳送給資料團隊的其他成員,深入了解資料現狀并收集相關資料;引導業務名額的制定和記錄,協助資料分析師分析現有的報告并确定整合名額,上報首席資料官,參與制定資料管理與實施計劃,指導資料庫需求檔案的準備;在資料管理計劃實施的過程中,擔任etl和系統開發工程師的顧問,協助資料分析師評估任務,分析現有的報告,并幫助識别潛在的資料來源和資料庫等;在資料管理與實施計劃落實完成後,保障公司核心業務實體資料(例如客戶、供應商、商品、組織機關、員工、合作夥伴、位置資訊等)的一緻性、實時性和精确性,成為企業内部的資料“交通樞紐”。

3.?資料安全管控師

資料安全是網際網路行業中的一個永恒的話題,無論是對于機關還是個人,資料安全都是至關重要的,如果資料不慎丢失或者洩露,都會造成重大影響。

一般情況下企業的資料安全管控由資料運維工程師或者資料管理者負責,由于計算機和網際網路的影響越來越大,人們日常生活中的網購資料、通信資料、身份資訊資料不斷膨脹,同時公司企業的主資料、業務資料、銷售資料、财務資料也在不斷增長,是以資料的安全性就越發重要,在網際網路大資料時代需要資料安全管控師對系統資料安全進行嚴格規範和控制。

影響資料安全的因素包括計算機硬體損壞、工程師的操作失誤、黑客入侵、病毒感染、企業内部發生的資料盜竊等,資料安全管控師的任務,是通過各種安全政策和安全防範手段,在這些問題發生之前制定良好的安全方案防患于未然,主要安全政策包括:協助首席資料官制定規則加密電子文檔資料内容、細化資料權限控制讀寫删除操作、制定資料備份流程機制、制定組織結構成員資料權限關聯及分級授權機制、制定資料及文檔集中管理與分發規範、制定資料通信安全規範、制定資料倉庫通路和操作權限等。

技術研發類崗位指的是針對大資料相關系統、軟體、産品和功能進行的開發,而非it系統的開發。由于大資料類的開發是一個相對完整的工作鍊,并且具有特殊應用需求和場景特征,是以涵蓋了幾乎與it系統相同的職能崗位。技術研發類崗位包括大資料架構師、資料倉庫架構師、大資料開發工程師、資料采集工程師、資料倉庫開發工程師、系統開發工程師、算法開發工程師。

1.?大資料架構師

作為大資料技術平台成功落地的重要保障,大資料架構師在大資料技術發展之初就已經奠定了必不可少的角色基礎,該職位主要負責hadoop技術解決方案的整個生命周期的解決方案确定并進行引導,包括:大資料需求分析、平台選擇、技術架構設計、應用設計和開發、應用測試和部署等大資料實施全流程的跟蹤,并在實施過程中帶領技術團隊,為設計和開發大規模叢集的資料處理系統提供技術和管理。

由于角色的重要性,通常情況下該職位應該擁有重點院校計算機相關專業的碩士及以上學曆且至少5年以上java程式設計經驗,精通java原理和hadoop、hive、hbase、impala、spark等大資料技術生态體系,熟悉常用的資料挖掘算法,如邏輯回歸、決策樹、關聯規則、序列模式、時間序列、svm、貝葉斯、聚類等,以便做更好的架構方案選型。除以上技術要求外,該崗位聚焦于網際網路涉及的各領域平台架構設計,可能會涉及電商平台、虛拟化、雲計算、資料分析挖掘等。

作為一個或多個領域的系統架構專家,更要面向未來:設計領先的軟體架構,洞察所在領域的系統技術發展趨勢,提出新的系統架構理念,主導架構技術項目開展架構原型的驗證,保證未來新産品的軟體架構具有領先的架構競争力;改進已有産品的軟體架構,分析行業内重點産品的軟體架構,識别軟體架構設計方面的問題,提出解決建議和方案,并指導改進;提升團隊的軟體架構設計能力,時刻洞察技術發展動态,指導技術開發人員及時更新系統技術。

2.?資料倉庫架構師

資料倉庫的開發和管理在大資料時代顯得尤為重要,相關的資料庫管理、運維和開發技術,将成為廣大bi、大型企業和咨詢分析機構特别看重的技能展現。而之前一般企業中的資料倉庫架構師都由資料部門開發經理兼任,同時資料倉庫團隊工作内容比較純粹,是以該職位可視資料倉庫量級和企業實際情況而定,由其他職位兼任或單獨設立都可。

資料倉庫架構師的主要責任有:資料倉庫的架構設計及資料集市建設,帶領團隊落地及後續的運維,負責各條業務線的資料整合方案設計及日志規範,資料分析名額體系建設及中繼資料管理,并要稽查和監控資料品質,資料報表系統及相關資料産品的研發和資料需求的溝通及資料開發項目管理。

在技能要求上,精通sol、ssis、ssrs和olap等進行資料庫及資料模型設計,如使用

oracle/hana建立資料倉庫,熟悉kettle、informatic、datastage、dataservice等etl開發工具(目前很多etl工具也支援hadoop),了解行業内的各種資料倉庫應用案例和商業智能(bi)實時動态。如使用hadoop、storm、spark建立資料倉庫,精通大資料分布式平台技術,熟悉java、scala、map/reduce、hivesql、sparksql等技術。同時,根據企業資料倉庫技術發展的實際情況,可能需要使用oralce與hadoop相結合的方式完成工作。

3.?大資料開發工程師

大資料相關的技術元件包括分布式存儲(結構化與非結構化)、緩存、查詢、計算(實時與離線)、監控與管理、資源排程等,為了保障各技術開發的專業性,一般以開發工作的内容進行劃分:hadoop開發工程師(離線計算)、實時計算工程師、資料處理工程師、文本挖掘工程師(非結構化資料處理)等。

hadoop開發工程師需要精通包括:hdfs、hbase、hive、impala、zookeeper、yarn、map/reduce等在内的所有元件部署、調優與開發。hadoop技術應用廣泛,開發過程中還會涉及hadoop版本的快速疊代更新,需要和hadoop運維工程師協同開展工作。

實時計算所涉及的技術包括spark、storm兩大核心元件,而spark與storm元件的開發語言都各自不盡相同,這無疑大大增加了實時計算工程師的開發難度,除了精通java之外,還必須精通scala(spark是由scala寫成)、sparksql和sparkstreaming。

以上技術都是針對結構化和半結構化資料的開發處理,非結構化資料的開發處理一直都是相對更繁瑣的工作。比如,文本挖掘工程師的工作是對非結構化資料進行抽取、解析、建立全文索引等,使非結構化資料轉化為有價值的結構化或半結構化資料。資料處理工程師主要負責分布式存儲與計算平台中的資料處理與傳輸,承擔着“資料搬運工”的角色,不管是結構化或半結構化資料還是非結構化資料,一般都會使用到kafka或mq等元件進行資料的解析與傳輸。

4.?資料采集工程師

資料采集工程師的主要職責是收集和處理海量原始資料,工作内容包括:腳本編寫、網頁擷取、調用apis、編寫sql查詢等。

由于資料源的存儲及展現方式不同,資料采集分為外部資料采集和内部資料采集,外部資料采集通常指的是網際網路網頁采集(也稱網絡爬蟲),工作任務是通過搜尋引擎網絡爬蟲相關技術和正規表達式,從抓取下來的html頁面資料中提取網頁資料資訊,這要求工程師必須精通網際網路内容搜尋産品(例如百度、谷歌)的設計和架構,熟悉搜尋引擎、網際網路網頁及反爬蟲技術的工作原理,熟悉linux作業系統,具備搜尋引擎開發的研究能力,使用到的開源技術工具有:nutch、heritrix、larbin、htmlparse、scrapy、lucene等。

内部資料采集是指存儲在企業内部資料系統(如oracle、mysql、nosql、log日志)中的主資料/業務資料和企業網站/app端中使用者行為資料的采集。企業内部資料采集的工作任務是通過資料庫抽取相關技術(java、sqoop、goldengate、canal)把存儲在企業資料庫系統中的資料抽取出來,重新整合、同步與存儲;企業網站/app資料采集是通過js/sdk等技術手段,把網頁/app端的使用者登入、點選、檢視等行為收集起來,同步到後端的資料存儲系統中。

通過内部、外部資料采集到的資料最終都會存到分布式檔案系統(hadoop、spark)中統一存儲,便于後續的資料分析與挖掘。這些工作要求工程師了解企業資料流通機制,精通oracle、mysql、nosql等資料庫的工作原理和主流的大資料接入技術(kafka、storm、flume、mq、sparkstreaming),熟悉nginx日志、算法設計、資料結構、java和scala等。

5.?資料倉庫開發工程師

傳統資料倉庫開發團隊在企業技術崗位中屬于不太容易看到“效果”的團隊之一,而且所需的人數不太多。但是在進入大資料時代,代表着更多類型(尤其是非結構化類型)的海量資料不斷湧現,客觀上要求對資料進行實時采集、分析和傳輸,這就對基礎設施性能提出了嚴峻挑戰,尤其是對運維管理者資料倉庫開發和管理人員提出了更高的要求。

資料倉庫開發工程師除了需要基于oracle/hana開發外,還要基于三大不同類型的資料庫進行應用開發:分布式資料庫nosql、hadoop體系,分布式資料庫hbase/hive和實時分布式計算架構spark/strom。由于nosql、hadoop、實時計算技術可供使用的etl工具比較少,是以目前企業資料倉庫開發工程師和大資料開發工程師使用到的大部分技術是相同的,但資料倉庫開發工程師的工作更側重于資料層設計與開發、etl流程開發和優化,完成結構層次合理、靈活可擴充的資料倉庫結構。同時,這些工作也都需要對hadoop、nosql、實時計算技術有深刻了解且對業務精通的人才能勝任。

6.?系統開發工程師

大資料系統按應用類型分為資料可視化類與資料應用類。

可視化類系統包括:商業智能、資料監測、輿情監控、使用者畫像等,該類系統一般使用前端技術結合可視化元件開發,要求工程師精通javascript、ajax/jquery、html、css等web前端技術,以及資料可視化技能和工具,例如d3、echarts、highcharts、tableau等。熟悉各主流浏覽器(ie/chrome/firefox/safari)相容性問題解決方案和oracle、mysql、mongodb、hive、hbase等資料庫查詢能力,另外還需了解各種調試、抓包工具如html類、css類、debug類等。

資料應用類系統包括:網際網路廣告精準投放系統(dsp)、精準營銷系統、征信/風控系統、個性化推薦系統、大資料管理平台(dmp)等。該類系統除了會使用前端技術和可視化元件外,還需要結合大資料分布式算法、高并發查詢、負載均衡等技術,更側重redis、nginx、mq、zookeeper、hadoop等技術。熟悉tcp/ip協定和多線程并發技術,同時也要兼具可視化系統開發所應用到的web前端技術、資料可視化技術、浏覽器相容等。

7.?算法開發工程師

算法開發工程師之前一直是一個比較“冷門”且“高深”的崗位,随着大資料應用越來越廣泛,使得算法模型在企業大資料應用中越來越廣泛。由于每個行業的特性不同,資料模型在跨行業應用時可複用度不高。比如,金融行業應用資料模型進行金融産品的風險控制和反欺詐,建立并優化風險政策。電商及快消行業則應用資料模型進行使用者價值評分、偏好預測、商品關聯銷售和個性化精準推薦。但不管是什麼行業,用到的算法是相通的(例如邏輯回歸、svm、神經網絡、決策樹、貝葉斯等)。

大資料環境下的資料模組化開發工程師,除了要求精通傳統模組化工具spss/modeler之外,還要精通r、python、hadoop、mllib、mahout等算法開發元件,了解大資料分析處理(hadoop、hdfs、mapreduce、hbase、pig、hive)等技術内部機制,熟悉linux系統,熟練使用shell/perl/python腳本。

項目産品類崗位通常是每個公司不可或缺的崗位,這些崗位是有計劃開發資料工作的基本前提,通常決定了一個産品或項目未來的方向和具體實施的概念定義。而項目産品類泛指資料項目工作的前端職位,含項目經理、産品經理、ui、ue等。

1.?項目經理

項目經理的職能核心是項目宏觀管理者和協調者,也是項目實際的總策劃人和負責人。

項目經理主要側重于項目規劃、管理、協調工作,重點關注項目進度、品質、成本,通過管理控制項目風險并保證相關成果。跨職能部門進行定期溝通,確定公司内部資訊和資源對稱;協調項目資源,保證項目正常推進。通過制定實施方法論和項目管理規範來進行整體項目把控,某些場景下的項目經理還會參與需求調研,引導客戶需求,編寫項目需求文檔和相應的技術規範文檔等細緻工作。對實施完成的項目進行總結,并提供産品研發、項目管理建議。

不同行業的項目經理要求具有特定的從業背景和經驗,對于項目開發過程中涉及的管理方法、技術架構、操作規範等都有不同的要求。但較好的号召力、上司力、溝通能力、應變能力和管理能力是勝任該職位的基本前提。

2.?産品經理

産品經理是微觀層面落實具體項目需求的關鍵推動者,也是輔助項目經理進行項目把控的關鍵,但從職能角度來看通常不具有實權,是以屬于典型的“有義務、無權利”的職位。

産品經理主要負責配合項目經理完成項目規劃、管理、協調以及規範和文檔制定工作,并負責資料相關項目内産品的規劃與設計,制定産品開發、設計、跟蹤和優化方案。在項目開展過程中需要保持與視覺設計、前端架構、前端開發等部門的溝通并保證産品需求的可了解、可實作、可執行性。根據公司規劃,設計産品設計文檔、原型設計文檔和産品互動原型設計,含界面、流程、功能、元件等。對于整體産品項目品質管理和進度管理,保證項目按照進度完成策劃、開發、測試和上線。

由于産品經理需要面對策劃、設計、開發、測試、上線的所有環節,是以較強的責任感、創新的工作精神、嚴謹的工作态度、較強的溝通能力和邏輯判斷能力是一個成功産品經理的必備素質。産品項目和生命周期管理的常用工具如思維導圖工具、産品原型工具、産品流程工具、版本管理工具、項目管理工具等的熟練應用是必備職業技能。

3.?ui

ui也稱視覺設計師,主要工作側重于視覺效果設計,産品視覺效果的好壞主要取決于ui

的審美水準和輸出能力。

ui的主要工作職責是把握視覺設計趨勢,分析産品特點,确定産品整體設計思路和風格;産品、網站、app等具體産品形态的視覺形态策劃;産品、頁面、功能、圖示等視覺元素的可視化設計,與産品經理、前端工程師共同把握移動産品的使用者體驗。某些公司的ui可能還會負責廣告、營銷和包裝等宣傳物料的設計。

良好的想象力、較高的審美層次和色彩把握能力,熟練使用視覺設計工具如photoshop、illustrator、coreldraw是必備技能。

4.?ue

ue也稱互動設計師,主要工作側重于互動效果設計。很多公司将ui和ue合并到一個崗位職責,總體負責産品的平面和互動設計效果。

ue主要負責維護和更新界面設計标準和規範,負責标準和規範的實施;産品、網站、app的互動設計工作,分析産品特性和使用者的操作習慣和偏好,并設計互動流程、内容及界面;根據需求和使用者研究結果,完成界面互動行為和功能的改良,提高網站的易用性;對現有産品的可用測試和評估提出改進方案,持續優化産品使用者體驗。

在技能要求上,除ui中對于素質和必備技能的要求外,ue還需要了解設計主體(産品等)的商業邏輯、互動工程中的功能需求及資訊因素關系,這對該崗位職責的要求更高。

資料挖掘類崗位通常是一系列崗位的統稱,因為不同公司對于該職位的定義和内涵界定不同。而資料挖掘由于是側重于應用的崗位,是以通常是圍繞某一業務或技術主體進行定義,例如會員資料挖掘、銷售資料挖掘、營銷資料挖掘等。

資料挖掘類崗位與算法開發類的崗位差異通常是模糊的,一方面由于資料挖掘需要特定的資料統計學、技術開發等特定技能要求,這與算法開發重合;另一方面資料挖掘由于既可以側重于算法挖掘和應用,又可以側重于典型場景的業務應用,是以也很難具體固化到某一種崗位角色。通常,該角色可定義為技術類崗位,也可以定義為業務類崗位,但前者居多。

整體來看,資料挖掘類崗位的主要職能包括以下幾個方面:

負責完善資料挖掘工作體系,優化現有資料挖掘業務落地;

負責完善資料挖掘流程、操作規範、标準和監督計劃;

深入研究業内領先的技術思路,輸出具有創新價值的預研項目可行性分析報告及相關實驗資料;

負責營銷(流量)、會員、産品、銷售、客服、供應鍊等公司資料的海量挖掘,并建立、維護和調優常用應用場景如惡意流量預警、庫存預測、會員活躍度、會員流失模型等;

負責相關資料挖掘項目需求收集、項目制度建立、項目設計開發和結果輸出品質把控,通過資料挖掘結果驅動業務執行;

配合技術進行資料挖掘模型開發和模型封裝,例如決策規則模型、預警模型、流失模型、效果标杆模型、客戶生命周期等的建立和維護;

負責大資料下傳統機器學習算法的并行化實作及應用,并提出改進方法及思路;

參與公司大資料架構,負責bi實施中的資料挖掘子產品算法研究、模型建立和優化,幫助實作資料挖掘和分析平台的建設等。

資料挖掘類崗位對于職能的要求較高,除了具備統計、資訊技術、數學等專業學曆外,熟悉主流資料庫,例如mysql、oracle、sqlserver、db2等傳統結構化資料倉庫以及nosql等非結構化資料庫;熟悉常用的聚類、分類、回歸、關聯、時間序列等監督式和非監督式算法;熟練使用spss statics(2009年之後稱為pasw statistics)、clementine(12.0版本之後稱為spss modeler或pasw modeler)、sas、r、python、mllib等資料挖掘工具中的至少1種,有資料模組化經驗是從業必備技能。

從某種意義上看,資料挖掘類崗位是資料真正從“資料”到“知識”再到“應用”的樞紐,是以是大資料崗位中的核心職位之一。但是,這種崗位通常隻對于擁有“大資料”的公司才有意義,因為隻有大資料才有“挖掘”的必要,而小公司由于體量小而導緻資料量小而不具備挖掘的必要條件。

資料分析類崗位包含各種各樣的非“技術”類崗位,例如戰略分析師、資料分析師、網站分析師、使用者研究員、商業智能分析員等,這些崗位通常都具有特定的分析應用場景,是以大多數以應用場景來定崗定責。

1.?戰略分析師

戰略分析師在很多公司也被稱為市場分析師,這是一個“高大上”的崗位,它的核心是提高對行業和競争對手的認知,增加對公司決策層的戰略支援。

戰略分析師的具體職能通常是根據公司的戰略方向,輔助公司決策層(通常是o-level)制定中長期發展規劃;根據公司規劃,協助各中心、各子部門制定戰略研究規劃并進行課題跟蹤和持續輸出;收集行業重要資訊,包括重要盈利模式、重大技術革新、新技術發展趨勢、市場格局重大變化等;過濾公關資訊,建立競争對手檔案庫,全面把控競争對手動态;跟蹤、分析、研究行業發展情況,捕捉行業發展新機會,為集團的戰略決策提供依據。

戰略分析師對于從業者的個人素質要求極高,它要求對業務生态和體系具有相當豐富的工作經驗,具備敏銳的市場和行業洞察及快速的業務了解和學習能力,以及從宏觀角度總結、分析和歸納問題及方法的能力等。另外,對于常見的市場和戰略分析架構的熟練應用、敏銳的市場嗅覺、較強的邏輯思維和溝通能力是必備的個人素質。

2.?資料分析師

資料分析師是一類職位的統稱,通常資料分析師會定位于解決某一類問題而帶有業務主體特征,例如營銷分析師、會員分析師、營運分析師、商品分析師等。但無論如何定位,其基本工作職能如下:

搭建公司資料分析體系并負責日常資料品質、報告、結論的把關;

建立業務主體檔案庫,并通過效果預測模型,輔助業務主體計劃和kpi的制定;

完善業務主體的畫像,并通過多種價值模型做業務主體分群、分類;

識别業務主體中的虛假、異常、流失等資訊,建立相應的預警系統;

業務主體活動效果評估分析,并通過多種資料結果提升目标轉化率;

建立業務主體效果标杆,提高業務要素的使用率并建立最優化效果評估模型群組合應用模型;

協調利益相關者對如何使用研究和分析結論的想法,以支援業務計劃和戰略排序;

針對特定場景建立生命周期模型,并針對不同場景和階段下的實際情況建立相應的分析思路和方法,輔助于業務主體優化;

根據業務和公司需求,跟進專項分析項目進度,撰寫日常和專項報告并優化業務落地動作等。

該崗位要求具有一定的統計學、數學、計算機科學等專業背景,同時了解資料分析的基本概念和常用方法,熟悉常用業務主體中的名額及應用場景,具備較強的邏輯分析能力和報告書寫、業務溝通能力。對于常見的資料庫取數工具如sql、資料庫用戶端以及資料模組化和挖掘工具、excel和spss等統計和分析工具也有一定要求。

3.?網站分析師

網站分析師是資料分析類中一個較為特殊的職位分類,從工作形态看,除伺服器需要it部門配合進行相應配置、調試和部署外,網站分析師幾乎可以獨立完成從資料采集、存儲、計算、分析到資料應用的完整流程。網站分析師的工作主體和對象是以網站為主體的業務主體,包括營銷部門、網站營運部門、使用者體驗部門、前端産品部門等。

網站分析師的主要工作職責如下:

根據業務需求進行網站檢測代碼方案的制訂、實施和後期維護;

監控網站日常資料,為公司各級部門提供需求資料、日常報告;

根據業務和公司需求,撰寫專項分析報告,提供專業決策支援;

對網站流量、營運資料進行跟蹤和分析,尤其是對站外投放管道、站内營運效果進行深入挖掘;

對使用者資料進行深入分析,如頁面點選分布、使用者行為習慣等,了解使用者需求并提出優化改善建議;

網站流量系統管理、維護,跨部門溝通協作與項目推進等。

由于從事網站分析工作的特殊性,往往需要熟悉網站分析系統部署規則、代碼和文法,同時熟練應用不同的網站分析工具如google analytics(簡稱ga)、omniture(現在名為sitecatalyst,是adobe analytics的核心)、webtrends、webtrekk等,對于網站分析和資料分析的基本概念和方法以及常用名額及應用場景也要熟稔于心。除此之外,還要具備特定行業的從業經驗,特定的專業背景如營銷、計算機等是其加分項。

4.?使用者研究員

使用者研究員是公司中針對使用者研究的崗位,主要目的是通過不同的研究方法來提升使用者滿意度、降低使用者流失并提升使用者生命周期價值等。

使用者研究員的主要職能是組織各種使用者研究項目,與産品經理互動和研發團隊溝通,發現使用者體驗提升的工作點;獨立完成使用者研究項目的全套流程,包括需求分析、方法設計、資料分析、結論提取以及報告撰寫;建立特定的使用者研究項目,包括使用者群體的行為分析、目标使用者驗證、産品體驗驗證、可用性測試、滿意度研究等;建立和推動産品以使用者為中心的工作制度和流程優化。

由于使用者研究的主體是使用者,是以需要該崗位的人員具有人機互動、心理學、社會學或相關專業背景,熟悉不同的研究方法和流程,對于研究資料具備一定的統計和資料分析能力及提取結論的能力,較強的溝通和業務了解能力、敏銳的洞察力和快速學習能力是崗位的加分項目。

5.?商業智能分析員

商業智能分析員也叫bi分析師,是借助或依托于bi系統進行資料分析的崗位。該崗位通常是在企業内部已經建立起bi體系并搭建bi系統的前提下産生。

該崗位的主要職責是通過bi進行日常資料處理、監控和統計分析并支援營運活動,參與制作時間分析報告并為決策層提供資料支援;參與bi系統的搭建、優化和開發,進行或協調測試,以確定情報的定義與需求相一緻;根據業務需求配置相關的bi模型和報表并為業務主體使用;bi系統的日常管理和維護,包括維護或更新的商業智能工具、資料庫、儀表闆、系統或方法等。

商業智能分析員除了需要具備資料分析師的有關資料分析基本經驗和能力外,還需要熟練掌握bi系統的部署、實施、配置、規則和應用知識,能通過bi工具滿足不同的應用場景。