天天看點

《企業大資料系統建構實戰:技術、架構、實施與應用》一2.3 大資料制度和流程規範

本節書摘來自華章出版社《企業大資料系統建構實戰:技術、架構、實施與應用》一書中的第2章,第2.3節,作者呂兆星 鄭傳峰 宋天龍 楊曉鵬,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視

規範化管理是企業中一項艱巨的且需要持續改進的工作,它是企業各項工作正常有效開展的基礎,是企業健康有序發展的有力保障。大資料制度和流程規範作為企業規範化管理的一部分,對于大資料工作的開展至關重要。大資料制度和流程規範建設的意義主要側重于三個方面:

可以保障企業内部大資料系統和周邊業務系統運作的有序化、規範化、流程化和标準化,可以降低溝通成本并提高工作效率,保證最終的工作産出。

可以通過制度性措施界定各事業群、事業部、體系、中心、部門間的利益主體和權責範圍,是有機開展工作,避免推脫、不作為、越權工作的重要途徑。

通過制度性限制可以降低業務運作風險以及資料安全風險,這是企業開展大資料工作的基本前提。

通俗而言,制度和流程規範不是必須的,或者說不是所有企業都需要嚴格的制度和流程規範。在實際應用中,制度和流程規範通常适用于大中型企業,為了提高企業運轉效率而采取建立現代企業制度的方式;而對于小企業而言,靈活的管理方式、直接高效的溝通機制和更扁平化的直接管理可能更适合真實營運的需要。是以,這裡的制度和流程規範的試用對象更多的是針對大中型企業。

制度和流程規範類内容大緻可以劃分為兩類:

工作制度,這類文檔對其範圍内的人員進行限制,常有“制度”“規範”“規章”等字眼出現,這類内容不能被随意修改;

工作模闆,這類文檔是相應人員開展工作的參考内容,可供其直接應用于大資料工作開展,也可根據實際情況進行修改。

大資料制度和流程規範建設涉及大資料工作中的所有環節,從大資料的工作體系看,包含以下幾個部分:

1.基礎平台類

基礎平台類規範提供伺服器測試和正式環境的系統營運、服務維護、應用維護管理的範圍、目的、性質和原則,通常以系統運維管理規範或制度的形式存在。該規範适用于開展系統運維護活動涉及的各類組織及其落地操作的工程師。

規範主要涉及的内容包括:

機房環境,包括安全系統、空調、ups、備用發電機、供水、供氣、排污等;

基礎伺服器,包括主機系統、存儲/備份系統、終端系統等;

網絡設施,包括交換機、網絡、通信、電纜等;

應用系統,包括内部辦公系統、門戶網站等應用系統;

業務系統,包括内部開發以及外部購買的業務系統等;?

中間件,包括配置資訊、故障資訊、性能資訊監控等;

供應商系統,包括基礎設施和應用系統的供應商以及it運維服務的供應商系統;

雲服務系統,包括采購雲端的固定投入平台以及按需付費的彈性平台系統等。

除了基本運維資訊涉及的系統軟硬體運維管理外,還可能包括權限管理、資料管理、系統監控、系統教育訓練等内容。

基礎平台類規範的主要核心是通過各種标準化和流程化規範保證系統的可用性和穩定性,規範中需要兼顧到不同角色的負責人和職能分工、量化的工作标準和響應時間、操作流程和方法、問題溝通工具和流程等。除上述規範性工作流程外,建立針對突發事件應急預案和防護政策也是規範的重要組成和安全的應急保障。

大多數企業中除運維工程師自己發現并解決問題外,其他系統或部門人員也會反映相應的問題,此時通常會通過一個名為“it工作台”或“it服務台”的角色對涉及的大資料相關事務進行統一收集、配置設定、處理和回報管理。

2.資料管理類

除cdo(首席資料官)外,資料管理類的主要操作或管理對象是資料,是以本小節主要讨論的内容是有關資料及其資料周邊的制度及流程規範。資料管理類規範的主要存在方式為資料庫管理規範以及相應的流程規範,它主要針對資料進行管理,降低資料被非法生成、變更、洩露、丢失及破壞的風險。該規範适用于dba、資料庫管理工程師、資料安全管控師等。

資料範圍,涉及所有的業務系統、職能系統和it系統資料;

資料環境,包括所有的測試環境和生産環境資料;

資料公司,适用所有集團、總部、子公司和分部等各類資料相關組織;

資料有效期,大多數資料都是有有效期的,不同有效期狀态下的資料應該有針對性的管理政策、存儲媒體;

資料安全規範,包括資料安全定義、接觸、接入、備份、同步、授權、認證、加密、記錄檔記錄等;

資料操作規範,包括資料的新增、修改、更新、删除等資料變更規範,資料加密、解密等脫敏和安全規範以及資料提取、分發、列印、登記等流通規範;

資料庫管理規範,包括使用者角色管理、資料庫管理、系統更新維護、資料庫安全管理等。

資料管理類規範是資料安全的必要保障,也是開展所有資料工作的基本前提,是以是每個公司必須具備的一類規範和流程制度。出于資料安全第一的考慮,必要的資料流程和權限申請管理是必不可少的。

大多數企業的資料操作都是針對非生産資料進行的,生産資料都是作為原始資料進行儲存,然後将原始資料同步到附屬庫或叢庫的庫表中進行操作。儲存至少一份原始資料是保證資料在任何時間都處于高可用狀态的前提。

3.技術研發類

技術研發類規範主要用于在團隊協作開發的情況下,保證架構、編碼、測試等各個研究環節的一緻性、可讀性、可重用性、程式健壯性、可移植性、可維護性。該規範是提高團隊協作開發效率和軟體品質的必要保障,也是降低後期維護成本的重要舉措。

技術研發類規範從流程上可分為兩大類:

(1)文檔規範

技術研發過程中,需要根據不同的項目撰寫相應的研發文檔,包括概要設計文檔、詳細開發文檔、品質校驗文檔、內建測試文檔等,這些文檔是日後進行技術研發的基礎。文檔需要詳細記錄産品的研發背景、藍圖、目的、原則、階段、裡程碑、排期、内容、限制和前置條件、溝通計劃、機會風險等,其閱讀對象是項目成員以及相關的研發工程師。該類文檔是項目執行的參考,為項目按時傳遞、項目測試、品質跟蹤以及後續開發等提供了書面依據。除了面向技術研發的文檔規範外,還有一類面向客戶的文檔規範,這些資訊會在“項目産品類”規範中具體介紹。

(2)代碼規範

代碼規範是面向技術研發人員在産品或系統開發時具體實施的操作性規範,它涉及開發過程中撰寫代碼時的各個方面。規範主要涉及的内容包括:

檔案結構,包括頭檔案、定義檔案、其他檔案的路徑、目錄、結構等具體定義;

程式風格,包括空行、空格、縮進、續行等定義,這是通過邏輯關聯分組、組之間的關系,提高可讀性的保障;

命名規範,比較著名的命名規則當推“匈牙利”命名法,該命名規則的主要思想是“在變量和函數名中加入字首以增進人們對程式的了解”。命名規範中包含了對庫、包、類、域、方法和聲明的具體定義;

注釋規範,包括文本注釋、塊注釋和單行注釋的注釋内容、方式、位置等限制,對于檔案頭和函數頭的注釋内容包括功能、參數、傳回值、設計思想、調用函數、日期、修改記錄、設計者資訊;

類、函數和方法,包括對象本身的參數和傳回值,對象相關的聲明格式、可選元素、類體成員、類内成員順序、方法釋義、影射關系、引用等;

錯誤處理:對于可能出現的錯誤資訊的提示方法、處理過程和邏輯的定義;

相容性規範:對于程式開發過程中涉及同一程式或語言由于版本不同可能導緻的相容性或功能問題,以及适配周邊系統環境的相容性問題的處理;

資源調用:區分debug版本和release版本,同時對系統軟硬體資源進行配置,例如指針、資源釋放等。

在項目建立之初,通常所有的文檔規範就需要制定好,這些規範或材料通常會通過知識中心或知識庫作統一管理,這些知識庫或知識中心可以內建到svn、bug管理工具、wiki工具、知識管理系統以及其他項目管理工具或公司系統中,以便于知識和制度共享以及資訊釋出。

4.項目産品類

項目産品類的規範和制度主要針對項目實施和産品實施的整個項目制定的相關規範。項目産品類的規範和文檔的主要對象是項目中不同階段的參與人員,包括項目、産品、設計、開發、運維等人員。

項目産品類規範和制度涉及每個文檔生命周期的始末,從建立、審批、釋出、變更、分發、追繳、歸檔、廢止到恢複等。

常見的項目文檔通常分為4個階段分别進行定義:

(1)立項前的市場分析類

立項前的市場分析類文檔通常包括市場調研報告、可行性報告、風險評估報告等。這三份報告都是針對市場調查、收集、整理和分析後,結合市場規模、特點、容量等對項目的可行性、前景、利弊、機會進行分析,常用的次元包括宏觀環境、競争對手、自身情況、目标客戶等,分析模型包括swot、pest、stp、4p、4c、波士頓矩陣、五力模型、生命周期模型等,分析方法包括系統分析法、結構分析法、演繹分析法、定量與定性分析法、案例分析法、複合分析法等。

(2)立項後的規劃分析類

立項後的規劃分析類主要指的是在項目立項後,為了整體項目的開展而進行的整體規劃和分析工作,通常産出物為項目開發計劃文檔。項目開發計劃中通常涉及對項目前景、主要内容、參與範圍和人員、人員角色定位與分工、計劃實施分解和進度跟蹤、關鍵裡程碑及産出傳遞物、前置和限制條件、預期和最晚傳遞時間、驗收标準和評審、成本和預算評估、風險評估和控制等。制訂開發計劃需要不斷細化和豐富,開發計劃是項目經理管理和跟蹤的依據,可起到指導項目組的整體進度調控和日常工作跟蹤的作用。當實際開發情況與開發計劃偏離較大時,應修正開發計劃或實際開發情況。

(3)實施中的開發規範類

項目開發實施過程中,在不同階段涉及不同的文檔和規範,從實施的階段來劃分可分為産品類文檔、技術研發類文檔、測試類文檔三類。

産品類文檔包括軟體/産品需求說明書、ui/ue設計規範、使用者互動設計規範等。

技術研發類文檔在2.3.2節中有具體解釋,在此不再贅述。

測試類文檔包括測試計劃書、測試評估報告、問題追蹤報告等。

(4)實施後的驗收類

項目實施完成,通常需要傳遞一系列文檔,可能包括軟體/産品驗收報告、項目總結報告、營運管理手冊、軟體品質保證計劃書、使用者操作手冊、幫助文檔和faq等。

除此以外,項目進行過程中,會貫穿着多種項目跟蹤類報告,包括開發進度月報、階段性總結報告等,這些報告根據實際排期和裡程碑計劃情況安排即可。

對于項目文檔的管理,可以使用svn,但通常更多的是使用專門的項目文檔管理系統,例如vss、hfs、teamoff?ice、sharepoint等。但采用何種工具,具體根據企業需求和實際情況進行選擇即可,适合的才是最好的。

5.資料挖掘、分析和應用類

資料挖掘、分析和應用類規範是針對開展資料工作中,涉及非技術開發類的資料挖掘、分析和應用類的流程和方法而制定的規範,其目的是保證資料工作的及時性、有效性,以及結果的正确性和可應用性。

按照資料工作的項目流程,通常分為需求溝通、需求提報、商業了解、資料準備、資料挖掘(含分析)、部署實施6個階段,如圖2-6所示。整個過程應該通過一定的工具和流程規範進行控制和集中管理,否則資料工作就會失控并且毫無落地價值可言。

(1)需求溝通

需求溝通已經在資料需求管理中提到,不合理或不可行的需求将被直接駁回。正常情況下,需求溝通當天應該回報溝通結果。對于需求中由于主客觀原因無法實作的、錯誤的需求,無法落地的需求以及重複需求應該予以駁回。在這個過程中,建議采用資料對接人制度,将不同業務部門負責資料對接工作的人員固定下來。

《企業大資料系統建構實戰:技術、架構、實施與應用》一2.3 大資料制度和流程規範

圖2-6 資料項目工作流程

很多時候業務需求不能落地,例如資料提取工作隻是為了驗證工作效果,對于此類簡單的需求需要通過教育訓練、開放權限等方法讓業務自行實作。資料部門不應該把時間浪費在這種價值太低的工作上。

(2)需求提報

在需求提報階段,不符合公司利益或可能對公司産品産生負面影響的需求也将被駁回。需求提報和審批根據不同企業的流程複雜程度和實際審批效率而定,通常在1~7天之内完成。當續期需求中涉及公司敏感性名額、較高的資料權限、加密和解密處理、外部資料處理請求等特殊内容時,通常需要通過公司内部oa類系統進行申報和審批。

資料需求提報管理是資料需求稽核中不可或缺的步驟,在很多大型企業中往往是企業級流程管理的重要部分。需求提報管理過程中,企業上司層從企業全局的角度把控資料需求是否合理,其決策關乎整個公司而非資料部門。

(3)商業了解

商業了解是将業務語言轉化為資料語言的過程,目的是确定業務預期效果的次元、範圍等,這個階段通常需要2~3天的工作時間。商業了解階段包括兩部分内容:

商業了解溝通:資料部門了解業務部門具體需求的過程。

資料思路溝通:資料部門将業務了解轉化為資料分析和挖掘思路的過程。

本階段的産出是資料分析和挖掘工作思路,通常以思維導圖的形式輸入并加以溝通确認。如圖2-7所示為管道畫像分析思路。

《企業大資料系統建構實戰:技術、架構、實施與應用》一2.3 大資料制度和流程規範

圖2-7 管道畫像分析思路

(4)資料準備

資料準備是對即将進行的分析和挖掘工作進行預處理,包括從資料倉庫中取數、驗證資料品質、資料特征提取、異常值處理、資料轉換和合并等,為後期的資料分析挖掘做準備。這個階段是費時但非常重要的工作,前期這個工作做不好會直接影響資料品質,進而影響結果的可信度及穩定程度。

該項工作通常需要1~4天的工作時間,根據原始資料品質及資料量級的不同而有所差異。階段性資料産出結果為資料品質報告以及清洗之後的資料。

資料準備是資料工作中的難點,很多時候由于原始資料品質較差或資料從業者自身工作經驗和能力不足,導緻大量時間耗費在資料準備和清洗階段,使得後期資料價值挖掘的投入精力不足,進而影響資料結果和價值産出。是以,這個階段一定要在保證資料品質的基礎上縮減投入時間。

(5)資料挖掘(含分析)

經過前期的各項準備工作,接下來就開始了資料工作的核心環節——專項分析和挖掘工作,包括常用的描述性資料統計方法,lda、pca等資料預處理和轉換方法,時間序列、分類、聚類、回歸、關聯和序列關聯、規則提取等傳統資料挖掘和模組化方法,以及協同過濾、神經網絡、深度學習、自然語言處理等監督式和非監督式學習算法等,并在專項分析或模組化結束後完成模型測試和評估工作,以保持模型的穩定性和最佳拟合度。

本階段通常需要至少一周的時間,産出結果包括資料挖掘流、資料挖掘報告等。在報告中需要對資料挖掘的背景、資料選取和處理方法、異常值處理措施、資料模組化主要流程、資料挖掘結果評估和解讀說明等内容進行描述。這也是規範資料挖掘工作的必要措施。

(6)部署實施

部署實施包括資料結果溝通、制定落地方案、業務落地執行、資料再優化四個階段。

資料結果溝通:結果溝通可能通過郵件、會議等方式開展,溝通的内容主要是圍繞業務需求和資料結果,還包括對資料結論的進一步深入讨論。

制定落地方案:在溝通過程中需要有落地方案的制定部分,即根據資料結論和建議确定下一步工作計劃和排期。

業務落地執行:根據業務制定的落地方案跟進實施,實施過程中同步監測資料回報結果。

資料再優化:針對執行結果做模型和資料結論的調整優化,進而不斷疊代項目程序,直至達到理想業務目标或業務預期。

在整個項目結束後通常會進行項目總結,總結内容包括前期需求溝通是否清晰,中期資料處理、分析和挖掘存在哪些可優化點,後期資料落地效果和協作流程改進等。

不是所有的項目都以成功結束,很多時候由于主客觀原因導緻項目失敗。但項目失敗也是一種知識成長的過程,此時更應該與業務部門一起深入總結,以避免日後出現類似的失敗問題。

本階段的時間大概為2周左右,具體以業務落地執行時間為主。産出結果包括業務落地計劃方案、落地執行結果評估報告等。

由于不同的制度具有不同的内容指向性,是以不同類型的文檔規範的内容主題不同。對于不同類型的規範和制度,通正常範會涉及以下幾個方面:

1.頁眉

頁眉資訊英語封面(如果有)應與正文部分相同,由公司名稱或logo、制度編号、制度名稱及釋出日期組成。制作頁眉時需要注意以下幾點:

文字格式:統一使用一種格式,通常使用宋體五号字。

制度編号:由中心簡稱、部門簡稱和分類順序号三部分組成,由相應的管理部門在制度釋出時統一編制并添加。

制度名稱與封面頁頂端所注标題一緻。

釋出日期以公司制度審批最高層簽發日期為準,由管理部門在制度釋出時标注。

2.頁腳

頁腳資訊應與封面、正文部分相同,其内容及形式固定,制度起草部門不應擅自修改,具體内容為頁碼資訊,如“第×頁共×頁”,為了提高規範或文檔的保密性,還可增加一些版權或禁止類資訊,例如“内部資料嚴禁外傳”,且其字型格式應該與頁眉保持一緻。

3.封面

封面包括标題、文本框及目錄三部分内容。制度标題結構為“管理主題管理制度”,後面标注版本号,例如資料庫管理制度v1.2。制度名稱應明确展現制度規範的主要事項,使之與其他制度相區分,同時應力求簡練,不應涉及不必要的細節。

制度名稱一欄字型必須具有統一的格式要求,例如“黑體,小四,加粗”。

文本框行和列需要固定,例如可做成兩行三列的表格,包括版本号、附件數、密級、撰寫人、稽核人、審批人六項内容。前四項由制定部門根據實際情況填寫,稽核人、審批人欄由管理部門在釋出制度時填寫,稽核人根據審批單情況填寫,審批人欄填寫最高制度審批層電子簽名。

目錄部分的“目錄”兩字居中排列,字型應統一,例如“宋體,五号,加粗”;目錄正文根據制度正文中的一級标題和二級标題自動生成,字型統一為宋體五号。正文部分進行修改後,應同時更新相應目錄。

通過word中的引用功能來生成目錄是一個維護目錄和内容一緻性的有效方法。

4.正文

制度正文包含目的、範圍、名詞解釋、職責、管理制度、工作流程、注意事項、附件八部分内容。

目的(必備):簡要說明制度出台所需要解決的問題,或要達到的目标,以及制度的作用和意義。

範圍(必備):說明制度的适用範圍(适用于哪些部門、人員、事項及工作環節)和釋出範圍(制度需要在哪些部門、區域或人員範圍内釋出)。

名詞解釋(可選):主要對制度中出現的專有名詞進行解釋或界定範圍,以便大家準确了解。一般包括需要相關知識、技術背景或工作經曆的人才能了解的專業術語,以及使用中有不唯一确定含義的詞語和其他特定含義的用語。

職責(必備):主要确定制度中各事項、環節的實施主體部門、崗位,以及與此相關的其他部門、崗位的分工、各自的權限和互相間的協調關系。

管理制度(必備):管理内容和管理方式是管理制度的主體内容。管理内容與要求主要規定該制度管理的業務内容、工作标準及具體要求、資訊回報的管道、時間等;管理方式主要規定對管理事項執行檢查、考核的負責部門、内容、程式、時間、方法等。

工作流程(必備):對制度涉及的特定業務工作的流程予以較長的描述,必要時可以輔以流程示意圖或标準流程圖。

注意事項(可選):對制度了解與貫徹執行中的需要予以特别強調、提起重視或有特殊要求、須格外注意的問題做出說明,例如制度的生效或實施日期、制度的執行部門、解釋權限等。

附件(可選):附件即為制度内容中所要求的相應記錄及管理表單(空白模版),須為公司其他管理制度檔案中所未包含的。制度内容中首次引用附件時,需在該附件名稱後作“(見附件×)”标注。

正文部分各部分序号使用多級清單形式,一級清單頂格排列,以下一般依次縮進2位元組。

正文中一級标題一般設定為“标題1”樣式,制度的主要、重點部分的二級标題可以設定為“标題2”樣式,以便在目錄中引用。正文部分字型需統一(例如統一使用宋體五号字,标題加粗,段落設定段前段後均為0,行間距一律為1.4倍)。

5.附件

附件應按文中所列順序置于正文之後,一般情況下各附件獨立排列。對于管理制度的附件通常包括管理彙總資訊表和新增管理内容表兩部分。

6.附錄

其他需要展現在制度中的特定内容或指導資訊。

繼續閱讀