天天看點

商務大資料統計

第一部分 項目背景及挑戰

1.項目背景與意義

伴随着網際網路與資訊技術不斷發展,系統資料量不斷增大,資料分析越來越複雜。如何從海量資料中挖掘出有價值的資料資訊,輔助科學決策、促進社會經濟發展,成為政府行政服務能力一項新考驗。近年來,商貿流通統計工作進展迅速,名額體系基本成型,統計工作機制初步建立,資料樣本結構不斷優化,統計成果應用加深。但目前商貿流通統計中還存在”資料品質參差不齊、行業分析深度不夠、統計人員業務素質有待提高”等問題。另外,商貿流通資料分散在相關地市商務局的各個原有部門,無統一的儲存方式和标準,存在”資料散、統計困難、資料展示不直覺、資料使用率不高”等問題,需要将分散、異構、多源的資料進行歸集處理。是以,結合商貿流通統計業務需求設計适用輕量級資料倉庫,開展面向統計業務的資料映射換規則研究,利用計算機軟體技術解決商貿流通資料處理分析難題,對于提高統計效率與加強行業資料分析深度,具有重要的工程價值。

2.應用場景與需求

東莞市商務局作為東莞首個大部制改革的典範,商務資料統計工作強度越來越高、需求變化越來越快。同時,東莞商務局現有商務資料比較分散、難于利用,而且統計工作大多基于傳統人工方式,統計效率不高、統計實時性不強、統計深度不夠、資料展現不直覺,缺少對商務資料進行趨勢預測,迫切需要基于大資料經濟統計系統,以資料全方位、有深度、高效率的統計分析為目标,實作商務資料的統一處理、經濟統計更高效。

3.IT環境及資料資源

3.1基礎IT環境

商務局内部建有的系統分為内部應用系統和垂直應用系統,内部系統主要為局内自建的應用系統,供局内部從業人員進行獨立業務統計查詢使用;在内部系統IT設施中,有16台伺服器,主要以IBM、DELL伺服器為主,其中,有超過7台伺服器,其配置較低(CPU小于8核,記憶體低于8G),各伺服器作業系統以Windows server2003、Ubuntu系統為主,資料庫系統分别是Microsoft Sql server以及 Oracle;儲存設備使用HP的光纖存儲,容量為1T,存儲IO為1G,帶寬偏低;垂直應用系統多為商務部及商務廳系統,經商務内網或VPN直連網絡使用,供商務局各科室及鎮街辦單獨填報資料及下載下傳資料。

3.2資料分布與組成

東莞商務局現有資料,既有内部資訊系統采集,也有垂直系統采集,同時還包括第三方政府機構資料,如海關(按年支付資料費用);資料統計要求按月度定期進行彙總統計,并形成統計報表。

目前東莞商務局月度報表的資料采集來源主要有以下3個:

(1)商務局職能科室的資料采集:采集方式是通過應用系統以表格方式導出Xls資料,再經過手工彙總、處理後形成統計報表。

(2)東莞市級相關部門的資料采集:涉及工商局、統計局、地稅局、外彙局、科技局,需要通過東莞市政務資訊共享平台采集相關資料。

(3)業務系統的資料采集:中央、省級直屬應用系統資料。這部分未提供資料接口,隻能通過手工複制粘貼到Xls檔案的方式采集。

已有系統分為内部應用系統和垂直應用系統,内部系統主要為局内自建的應用系統,供局内部從業人員進行獨立業務統計查詢使用;垂直應用系統多為上級商務部門及商務廳垂直系統,供填報資料及下載下傳資料。

4.問題與挑戰

4.1異構多源資料采集清洗

傳統的資料采集方法主要在同源、同構資料間,主要以資料庫廠家提供的資料處理工具為主,選擇源資料庫與目标資料庫執行”比對、比對”等操作,并以中間表形式存儲映射結果。在不同資料庫平台之間資料互連操作,稱為異構資料庫內建,各個資料庫廠家均提供異構互連的方法,但各廠商方法不一樣。

Oracle中異構內建技術稱為透明網關(Transparent Gateway),在Oracle8i版本後,通過使用ODBC元件連結SQL服務,通過SQL服務對各類資料庫進行SQL操作。SQL server的異構內建工具稱為Linked Server,通過ODBC實作與其它資料庫的互聯。Hadoop的Info Sphere Data Explorer平台,實作了大資料、RDBMS、Streams、File System與WEB 2.0等異構資料采集架構。

通過調研,東莞商務資料分散在多個資料源與不同資料庫系統中,資料結構與資料分布複雜,如何實作異構多源資料采集、清洗、建庫以利于資料應用是面臨的首要問題。

4.2商務資料分析與挖掘

傳統商務資料分析挖掘主要以政府管理部門的經濟資料為主,但随着網際網路、電商平台的快速發展,跨境交易、線上交易系統的發展越來越快,商務資料統計需要涵蓋各類網際網路平台的資料。東莞作為外向型經濟主導城市,外貿、外資市場非常活躍,商貿流通情況非常複雜。經濟統計中貿易方式、區域經濟發展、轉型更新等經濟統計口徑多、資料結構多樣。在商務資料分析與挖掘領域,各類計量工具與數學方法非常普遍。通過資料分析與挖掘,規避了傳統商務經濟研究中純理論文字描述的弊端;針對經濟發展趨勢、預測等問題,通過計量分析提高了經濟研究的準确性與科學性。

商務資料分析與挖掘也是區域商務統計、商務經濟分析的重要組成部分,在經濟學上有較多的基于統計的資料分析與挖掘模型及算法,但模型的應用較宏觀,在地市經濟體與細分産業行業領域如何選擇有效的商務資料分析與挖掘模型,是項目面臨的另一個重要挑戰。

第二部分 技術解決方案

1.拟采用的技術方案

1.1異構資料采集清洗

多源異構資料有兩種情況,一種是指不同資料庫(多源)并且資料庫結構不同(異構)。在這種情況下,資料映射方式與多源同構資料映射方式差别不大。但由于使用異構資料庫互連操作,會出現執行效率不高、系統開銷大等問題。另外一種多源異構情況指不同資料源(多源),且資料分為結構化和非結構化(異構),此種情況也可以稱為”大資料映射”。由于此種情況下,資料結構不固定,資料品質和資訊量複雜,資料映射方法除了要考慮常見的異構問題外,還需要考慮大資料的采集處理效率、映射準确率與資料轉化使用率等更多問題。

1.2商務資料分析與挖掘

在經濟統計領域有很多不可量化的模糊問題,如經濟發展預測、外貿走勢等。面向這些複雜的經濟問題,需要高品質的統計資料,需要用到準确、高效的量化分析方法與算法模型,還需要結合區域經濟的現狀與理論。大資料時代的經濟統計分析将使用計算機技術,改變經濟統計分析的現狀,在經濟統計分析中将複雜的經濟現象收集整理,運用統計方法與模型對資料進行定量分析與運算,将模糊的經濟問題通過統計清晰的抽象描述,大幅提高經濟統計效率和分析準确率。

随着計算機技術的快速發展,雲計算、大資料技術讓大規模資料采集、處理、分析變得成本更低、效率更高,近年來利用資料倉庫對大量資料處理變得更可行。

商務資料分析與挖掘有兩種思路:一種不關注高深的資料挖掘理論與算法,利用高性能計算機處理大量的資料并實作資料分析挖掘。這種方法在”描述性統計”中應用效果較好,但由于大量資料帶來的資料品質不高、算法效率低及資料結構不一緻等問題,導緻在”推斷統計”中預測結果不可控。另外一種是通俗化。即将資料分析與挖掘結合行業知識,利用計算機将大規模行業資料通過分析挖掘轉化為資訊。

1.3技術選型與設計

系統基于java J2EE技術架構,并通過 B/S模式支援web和移動通路;通過SSH內建架構實作MVC三層架構,由Struts負責表示層和服務邏輯組裝,Spring負責管理服務層,通過配置來實作核心業務邏輯,Hibernet負責平台模型和持久化層,并支援資料庫表到資料實體的轉換,最終實作表示層、業務層、資料持久層、實體層、服務層的解耦分離。平台在表示層采用Ajax的異步處理技術,靈活支援web套接字對長服務的調用,同時服務層以RESTful web方式提供GET/PUT等常用資源操作接口。

2.技術思路與技術路線

2.1技術思路

要解決東莞商務局現有的問題,達到未來的預期目标,應從整體、全局上把握目前重點解決任務,形成長遠可持續的大資料平台發展思路,以”分步建設,重點先行,邊建邊用”為建設原則,以”上平台,統資料、成體系”為建設思路。以面向政府、行業協會、企業,打造提供”全方位、系統化、多層次”的商務資料服務為總體目标,以”一庫、一平台、三體系、兩标準”為重點建設内容,結合東莞市商務經濟實際情況,勇于創新,突出重點,循序漸進,逐漸實施。

第一,加強與有關部門、協會的溝通協作,以”政府牽頭、部門配合、行業協作、企業主動”工作思路,建立政府、鎮街、協會、企業多級資訊采集機制。

第二,充分利用市資訊資源共享平台,注重商務資訊資源整合,努力建立規範、完整、系統、科學的資訊搜集管道,形成集中統一的商務資訊共享資源池。

第三,充分運用大資料、分析挖掘等技術手段,創新政府服務職能,提高統計資料品質、商務經濟運作監測預警、經濟決策支援、企業引導服務水準,提升商務資訊資源利用能力,不斷放大對政府決策和企業發展的服務效能。

第四,分階段,逐漸實施,結合東莞市實際,以内部統計服務能力提升基礎,以服務政府決策和企業服務為根本,逐漸提升決策支援的精準性、科學性,豐富完善企業精細化、精品化服務手段,重點建設最急需、最實用、最便捷的商務經濟運作名額,不斷發揮商務資訊資源分析價值。

2.2技術路線

項目重點規劃建設商務資訊資源庫,商務大資料服務軟體平台,貿易監測預警體系、決策支援服務體系、企業引導服務體系三大體系,及商務資訊資源和運作服務兩套标準規範。

商務大資料統計

如上圖所示,技術路線重點考慮如下:

一方面,平台整體支撐能力,按照領域驅動設計理念,運用子產品化、元件化、服務化的整體架構,充分考慮平台後續資源擴容性、使用者規模增長、模型分析需求,保障可擴充性、高并發性、可用性、安全性。

二方面,資訊梳理擷取方式,通過設計多種采集政策,除傳統資料錄入、導入外,運用接口采集、資料庫引擎調用、web服務等技術手段,實作包括不同來源、不同類型、不同結構的商務資訊統一歸集。

三方面,資料存儲處理能力,綜合運用傳統資料庫及NoSql對資料進行分類存儲處理,傳統結構化資料采用關系型資料庫存儲;半結構化或文檔型資料采用非關系型分布式資料庫存儲。根據資料一緻性不同層次要求,提供分類存儲保障,包括記憶體cache、同步更新、異步更新等機制結合。并充分運用大資料并行計算架構,提升資料高并發的處理響應能力。

四方面,資料綜合分析與決策支援手段,除傳統資料統計分析方式外,進一步建構商務主題分析資料倉庫,并綜合運用分析挖掘中的特征抽取、分類、聚類、決策、神經網絡等大資料分析方法,建立各類商務運作名額和模型,充分發揮大資料在決策支援、形勢研判、趨勢預測等方面作用。

五方面,商務資訊服務能力提供,建立面向政府、行業、企業及向社會開放的統一資訊服務目錄,授權對服務内容訂閱;建立統一的資訊稽核釋出制度,定期将商務運作分析結果向不同對象開放和推送。

3.技術方案架構和特點

3.1技術方案邏輯架構

商務大資料統計

商務大資料統計項目充分考慮了現有電子政務基礎資源,利用雲計算和大資料技術,按照”九層兩翼”的邏輯方式進行設計。描述如下:

使用者層:平台主要的服務對象包括政府上司、主管機構、涉外經濟機構,以及行業、企業

展示層:各類使用者擷取服務和互動的統一入口,主要由門戶和各類通路管道組成,通路方式包括web和移動端。使用者可以通過各種管道進行所需服務的通路,實作任何時間、任何地點的多管道通路。

應用層:根據局内業務職能和東莞市商務運作發展需要,通過調用平台提供的各類标準服務接口,完成統計應用和管理服務兩大類應用系統定制,其中統計類主要滿足各科室資料統計分析職能,管理服務類則在統計分析基礎上,建立業務模型并提供基于商務監測運作、預警、預測分析、綜合研判服務,如外貿走勢、消費趨勢、出口貨源地分布、公平貿易指數等。

服務層:該層主要對平台各類業務所需的基本操作進行服務封裝,通過元件化、接口化方式對上層應用提供統一接口。服務元件共分互聯互通、内部職能、輔助決策、企業服務4大類,其中互聯互通主要提供商務領域統一的資訊資源目錄和資訊共享服務接口;内部職能類主要提供商務資料上報、統計分析、行業市場監測、業務名額查詢;輔助決策主要通過模型分析結果,對行業、區域、市場發展趨勢和未來形勢作出預判和多元分析;企業服務是将局内的經濟統計分析、趨勢預測、市場動态等資訊,在保障資訊安全前提下,有針對性的向企業推送。

模型層:該層主要是通過大資料分析挖掘工具,對平台已有曆史資料樣本,進行統一的分析,抽取各類業務主題的特征,建立資料分析模型,主要包括外貿發展 、企業經營、統計名額3大類模型。

支撐層: 該層為平台的通用支撐層,為平台各類應用系統提供統一的業務和資料管理運作時支撐。其中資料管理方面包括統計管理、報表管理、報告管理、分析挖掘、查詢檢索等子產品;業務管理方面包含工作流引擎、服務管理、消息管理、統一授權等子產品;此層将更多完成中間資料和業務的協調和支撐。

資源層:提供平台統一的資料資源規劃和分類存儲,我們将資源分為基礎資料、統計資料、主題資料3大類。其中基礎資料考慮業務需求,分為外貿、外資、商貿流通、口岸、電子商務5類業務基礎庫以及企業綜合基礎庫(根據企業類型,将涵蓋5類業務資料中1類或多類);統計庫主要由基礎資料根據統計名額進行組合統計所建立的結果庫;主題庫則是基于各類業務模型驅動,從特定的業務次元切入,将模型所需的各關聯資料元素進行統一分類存儲。商務資訊資源的統一劃分和歸集,可為上層資料查詢和模型分析,避免資料的重複浪費和互鎖,提供穩定的資料架構。

采集層:該層主要實作對各類商務關聯資料進行統一的采集存儲,采集來源包括局内部系統、資訊資源共享平台、企業、網際網路資料,采集方式包括應用系統接口調用、網絡抓取、标準web接口,手工錄入或批量導入。采集後的原始資料經過特定規則處理後,根據資料結構化特征存儲到關系型資料庫或基于Hadoop的HBASE中。

基礎層:依托于市電子政務雲平台,為大規模資料處理和并發應用提供強大的計算、存儲、網絡基礎環境及資料庫。

3.2技術方案特點

采用雲計算的部署模式,把資料平台放在東莞市統一電子政務機房,由市政府統一提供實體資源,并負責平台營運及安全技術等,切實提高資料的安全性,保障平台的運作安全性、快捷性和易用性。

此外平台通過調用大資料引擎采用國雲科技股份有限公司自主研發大資料引擎GD-PUMA産品,以完成多源異構資料采集、存儲、處理;根據業務應用需求,通過并行計算架構支援高并發資料查詢及模型的疊代學習演進;由大資料引擎資料的高可用環境和分布式計算排程,保障系統沒有單點。

3.3技術方案部署

商務大資料統計

商務大資料統計将統一部署到市電子政務雲平台。市電子政務雲平台網絡部署有兩個區域即DMZ區及伺服器區,其中DMZ區屬于隔離區可外網通路及内網受限通路、伺服器區通過光纖直連商務局内網。商務大資料統計不僅為政府商務相關職能部分提供服務,更對公衆、企業、行業提供服務,平台将分别在伺服器及DMZ區部署。由電子政務雲平台提供基礎資源和資料庫服務。

大資料引擎、消息服務系統、認證伺服器、工作流管理等核心元件部署到伺服器區,充分保障部署的安全性。web伺服器、及各應用伺服器分别部署在兩個區域,其中DMZ區一般隻授權為浏覽通路。核心工作元件中消息總線負責資料交換路由、大資料引擎負責分布式任務排程,均采用備援設計;平台資料由伺服器區定期通過同步工具秒級更新到DMZ資料域;部署在DMZ區域的商務大資料統計主要為資料對外釋出使用,核心采集處理業務均在伺服器區完成。

4.成果展示

平台已經建構完成,經過推廣與試運作,具備了網頁端、手機APP應用端的推廣條件,平台主要實作了以下功能。

建構了一套商務大資料采集手段。通過對國家、省市的垂直系統及局内自有系統,市政務資訊資源共享平台,企業及市場資料線上上報接口,第三方官方權威商務資料釋出系統等三方面的商務資料和資訊彙集,建構了一個商務基礎資訊庫。

商務大資料統計

建立了”1庫+1平台+1門戶+15類子應用”的平台模式。明晰商務工作名額與全市GDP核算之間關系,以加強商務名額統計為立足點,梳理26類具體工作名額,形成了商貿流通、對外貿易、利用外資、口岸統計、綜合資料、電子商務等6大資料資源池。

商務大資料統計

實作了商務資料可視化展示。制定的報表數34大類,涵蓋外資利用、外貿進出口、社會消費、口岸通關、電子商務、城市綜合體、轉型更新等方面的分類和彙總統計,實作了商務資料分析的圖表可視化展示。

商務大資料統計

移動化商務經濟運作名額資料。建立了全市14個商務業務系統的資料共享管道,平台自動運算,資料就會自動更新。同時,可以通過網頁端、手機,随時随地檢視最新的商務統計資料,全面掌握全市經濟運作情況。

商務大資料統計

加強了薄弱環節統計工作。一是增加“一帶一路”沿線國家貿易資料統計,可以及時了解沿線各個國家的投資、貿易情況;二是加強加工貿易轉型更新名額建設及分析,通過平台就能直覺的發現運作走勢及存在問題;三是通過建立各類商貿流通資料模型,比如商貿流通、消費市場及東莞老字号等經營資料,可以對商貿流通情況進行實時的統計分析,進一步為強化經濟走勢分析提供強有力的支援。

商務大資料統計

掌握了商務經濟運作情況和發展規律。基于平台開發相關經濟分析模型算法和商務資訊資源庫,結合的商務領域資料及模型,在經濟模型分析結果的基礎上,建設商務智能統計分析的頻度類型和專題類型的報告,為各級商務部門提供集資訊釋出、業務管理、市場監測運作、政府決策支援、企業運作及風險預警服務等。

商務大資料統計

第三部分 項目總結

1.效益分析

東莞市商務大資料統計部署在東莞市電子政務辦雲平台,由電子政務雲平台提供基礎資源和資料庫服務,保障平台在實體及邏輯運作的安全性、快捷性和易用性;基礎設施由全市統一免費提供。該項目是财政性資金按公益型建設項目,故其收益主要來源于為服務對象帶來的間接收益。

1.1成本節約效益

一是人力成本、統計分析、資料應用成本的降低。例如:這塊據初步估算,僅33個鎮街商務機構平均每個機關即相對減少一個人工的成本,如果按照每人每年8萬元的成本計算,33個機關每年将節約人力成本約264萬。随着平台的建成和普及使用,商務局及各鎮街商務機構傳統的企業調研費用,包括交通費用、通信費用、招待費用、紙張費用等費用将大幅度減少,據初步測算,平均每個基層機關每年節約的調研費用約為10萬元,33個基層機關每年共節支330萬元,綜上所述,僅33個基層機關每年最少可節約經費:264+ 330=594(萬元/年)。

二是通過項目建設,有利于規範統計隊伍建設,提升我市商務資訊化整體水準。改變現有的粗放式統計方式,适應商務部統計工作需要。通過建立商務資訊資源的标準規範,建立統一的商務資料歸集利用機制,實作商務資訊資源處理的流程化、規劃化、制度化,将複雜的統計分析過程轉變為直覺可了解的資料操作步驟,将依賴于經驗的統計方式向依賴于平台的工作方式轉變,提升商務系統統計從業人員專業化素質,提升統計隊伍工作能力。随着平台應用工作不斷推進和深入,資訊資源将不斷積累、分析成果不斷豐富,平台将成為商務機構開展政務服務的主要“智囊”,以資料驅動不斷提升商務資訊化水準。

1.2社會效益

一是通過商務經濟研判模型給政府經濟決策的科學性、客觀性、有效性方面帶來宏觀經濟價值。平台的建設實施将向企業提供外貿發展經濟動态、進出口國家貿易政策法規,國内外市場及消費分布、熱點、趨勢,并針對重點國際區域提供定向資料分析報告,協助企業拓展市場空間,增加産品銷量,同時提前推送各類公平貿易、貿易摩擦事件,避免企業經濟損失,有利于拓展企業市場空間、避免經營風險;通過平台多方采集歸集市場運作資訊,通過宏觀和微觀分析預測方式,挖掘經濟發展規律特點和内生動力,帶動企業轉型更新,促進經濟發展方式轉變和産業更新,其宏觀經濟價值難以估量,其将輔助政府科學決策,帶動産業經濟發展。

二是有利于打造資訊共享形态,打造商務大資料統計典型示範。平台通過建構市、鎮兩級外貿、外資、内貿等資料,建設政企互動,企業資料上報及線上問卷調研,基于該類調查了解企業的共性及個性需求,企業自願上報了解企業經營動态,通過資料的比對分析,掌握企業未來動向,及時向企業推送商務資訊和市場分析運作報告等資訊服務。平台依靠鎮街辦、口岸辦關聯,轉變資訊開放共享方式,擴充資料資訊來源廣度和深度,以大資料分析為手段,基于平台企業資訊資源庫多元度資訊,了解和剖析企業整體和個體真實需求,推進政府職能轉變,将企業總體商務資訊及分析報告向企業主動推送,讓企業切實感受到政府關心企業、服務企業、扶持企業的用心,樹立政府良好社會形象和公信力。

2.經驗與教訓

東莞市商務大資料統計項目嚴格按照招投标程式開展工作,在監理規範下開發實施,并如期進行平台初驗和終驗,傳遞了平台。在平台實施過程中,實作:重調研,挖需求,分階段,管過程,推教育訓練,亮成果,也總結了相關經驗與教訓,例如在整合歸集商務系統業務資料源時,面臨業務系統衆多,管辦職能部門多,資料類型多樣,頻度更新不同,資料品質不高等,此類問題需要在一開始就學習商務業務口徑知識,并結合商務相關經濟統計制度知識理順業務系統裡的商務名額,這個項目團隊增加了平台業務系統調研、整合設計及開發難度,項目組采取了建立執行組織機構,開發人員駐場在東莞商務局客戶現場,邊建設邊溝通邊回報,逐漸明确明晰了商務業務源系統資訊采集方式、流程、資料格式、上報周期,協調業務系統對接人确定各資訊系統之間互動接口标準,對外提供的資訊服務方式,資訊的釋出稽核流程,形成了一套行之有效的業務系統資料源采集子系統和辦法。

在企業資訊資源庫的建設中,建構來東莞市商務局對東莞市商務經濟運作情況的宏觀、中觀和微觀的全面了解和掌控,實作對全市外貿、外資、内貿企業資訊的整合,形成外資、外貿、商貿流通、高新技術企業、上市企業、企業“走出去”等內建的多元企業資訊資料庫,平台建立了企業主體資訊識别算法,把對外貿易的海關進出口企業、加貿企業,利用外資的合同外資和實際外資企業,商貿流通的企業,部分内資企業,電商企業,上市企業等進行識别歸類,同時也納入企業的工商、稅務、社保、科技、統計等企業經濟運作資訊,建立東莞市全市商貿企業在外貿、投資、内貿等經濟運作情況總體宏觀畫像,對各類企業所屬産業行業的發展及程度情況進行中觀研判,對企業月度季度年度經營情況、發展形勢和曆年趨勢情況進行微觀精準把控。

3.項目創新點

實作一套東莞市外貿、外資、内貿等企業資訊的整合的企業主體資訊識别算法,對企業經濟運作情況的全面動态跟蹤及風險預警;

實作東莞一類經濟發展指數:加工貿易轉型更新名額建設及分析,直覺發現企業轉型更新過程中的總體運作走勢及存在問題;

實作基于東莞20多年的外貿資料及相關經濟名額資料,建構了一個外貿發展的研判預測模型,積極輔助相關職能機構對東莞外貿經濟發展走勢的把控;

基于平台提供的宏觀中觀的商務資訊資源庫和微觀的企業資訊資源庫,建構大資料看東莞商貿運作的外貿、外資、内貿等月度、季度和年度的産業、行業及專題類等分析服務報告,全面服務于東莞市經濟運作發展态勢需要。

4.項目負責人點評

以東莞商務局大資料項目為背景,利用ETL思路提出商務資料采集清洗處理與統計分析模型相結合的資料應用方法,針對區域商務資料進行采集、篩選、清洗、整合、分析。

在ETL資料內建過程中,選擇資料分析理論與項目實際相結合,實作了商務異構多源資料的采集整合與處理,解決了商務資料分析挖掘的難題,為東莞區域商務經濟分析預測提供了大資料支撐。

實際應用效果得到東莞商務局業務機關使用者的一緻好評,未來将面向其他地區同類客戶推廣複制東莞經驗。

第四部分 專家推薦

在商貿流通統計領域,沒有一種既能滿足微觀的異構資料處理轉換整合,又能執行宏觀統計分析模型,還能多元可視化展示的統計系統;面向具體項目提煉資料處理規則與資料分析模型,總結資料映射方法并通過軟體工程設計實作資料處理分析系統,具有市場價值。

利用ETL思路提出資料屬性處理與統計分析模型相結合的資料模型,探測統計分析模型在資料分析業務的準确性,有效提高了商貿流通統計分析效率與資料使用率。

繼續閱讀