天天看點

【大資料100分】CESI吳東亞:大資料标準及應用(進階教程)

【大資料100分】CESI吳東亞:大資料标準及應用〖大資料進階教程〗

主講嘉賓:吳東亞

主持人:中關村大資料産業聯盟 副秘書長陳新河

承辦:中關村大資料産業聯盟

吳東亞,中國電子技術标準化研究院資訊技術研究中心标準總監。1972年生,籍貫黑龍江。1992年畢業于東南大學自動控制系畢業,1992-2001年,在中國空間技術研究院碩士學習、工作,參加“神舟一号”飛船地面測試系統研制工作,積累了一線科研和工程經驗。2001-2004年,北京理工大學博士學習。2004至今,中國電子技術标準化研究院工作,期間到歐洲标準化機構留學。涉足電子資訊技術領域國家/行業标準化、檢測、認證、注冊等各項工作,組織研制了資料管理、資訊化、網絡等領域多項國家/行業标準研制工作,推動我國自主研制的閃聯(IGRS)、元模型互操作、物聯網辨別等技術成為國際标準。作為主筆專家,參與《新一代資訊技術标準化指導意見》、《戰略性新興産業标準化規劃》和《軟體資訊技術服務業“十二五”技術标準體系建設方案》等檔案起草。現負責資訊技術領域國内、國際标準化工作。

以下為分享實景全文:

中國電子技術标準化研究院系統地開展大資料标準化研究,大概有一年多的時間了,很高興在這裡和大家分享我們的一些想法。

首先我們看一下大家現在在大資料方面都在做什麼

從國際上看,大資料方面的工作主要集中在以下4個方面:一是政府層面,主要是提供政策導向,推動政府資料、科學資料開放,為大資料發展提供政策支援和可信資料來源;二是研究機構利用政府資金,開展科學資料、論文等開放資料集建設,并開展資料集間互操作方面的研究;三是Google等公司研制了分布式資料處理平台等産品,為大資料發展提供技術和産品支撐;四是标準化方面,目前最為實質性的是ISO/IEC JTC1成立了大資料研究組,由美國NIST牽頭,NIST系統地開展了大資料架構、資料、安全需求等方面的研究,研究成果将貢獻至JTC1。

從國内情況來看,多個地方政府提出大力發展大資料的政策導向,在北京市率先開放了政府資料資源;中國科學院計算機網絡資訊中心研發了科學資料庫等開放資料集;阿裡利用擁有的大量商業資料為基礎,進行統計、分析和挖掘,對外提供資料服務;人民大學等研究院所和百度、阿裡等公司正在開展大資料處理技術和平台研制工作;在标準化方面,全國資訊技術标準化技術委員在充分調研基礎上,提出了技術體系參考模型和标準體系架構,提出了術語、體系結構、資料表示、非結構化資料、資料品質、科學資料集等方面标準,其中多項标準已經立項。

從國際标準化角度上來看,最早開展工作的是ISO/IECJTC1/SC32(ISO/IEC 第一聯合标準化技術委員會 第32分技術委員會)。

ISO/IEC JTC1 SC32 (資料管理和交換)分技術委員會,是與大資料關系最為密切相關的标準化組織。

SC32下設4個工作組和幾個研究組,

WG1:電子業務

工作範圍為:研制為達到各組織使用的資訊系統間全球互操作所需的開放電子資料交換方面的通用IT标準,包括商務和資訊技術兩方面的互操作标準。

WG2:中繼資料

工作範圍為:研制開發和維護有利于規範和管理的中繼資料、元模型和本體的标準,此類标準有助于了解和共享資料、資訊和過程,支援互操作性,電子商務以及基于模型和基于服務的開發,

WG3:資料庫語言

工作範圍為:為動态規定、維護和描述多使用者環境中的資料庫結構群組件制定和維護語言标準;

WG4:SQL多媒體和應用包

工作範圍為:規定各種應用領域使用的抽象資料類型包的定義。

JTC1/SC32是一個長期開展資料管理标準化研究的組織,大家熟悉的SQL語言、中繼資料等等标準都是這個組織研制的。

目前SC32還存在下一代分析技術與大資料研究組( SG Next Generation Analytics and Big Data)、雲計算中繼資料研究組(SG Metadata for Cloud Computing)和基于事實基礎的模組化元模型研究組(SG Metamodel for Fact Based Modelling)等專項研究組,2年前,SC32針對大資料、社交網絡、雲計算等新興領域,開展了相關的相關研究工作。後來,他們發現這個已經超過了SC32的範圍。

ISO/IEC JTC1于2013年11月全會上新成立負責大資料國際标準化的研究組(ISO/IEC JTC1 SG2)。美國國家标準與技術研究院(NIST)專家Wo Chang擔任召集人。

2014年ISO/IEC JTC1 SG2的工作重點包括:調研國際标準化組織(ISO)、國際電工委員會(IEC)、第1聯合技術委員會(ISO/IEC JTC1)等在大資料領域的關鍵技術、參考模型以及用例等标準基礎;确定大資料領域應用需要的術語與定義;評估分析目前大資料标準的具體需求,提出ISO/IEC JTC1大資料标準優先順序;向2014 年ISO/IEC JTC1全會送出大資料建議的技術報告和其他研究成果。

這也是國際标準化組織對于新興領域進行規劃的常用方法。針對一些新興領域,他們往往首先開始标準化預研,界定範圍,例如雲計算、物聯網等領域,都是先預研,然後系統地開展标準化工作的。

大資料研究組的成立,标志着JTC 1統籌開展大資料的标準化工作,有利于大資料國際、國内标準化工作的開展。截至到目前,ISO/IEC JTC1 SG2于2014年計劃召開三次會議,每次四天,前兩天為成果交流展示,後兩天為具體标準工作讨論。第一次會議于2014年3月18日至21日在美國聖地亞哥超級計算中心召開;第二次會議于2014年5月13日至16日在荷蘭阿姆斯特丹大學召開。第三次會議計劃于2014年6月在中國召開。

6月份的會議,正巧在北京召開。SC32全會、JTC1/WG2開放論壇“大資料标準化”、SG2 大資料研究組會議,都集中在今年6月份在北京召開。國際上大佬将齊聚北京。

ITU在2013年11月釋出了題目為《大資料:今天巨大,明天平常》的技術觀察報告,這個技術觀察報告分析了大資料相關的應用執行個體,指出大資料的基本特征、促進大資料發展的技術,在報告的最後部分分析了大資料面臨的挑戰和ITU-T可能開展的标準化工作。在這份報告中,特别提及了NIST和JTC1/SC32正在開展的工作。

從ITU-T的角度來看,大資料發展面臨的最大挑戰包括:資料保護、隐私和網絡安全;法律和法規的完善。根據ITU-T現有的工作基礎,開展的标準化工作包括:高吞吐量、低延遲、安全、靈活和規模化的網絡基礎設施;彙聚資料機制和匿名;網絡資料分析;垂直行業平台的互操作;多媒體分析;開放資料标準。ITU-T正在開展的工作中,與大資料最為密切相關的是已經提出了一項題目為“基于大資料的雲計算的需求和能力”的新工作項目,将由中國、南韓和波蘭的專家為主研制。

ITU-T是專門研制電信标準的國際标準化組織,重點針對大資料環境下如何提高網絡的支援能力角度做了标準化研究。

這裡要特别提到NIST的工作。NIST,即美國國家标準和技術研究院。NIST建立了大資料公共工作組(NBD-PWG),工作範圍是建立來自于産業界、學術界和政府的公共環境,共同形成達成共識的定義、術語、安全參考體系結構和技術路線圖,提出資料分析技術應滿足的互操作、可移植性、可用性和擴充性的需求和安全有效地支援的大資料應用的技術基礎設,用于大資料相關方選擇最佳的方案。

NBD-PWG是一個開放工作組,歡迎來自于産業界、學術界和政府的各方面力量參與并貢獻力量。原則上,工作組每周召開一次會議。工作組下設術語和定義、用例和需求、安全和隐私、參考體系結構和技術路線圖5個分組,目前正在研制《大資料定義》、《大資料術語》、《大資料需求》、《大資料安全和隐私需求》、《大資料參考體系結構》和《大資料技術路線圖》等輸出物,均已經形成了初步版本。

下面說國内的情況。

全國資訊技術标準化技術委員會(SAC/TC28,簡稱信标委)持續開展資料标準化工作,在中繼資料、資料庫、資料模組化、資料交換與管理等領域推動相關标準的研制與應用,為提升跨行業領域資料管理能力提供标準化支援。

信标委中與大資料關系比較密切的組織包括:信标委非結構化資料管理标準工作組、信标委雲計算工作組、信标委SOA分技術委員會(籌)、信标委傳感器網絡工作組等。此外大資料安全部分的标準與全國資訊安全标準化技術委員會密切相關。

信标委成立于1983年,是在國家标準化管理委員會和工業和資訊化部的共同上司下,從事全國資訊技術領域标準化工作的技術組織,負責對ISO/IEC JTC1(資訊技術第一聯合技術委員會)國際歸口工作。

信标委是是全國最大的标準化技術委員會,信标委的工作範圍是資訊技術領域的标準化,涉及資訊采集、表示、處理、傳輸、交換、描述、管理、組織、存儲、檢索及其技術,系統與産品的設計、研制、管理、測試及相關工具的開發等的标準化工作。标準範圍涵蓋詞彙、編碼字元集和字型、資料通信、軟體和系統工程、卡和身份識别、程式設計語言、圖形圖像表示、資訊技術裝置、多媒體、自動識别和資料采集技術、資料管理、檔案描述與處理語言、使用者接口、資訊技術教育、生物特征識别、分布應用平台與服務、資訊技術可持續發展等領域。資訊技術領域的标準,幾乎都是這個組織研制的。

信标委于2012年成立了非結構化資料管理标準工作組,對口ISO/IEC JTC1 SC32 WG4。非機構化資料管理标準工作組聯合産、學、研、用等力量,緻力于制定非結構化資料管理體系結構、資料模型、查詢語言、資料挖掘、資訊內建、資訊提取、應用模式等相關國家标準和行業标準。目前正在開展《非結構化資料表示規範》、《非結構化資料通路接口規範》、《非結構化資料管理系統技術要求》等國家标準研制。

信标委的雲計算标準工作組目前正在開展大資料存儲和分析應用的研究工作,旨在研究大資料存儲和分析技術的應用分析、技術架構和标準研究等。同時,正在組織編制《雲資料存儲和管理》系列國家标準,為推動大資料存儲和分析标準研究奠定了基礎。

全國信标委的SOA分技術委員會(籌)(以下簡稱“SOA分委會”)負責面向服務的體系結構(SOA)、Web服務和中間件的專業标準化的技術歸口工作,并協助全國資訊技術标準化技術委員會承擔國際标準化組織相應分技術委員會的國内歸口工作,現有成員108家。SOA分委會還同時負責推動軟體構件、雲計算技術、智慧城市領域的标準化工作。2013年7月5日,SOA分委會全會上決定在基礎工作組内啟動大資料預研項目,目前正在征內建員階段;2013年7月22日開展了《大資料應用、技術、産業與标準化調研》,作為下一步大資料标準化研究的基礎;此外,SOA分委會智慧城市應用工作組在推動智慧城市中大資料的應用和服務化的标準研究 。

全國資訊安全标準化委員會(TC260)是在資訊安全技術專業領域内,從事資訊安全标準化工作的技術工作組織。 委員會負責組織開展國内資訊安全有關的标準化技術工作,技術委員會主要工作範圍包括:安全技術、安全機制、安全服務、安全管理、安全評估等領域的标準化技術工作。全國信安标委目前正開展大資料安全技術、産業和标準研究,為大資料的安全保障提供支撐。

前面說完現狀,下面我們說說我們對于大資料目前階段的了解。

從大資料與相關技術的關聯關系上來看,網際網路、物聯網、雲計算等技術的發展為大資料提供了基礎,網際網路、物聯網提供了大量資料來源;雲計算的分布式存儲和計算能力提供了技術支撐;而大資料的核心是資料處理。其中傳統的資料處理技術經過演進依然有效,新興技術還在不斷探索和發展中。

大家經常在說大資料和傳統資料管理的關系,我們認為是個技術演進的過程,原來的一些技術還是适用的,需要根據新情況不斷發展

從大資料商業模式上來看,大資料時代,不斷湧現出圍繞大資料、利用大資料的的新産品形态、新業務模式。其中,“資料租售”即通過出售原始的業務資料或者是經過初步處理分析的資料來擷取直接的利益,以商品化的資料應用創造了新的商業模式。百度遊戲通過搜集整理網絡遊戲使用者的搜尋需求和搜尋熱點,建立完備的使用者行為資料庫,提供給上遊的遊戲營運商創造資料服務的收入來源,成為在搜尋引擎領域中将以資料支援服務變為主要盈利模式的成功案例。阿裡巴巴正在研發的資料倉庫,以阿裡巴巴擁有的大量商業資料為基礎,進行統計、分析和挖掘,形成規範的實體明細資料和名額資料,對外服務。其中, “魔方”是淘寶網成立的專門用于提供資料服務的機構,為商家提供行業分析資料,從中擷取利益。此外,科學機構、政府機構提供的資料集也成為可信的重要資料來源。

大資料的發展目前急需解決三方面的問題:一是提供處理大資料能力的技術和平台;二是需要明确大資料生态環境中的各個角色的權利、義務,解決資料開放和共享過程中的産權保護、權限管理和隐私保護等問題;三是需要建立可管理維護、可信、易于互操作的資料資源集,這是大資料發展的初步成果,為大資料處理、應用和進一步發展提供基礎,也是我國的重要資訊資源。其中第一個問題是技術問題,後面兩個問題既是技術問題,也是管理問題。

這是我們針對大資料的各個方面,比較認可的一個技術參考模型。

大資料技術參考模型表示了通用的、技術無關的大資料系統的邏輯功能子產品以及子產品之間的互操作接口(如:服務)。這些被稱為“提供者”的子產品代表了大資料生态系統中的功能角色,表明他們提供或實施大資料系統中特定技術的功能。

大資料技術參考模型基于代表大資料價值鍊的兩個次元組成:資訊流(垂直維)和IT內建(水準維)。在資訊流次元上,價值通過資料采集、內建、分析、使用結果來實作。在IT次元上,價值通過為大資料應用的實施提供擁有或運作大資料的網絡、基礎設施、平台、應用工具以及其他IT服務來實作。大資料處理提供者子產品是在兩個維的交叉點上,表明大資料分析和其實施是為兩個價值鍊上大資料利益相關者提供的特定價值。

五個主要的架構子產品代表在每個大資料系統中存在的不同技術角色:資料提供者、資料消費者、大資料處理提供者、大資料架構提供者、系統協調者。另外兩個架構子產品是安全隐私和管理,代表能為大資料系統其他子產品提供服務和功能的構件。這兩個關鍵功能極其重要,是以也被內建在任何大資料解決方案中。

此架構可以用于多個大資料系統組成的複雜系統,這樣其中一個系統的大資料使用者可以作為另外一個系統的大資料提供者。

我們對于現有标準進行分析,梳理出了标準體系。包括71項标準,44項急需研制的标準。

a)基礎标準

為整個标準體系提供包括總則、術語和參考架構等基礎性标準,為标準體系的研究建立基礎。并為未來标準建設提供指導。

b)資料處理标準

資料處理類标準包含資料整理、資料分析和資料通路三種類型的标準。

資料整理标準主要是針對資料在采集彙聚後的初步處理方式、方法的标準,包括資料表示、資料注冊和資料清理三類标準。資料分析标準主要針對大資料環境下資料分析的性能、功能等要求進行規範。資料可視化則是對資料産生的過程以及資料分析的結果進行标準化的可視化展現,主要是采用現有技術标準。而資料通路标準則是提供标準化的接口和共享方式,資料能夠被廣泛的應用。

c)資料安全标準

資料安全作為資料标準的支撐體系,貫穿于資料整個生命周期的各個階段。抛開傳統的網絡安全和系統安全之外,針對在大資料時代下的資料安全标準化主要包括通用要求、隐私保護兩類标準。

d)資料品質标準

該類标準主要針對資料品質提出具體的管理要求和相應的名額要求,確定資料在産生、存儲、交換和使用等各個環節中的品質,為大資料應用打下良好的基礎。并對資料全生命周期盡情規範化管理。主要包括中繼資料品質、品質評價和資料溯源三類标準。

e)産品和平台标準

該類标準主要針對大資料相關技術産品和應用平台進行規範。包括關系型資料庫産品、非結構化資料管理産品、可視化工具、開放資料集、資料處理平台和資料服務平台六類标準。其中關系型資料庫産品标準針對存儲和處理大資料的關系型資料庫管理系統進行标準化,涉及通路接口、技術要求、測試要求等内容,為關系型資料庫管理系統進行大資料的高端事務處理和海量資料分析提供支援;非結構化資料管理産品标準針對存儲和處理大資料的非結構化資料管理系統,從參考架構、資料表示、通路接口、技術要求、測試要求等方面進行規範;可視化工具是針對大資料處理應用過程中所需用到的可視化展現工具的技術和功能要求進行規範;資料處理平台标準是針對大資料處理的平台的技術架構、建設方案、平台接口等方面進行規範。

f)應用和服務标準

應用和服務類标準主要是針對大資料所能提供的應用和服務進行技術、功能、開發、維護和管理等方面進行規範。主要包括開放資料集和資料服務平台兩類标準。其中開放資料集标準主要針對向第三方提供的開放資料包中内容、格式等要求進行規範;資料資料服務平台标準是針對大資料服務平台所提出的功能性、維護性和管理性的标準。

與以前的資訊技術不同,大資料提出了“資料是一種産品”的概念。是以我們特别加上了應用和服務标準。我們首先沒有特别關注行業應用資料标準,因為這個有很強的行業背景,不是目前能夠做的。在這部分,我們建議集中在通用的資料集、資料服務平台兩方面。還有詳細的标準清單,我就不介紹了。

我們是上周專門召開了”大資料标準化白皮書“的會議,20多家機關、40多位專家參加了會議,提出了很多寶貴意見。我們會盡快完善後,和大家分享我們的階段性成果。

通過對現有各類标準情況進行分析可以看出:

(1) 從技術标準上來看,大資料相關的技術标準具有一定的工作基礎。在資料整理方面,我國已經研制的一些相關标準,同樣适用于大資料環境,目前急需加強這類标準的推廣應用;資料分析是大資料的特點和難點,标準較為缺乏;在資料通路方面,目前在研多項資料庫、雲資料存儲和管理類标準,适用于大資料底層資料接口,但是尚缺乏資料導入、導出類标準;資料安全方面,部分現有标準适用,但是尚缺乏針對大資料的安全架構、隐私、通路控制類标準;資料品質是大資料應用和發展的基礎,目前有多項在研标準,但是均尚未釋出,較為缺乏;

(2) 針對大資料産品和平台,目前在研多項資料庫、非結構化資料管理産品類标準,尚無針對大資料可視化工具、資料處理平台的标準;在大資料環境下,資料也成為産品,而針對開放資料集、資料服務平台等新興産品和服務形态,尚缺乏相應的标準。

綜上所述,針對大資料,我國在資料管理、雲計算、資訊安全等方面,已經釋出和在研一些标準,适用于大資料環境,提供了一定的基礎,但是缺乏标準化整體規劃;資料分析、資料安全、資料品質管理等技術标準,資料處理平台、開放資料集、資料服務平台類新型産品和服務形态的标準較為缺乏,急需研制。

這是我們對于标準梳理的一些分析。不成熟,還需要完善。

互動内容:

Q1 Bright Star:@吳東亞:謝謝!請問IEEE和國内的CCSA有沒有在做相應的工作?如果沒有,為何?謝謝!

吳東亞:IEEE我們沒有系統跟蹤,是以說的不一定很全。IEEE比較活躍的大概有幾塊,網絡,無線區域網路啥的,教育,軟體,這幾塊,其實和ISO/IEC都有很強的密切關系。很多IEEE在這些領域的标準直接采用為ISO/IEC的标準。但是,在ISO/IEC JTC1/SC32這個最為專業做資料标準化的組織中,IEEE并沒有參與過。是以,我認為可能是IEEE在這方面可能集中在研究,并沒有專門做相關标準。

吳東亞:CCSA的情況不是特别了解。從背景上來說,CCSA主要側重于通信以及相關領域,以前直接做資料的并不多。ITU-T目前隻是做了一份技術觀察報告,因為ITU-T原來的組織設定上,并沒有直接做資料管理标準的,可能有這個關系。畢竟标準化組織工作,是有連續性的。

張存勇:我認為,高層應用的模型、算法、工具很成熟的經典可當成标準,還會有層出不窮的新模型算法不知是否精準,不急着建标準吧。大資料的中繼資料采集标準應該是迫在眉睫的。

吳東亞:其實算法,基本上不會直接做标準。标準,不會依附于具體實作,國際國内都是這個情況。中繼資料,确實十分重要這也是我為什麼談技術是演進的原因。這個系列标準,都是ISO/IEC JTC1/SC32研制的,影響力很大很大。5年前,大家認為這些标準過于理想化,理論化,不知道中繼資料是什麼,現在重要的是這些标準的應用層面。

吳東亞:當然,中繼資料采集或者應用是有很強的應用背景的。其實,所有做資料的系統,等等,都是依據ISO/IEC 11179系統标準。我們認為,中國首先可能做起來的是科學,企業,地方政府的等領域。部委級的,尤其是各部委之間能夠達成共識的中繼資料,還需要時間,這是中國國情。

吳東亞:非結構化資料,要處理,第一步就是結構化,說白了,就去提取關鍵特征,提取中繼資料。

Q2張存勇:@吳東亞聽說過标碼系統标準嗎?據說ITU在推,基于IPV6體系的,主要是IPV6位址和裝置結合的唯一辨別碼系統,用于全球物聯網統一辨別。

張存勇:據說标碼系統來源于Kindle圖書分類标準。

張存勇:@吳東亞辨別太重要了,接觸過标碼組織的專家,感覺好像很重要。

吳東亞:物聯網辨別有很多類,不同層面的,不能攪合在一起談。IPv6不是直接解決物聯網的,雖然需要用到。大資料發展,也需要解決統一辨別的問題,大資料真正應用,也需要首先解決資料辨別問題。國外已經在做。目前國外的一些聯盟機構,已經對世界範圍的各種資訊資源(針對數字出版物的DOI、針對數字視聽産品的ISAN)進行統一注冊管理,并在世界範圍内尋找代理機構,以實作對世界範圍内資訊資源的管理和控制。網絡等基礎設施安全也就這樣了,如果資料層面,再被國際控制,就是全裸了。大資料更是這個樣子,這個層面的辨別,資料表示啊,啥的,可是要小心設計呢。關于辨別方面,我們還是做了研究的,應該說,我們是這方面很專業的團隊。資料的辨別等,需要我們自己管理,這樣才能安全地大規模應用。

張存勇:沒錯,我們也感覺,ID辨別必須自己掌握,主辨別不變,但裡邊的内容要更新,也就是動态辨別體系,必須控制在自己人手裡,涉及到将來的數字國防領域。

吳東亞:說到物聯網統一辨別,再說一下。我們、衛生部資訊中心、農業資訊中心、交通公路院、中興等等20多家機關,合作提出的《OID在物聯網中應用指南》的标準,今年1月份在ITU正式立項。這是中國提出的第一個物聯網辨別方面的國際标準立項,很不容易。

北京海泰方圓的柳晶:我們公司是做電子檔案管理、大資料環境下非結構化内容管理的。初來報道,聽了吳博士和大家的發言很受啟發。我想提提個問題:目前國際國内對于資料本身價值鑒定的方法和規則有沒有一些标準或做法。以便不同價值等級的資料采取相應合理的存儲、處理、保護、分析等手段。謝謝!

吳東亞:關于資料品質,目前,軟體工程軟體産品品質要求和評價(SQuaRE)資料品質模型。有這個國際标準,但是還沒有轉化為國家标準,我印象中,在工業控制領域,大概有幾個資料品質的标準。關于不同價值等級的資料采取相應合理的存儲、處理、保護、分析等手段。我了解目前是沒有的,倒是有關于資料長期儲存方面的研究。如果貴公司在這方面,有技術積累,願意貢獻出來,我們可以探讨,是否可以做成标準

陳新河:工業社會的标準、品質、管理體系,都是經過幾百年的沉澱,資訊社會即使早的說從1970年開始,也才不到半個世紀,是以其品質、标準的完善也需要一個相當漫長的過程。

吳東亞:目前的階段,我覺得不要說大資料,即使是小資料,還有很多問題都沒有解決。比方說,中繼資料,這第一步,都還沒有實作。和基礎設施層面,已經完全标準化的狀态,還是不一樣的。同意主持人的說法,品質、管理體系,基本上是老牌資本主義國家英國建立起來的,包括認證,都是英國先開的。制造方面的,嚴謹的德國人做了很多貢獻,資訊技術方面,美國的貢獻最大。我們國家在部分新興領域,物聯網、雲計算等等,大家都還有些暈的情況下,能後和國際上一起探讨。

陳新河:德國的系統,日本的品質,美國的軟體,這個好像是20年前IBM總結的,目前看仍是如此!

Q3吳東亞:中關村大資料産業聯盟推動的資料交易平台怎麼樣了?

陳新河:資料交易平台,應該說有一點進步,昨天上午還到交通部資訊資訊中心談如何推動資料開放、合理定價和資料交易。目前我看到的在企業之間的資料交易已經初具規模,大的平台有幾千萬的收入了,京東、新浪微網誌等也在積極推進資料交易,每年谷歌從推特上購買的資料的費用有3000多萬美元。整體來看企業資料交易進行的比想象的要好,反而是政府的資料交易做的差強人意。

吳東亞:希望,後續,在這部分,我們可以一起探讨标準研制

陳新河:把标準講的能吸引到如此多人提問題還是第一次,足見吳博士的功力。也希望通過這個平台更多的企業産業标準制定中來。

吳東亞:好的,也找到我們進一步合作的結合點。

Q4董健:關于非結構化資料,我有不同的觀點,現在很多做法都是把非結構化資料提取轉化成結構化資料,放到資料倉庫裡,進行利用,其實有的時候非結構化資料是不應該轉換的或者價值是不可轉換的,資料分析和挖掘應該就在非結構化資料的基礎上完成,一旦提煉,資料本身的場景就消失了。必須基于混搭的結構化和非結構化資料進行價值發掘。當然非結構化資料的範疇是模糊的,有人說語音圖像視訊這樣,其實有的時候那種網狀的星形的資料關系都可以看作是非結構化的。資料價值的挖掘隻要是資訊能夠資料化,就應該直接處理。其實資料有一個資料流的概念,資料的産生都是在工作流中完成的,那麼這個工作流其實就是資料的一部分,也就是資料的上下文,但很多時候資料被提煉以後這些場景資訊都消失了,這時候資料的含義也就變化了。跟剛才說的非結構化資料提煉是一個意思。

吳東亞:部分同意這份專家意見,其實我也對非結構化這麼處理比較疑惑,丢失資訊為代價的。

Q5張存勇:@吳東亞是否隻要我們搞好了自己的物聯網統一辨別體系并采用了,一旦對大資料體系裡的某個物聯網裝置進行配置變動,全網的有關部分都會自動應對,減少相應維護更新成本?

吳東亞:辨別體系包括很多方面,編号規則,管理程式,資料辨別,解析系統。大家說的,往往隻是編号規則,其實是不完全的。辨別體系,隻能解決找到的問題,至于說您提到的要求,要看具體設計方案了。辨別,首先解決的是找到對象的問題。

C陳新河,聯盟副秘書長;《軟體定義世界,資料驅動未來》@吳東亞 再次感謝吳博士的精彩分享!

<b>原文釋出時間為:2014-04-07</b>

<b></b>

<b>本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“BigDataDigest”微信公衆号</b>