天天看點

資料分析專家對冠狀病毒到暗資料的分析與探讨

雲栖号資訊:【 點選檢視更多行業資訊

在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

資料分析領域的兩位思想領袖對冠狀病毒、暗資料、資料科學家的角色進行了分析和探讨,并對資料分析為何仍然如此困難的原因進行了闡述。

資料分析專家對冠狀病毒到暗資料的分析與探讨

在與兩位頂級資料分析思想領袖的廣泛對話中,行業媒體提出了當今資料分析中的一些關鍵問題。以下的主題包括:

  • 在冠狀病毒疫情持續蔓延的情況下,如何看待目前疫情影響資料分析部門或資料分析的工作實踐?
  • 商業智能專家和資料科學家在角色和關鍵優勢方面有哪些不同?
  • 為什麼“暗資料”很重要?針對暗資料的有效政策應該是什麼?
  • 很多高管表示他們的企業在資料分析方面面臨很多困難。為什麼資料分析仍然如此困難?

為了提供對資料分析的深入了解,行業媒體與Hitachi vantara公司首席創新官Bill Schmarzo和Splunk公司首席技術倡導者Andi Mann為此進行了探讨。

如何看待目前持續蔓延的疫情正在影響資料分析行業和資料分析實踐?

Mann說:“資料分析很有趣,現在必須從資料分析獲得更多的洞察力。資料分析的方法之一就是嘗試了解在疫情這個經濟低迷期間能夠更有效地将資源配置設定到何處。很多企業的員工在家遠端工作,實際上并沒有中斷業務,這真的很重要。

零售、線上服務、數字服務、營銷服務等行業受到了疫情的不同影響。他們可以采用更好的一種方法是使用資料分析,将其用于目标營銷和與客戶進行有針對性的接觸。當然,對于非營利組織和政府機構來說,能夠使用資料為處于經濟低迷時期最需要的人員提供服務,例如失業人員或者無家可歸的人員。

是以,可以使用資料分析來确定目标。例如Splunk公司正在提供資料集并向公共服務機構提供分析服務。我們正在與大學開展合作以嘗試追蹤傳播,我們正在與企業和政府合作以嘗試追蹤冠狀病毒疫情和其他事物的發展。是以,資料分析不僅可以幫助研究冠狀病毒的毒性和傳播機制,而且還可以幫助人們對抗冠狀病毒。

因為Splunk是一種資料分析平台,我們不是自己建立資料,而是從其他來源擷取資料,并将其提供給各個州和聯邦政府機構,以便他們可以使用Splunk對資料集進行分析。它真的很強大。”

Schmarzo說:“實際上,資料分析不僅可以用于抗擊冠狀病毒的蔓延,而且可以分析疫情結束之後的發展情況,這實際上都是非常重要的。考慮到全球各國為了應對疫情而花費難以估量的費用,我們必須在某個時間點進行償還。

是以,我認為我們必須使用資料分析來采用更少的資源做更多的事情。我們将不得不非常微觀地關注營銷活動和治療活動。一切都将變得高度個性化。

例如醫療保健領域。很多政府部門現在就醫療保健和整體福利作出全面的政策決定。很多組織在這方面有太多浪費,是以需要從根本上獲得更多收益,或者說‘少花錢多辦事’的想法變得更加微觀化,這對于分析行業來說将是一件好事,因為我們非常擅長利用非常詳細的分析資料和數字趨勢,來真正了解每個客戶、老師、學生、裝置之間的獨特差異。

是以我認為,大多數組織都必須具備這樣一種心态,即‘少花錢多辦事’,因為這是組織在面臨嚴峻的利潤壓力時能夠改變其經濟價值曲線的唯一途徑,可以大幅增加稅收,而世界上沒有免費的午餐。”

您是否聽說過在這個困難時期如何進行分析的事情?

Schmarzo說:“制藥領域的企業肯定是全天候不間斷營運。我上周和來自制藥商葛蘭素史克的機器學習工程師一起參加了一個小組讨論,他們表示正在緻力于研發抗擊冠狀病毒的藥物和疫苗。

我們作為資料行業人士,對關于疫情的資料缺乏更多的了解,這是一個悲劇。我們沒有進行足夠的測試,有時甚至對其結果沒有信心。現在發生的一切是就是沒有進行資料科學的典型例子。當一些人隻通過收集的少量資料進行預測和推斷時,這在某種程度上過度樂觀或者有些過于消極,人們隻是沒有對這些問題應用良好的資料科學嚴謹性。即使是一個很小的資料集,人們也可以深思熟慮,但必須清楚說明這些資料集的限制條件和假設。

小資料集并不是随機樣本,沒有采用分析工作。有些人隻是通過少量數字,然後推斷到某些極端情況。在許多情況下,這樣做隻是因為他們自己的個人日程。”

Mann說:“我和很多客戶進行了溝通,他們的資料科學家正在開展工作,但是在醫療保健領域,有很多人長期進行數字運算工作,隻是想弄清楚如何應對和遏制病毒傳播,也有許多人試圖弄清楚該病毒的傳播方式。

是以,我看到金融界人士為了了解業務而采用資料分析。是以,使用資料科學來衡量他們的業務名額,就像我之前說的那樣,試圖嘗試并了解将資源放在哪裡。

此外,我看到另一個數字處理的領域是保險業,需要進行保險索賠。保險行業将面臨很多挑戰,是以他們進行了大量的精算數字運算,正在将資料科學應用于他們的精算實踐。在使用資料分析的效果方面存在很多缺陷,我認為有些人并沒有意識到這一點。”

Schmarzo說:商業智能專家和資料科學家這二者都很重要。如果沒有報告可以告訴正在發生的事情,那麼不知道将資源和資料科學工作重點放在哪裡,是以它們是非常互補的。這個資訊圖表可能使商業智能領域廠商付出的代價比其他事情都要多,因為人們誤解為資料科學就是BI 3.0。

這二者非常不同,商業智能專家确實在努力清晰地傳達組織用來衡量進度和成功的名額和關鍵績效名額(KPI)。

然而,資料科學家正試圖找出那些變量和名額,可能是更好的業績預測名額。這是一條探索性很強的路線,将以失敗為中心,需要不斷嘗試,不斷失敗,不斷學習,人們無法在資料科學方面衡量多少時間的進展,如果了解錯誤肯定和錯誤否定的代價,那麼實際上隻能衡量自己在建立模型方面的效率,是以實際上這是兩個不同的世界。而這二者并沒有一個比另一個好的問題。

在資料科學領域,所有這些都集中于真正了解試圖證明的假設,例如,需要衡量成功和進步的名額是什麼,業務實體、利益相關者以及所有那些名額非常不同。”

Maguire說:“談論這二者的差別很有趣,很顯然,我認為企業在選擇商業智能專家和資料科學家的履歷時,很多人都可能會選擇資料科學家,因為聽起來很好。而且我認為,以失敗為中心的資料科學專家也很有趣,這實際上可能是真正的學習。也許一些企業高管會說:“我們為什麼為這個以失敗為中心的專家支付這麼高的薪酬?”

Schmarzo說:“如果沒有足夠的失敗,那就意味着嘗試并不足夠,也就是努力并不夠。失敗是一種有效的學習方法。在商業智能方面,如果建構的架構無法正常工作,那麼這樣的失敗将不會被接受。不斷嘗試不同的資料和資料元素的組合、轉換和擴充,試圖找出這些變量群組合中哪一個确實能提供更好的預測。”

Mann說:“商業智能和資料科學是兩種完全不同的科學。它們在很大程度上都是一種科學。商業智能随着知識的積累而成長,這對于企業如何開展業務實際上非常重要。

這兩種科學确實存在一些非常大的差異。資料科學是關于創新過程,例如資料科學談論的是創新源于從失敗中吸取的教訓。我認為,如果沒有失敗,那麼就不會學習,通過嘗試可以擷取更多的資料和了解,應該詢問更多的問題,而不是尋找更多的答案。

是以,資料科學家似乎提出了很多問題,而使用者又對資料提出了更多問題。使用者得到的每個答案都隻是提出更多問題的機會。是以,這是另一種思維方式。我認為,考慮将來自任何來源的資料帶到任何問題,而不是試圖找到答案,這是一種不同的思維方式。是以,資料科學家如何看待創新機會的思維方式确實存在根本性的差異。将資料視為永遠沒有最終答案,并且總是提出更多問題。而商業智能專家尋求答案,因為他們的業務需要開展,這是他們需要的重要内容。

是以,這種創新理念與經營業務無關。這是我看到的最大差異之一,它在諸如預先部署、精心計劃與按需添加資料源等方面非常出色。

由于在商業智能中,知道要問的是什麼問題,是以知道打算通過資料科學來規劃該資料集。是以需要能夠引入新的資料集,并在運作中不斷豐富。其中遇到的一些問題确實将資料科學的概念鎖定在了創新和問題上。我認為這是一種非常有趣的觀察方式。”

Schmarzo說:“我再補充兩點。第一,商業智能專家真正關心的是了解發生的情況以及發生的領域。資料分析科學家是試圖了解它為什麼會發生,當将它們組合在一起時,它會變得功能強大。

另一件事,我認為在商業智能專家将逐漸變得成熟。真正了解資料和分析可以在何處以及如何推動業務發展。他們具有更強的業務敏銳度,并且擅長進行價值工程,識别、驗證和确定價值創造的來源。

然後将它們與資料科學相結合,這将成為一個強大的團隊。有人曾問我,商業智能和資料科學有什麼差別?我花了很長的時間來認真思考,研究這二者在工作中是如何思考和處理的,以及如何改變事情的思維方式。然後得出的結論是團隊需要這兩方面的人才。”

Mann說:“這讓我想到的另一件事,就是讓人工智能在很大程度上完成人類的工作。商業智能專家具有深厚的商業知識,這也許是資料科學家不具備的能力,是以需要了解他們的業務,利用他們的智慧來了解他們試圖解決的問題。

而資料科學家通常會因為處理海量的資料集之類的東西,而經常會使用機器學習和人工智能技術。因為人類确實不善于觀察,但機器确實擅長于此。是以,當接觸到巨大的資料集時,使用機器學習幾乎成為獲得洞察力的必然選擇,而商業智能專家不一定需要采用機器學習,隻需要獲得正确的資料集,并以正确的方式使用它們來獲得所需的洞察力。”

Schmarzo說:“但是有趣的是,當我們考慮到冠狀病毒疫情帶來的影響,必須能夠使用這些機器來幫助我們對客戶、員工、産品、服務、營運的每一個方面進行非常細化的洞察。正是這種粒度級别可以使我們從中獲得更多收益,我們隻是追求采用更少的錢做更多的事情。

傳統上,商業智能一直專注于聚合資料的分類,在聚合水準上看待事物以及做出一些決定。當我們試圖用更少的錢做更多的事情時,我們需要那些機器來告訴哪些患者患有哪種疾病的風險,哪些人面臨患病的最大風險。”

Mann說:“這是我們真正感興趣的東西。Splunk公司是一家分析和處理資料的公司,客戶使用我們提供的資料分析平台處理他們的資料。是以,資料确實非常重要,并且我們有一個理論,即無論使用什麼資料,使用的資料越多,就越能做得更好。是以,我們與一家獨立分析機構Enterprise Strategy Group合作,要求他們驗證我們有關此暗資料的一些想法。收集更多資料,使業務做得更好,這是我們的基本假設,這成為了事實。

ESG公司分析師考察了企業如何更好地經營。是以,他們着眼于收入、盈利能力和效率之類的名額,研究了使用和查找資料的含義。他們還圍繞企業的IT預算和支出用于資料分析的問題,對發現暗資料的承諾,以及對其進行操作的效率提出了疑問。是以,當檢視可以在組織中使用更多資料的團隊與最後使用且對資料的忠誠度較低團隊之間的差異時,确實有顯著的不同結果。

當我們談到這些人使用他們的暗資料時,所有這些隐藏在資料庫、日志流或邊緣裝置、或各種渦輪機、生産線中的資料,就會發現,當收集更多的資料時,就可以更多獲得,并且花費更少。而用更少的錢做更多的事,這很适合。

他們也能夠領先于競争對手,開發和推出産品的可能性是競争對手的兩倍。而且,在未來幾年内,超過客戶關注目标的可能性是競争對手的兩倍,從新産品和服務中獲得20%以上收入的可能性是競争對手的10倍。是以資料直接推動了創新。這很吸引人。”

這都是關于挖掘未使用的資料,但問題是如果資料已經被使用了,那麼如何找到資源來挖掘那些額外的資料呢?

Mann說: “我們實際上是與我們的客戶一起進行資料源評估。例如資料在哪裡,有什麼資料,用途是什麼。而且,不一定非得尋求外部機構的幫助來處理。可以讓組織内部的資料科學家解決諸如此類的問題,因為正如之前所讨論的那樣,資料科學家的作用在于發現尚未獲得的見解。是以,能夠使其資料科學家找到暗資料,并開始圍繞如何​​利用這些未知因素使組織的業務更好地制定政策,這是另一種看待世界的方式。”

Schmarzo說:“在有關暗資料的話題上,有一些非常有趣的事情。如何确定資料是否有價值?怎麼知道應該嘗試傳回并找到這些資料源并将其引入?我們發現,如果讓用例驅動它,這些用例将幫助人們區分哪些資料具有價值。它最終将幫助區分資料中的噪聲和信号。是以,許多方法都非常以用例為中心。

選擇一個用例,了解要執行的操作,然後集思廣益,可能想檢視哪些資料源。這包括挖掘一些原有的資料。當然,當今最可能使用暗資料的例子是冠狀病毒疫情所發生的情況,以及南韓如何立即使用SARS和豬流感資料。他們收集了大量資料,做出了一些正确的預測,那是10年前的資料,那是無用的資料。誰會再需要這些資料?但這非常有價值,可以幫助他們真正做出精細的決策。

是以,組織擁有大量資料,這些資料埋在組織的不同部分。我們找到解決問題的最佳方法是,考慮要使用的用例,然後将所有不同利益相關者召集在一起,開始考慮擁有哪些資料,可以處理哪些資料并開始這一過程。很多時候,我們發現業務利益相關者和業務分析師了解什麼資料可能有用。資料科學家實際上會告訴企業哪些資料有用。”

即使在當今時代,為什麼資料分析仍然如此困難?

Mann說:“是以我認為有很多原因。我認為這全都源于這樣一個概念,即人類在數字方面通常沒有那麼優秀。這并不是說有些人的數學不是很好,但是數字是一種構造,大多數人都是通過視覺進行觀察。而人類還可以使用聽覺和嗅覺來了解更多的資訊。

此外,人們不是很擅長處理自相沖突的想法。是以,當資料告訴人們一些不知道的東西時這是一回事,但是當資料告訴一些令人不相信的東西時,這很困難。是以,很多人會丢棄一些資料,因為它們無法證明先前的觀點。當人們談論冠狀病毒疫情時,有趣的是發現需要收集更多資料,進行更多測試,而使用更多資料的想法将改變這些模型的結果。

是以,我認為人們不會自然地偏向于資料和分析。他們自然傾向于故事和想法。是以,正如我之前所說,要成為一名資料科學家需要一種獨特的心态。但是,它還具有獨特的能力,可以妥協并接受資料科學家的新想法,以使企業高管能夠推動這些計劃。不幸的是,這些是人類一些不常見的特征。”

Schmarzo說:“人類确實在數字和圖案處理方案方面很糟糕,如果需要任何證據證明的話,那麼可以去拉斯維加斯賭場嘗試一下進行賭博。有人說,賭博對于數學不好的人來說是一種收稅手段。

另外,很多人正在從資料分析中尋找魔力。問題當然是“魔力”這一術語。資料分析沒有任何魔力,而是一項艱苦的工作。我們在資料科學領域所做的一切并沒有什麼神奇之處,隻是大量艱苦的工作。這實際上是一種流程和思維定勢。我們将探索許多不同的想法,将嘗試一些不同的事情,将會不斷面臨失敗,并且不斷疊代,并繼續在這個過程中不斷學習。這就是我們要做的很多事情就是讓企業高管如何像資料科學家一樣思考的原因。

我們有一套完整的方法來吸引高管人員。如何讓商務人士像一個已經開始采用資料和分析功能的資料科學家那樣思考?在許多情況下,這要求他們不了解自己做過的事情,放棄他們原有的工作方式,現在準備接受新的學習過程。”

Mann說:“我認為這是因為人們在數字方面很差勁,可以這麼說,如今擅長使用Excel的人都是資料科學家。但是我認為采用的工具集也存在部分缺陷。因為資料科學家是非常聰明的人,是以他們不介意使用複雜而困難的工具集。我認為作為IT上司者,需要建立更簡單的工具集。我們正在做的一件事是讓人們将開源算法插入機器學習工具包中。

是以,人們不必成為資料科學家即可采用資料科學。我認為,作為IT和資料領域的上司者,我們可以做很多事情,以使資料科學更易于獲得。”

【雲栖号線上課堂】每天都有産品技術專家分享!

課程位址:

https://yqh.aliyun.com/live

立即加入社群,與專家面對面,及時了解課程最新動态!

【雲栖号線上課堂 社群】

https://c.tb.cn/F3.Z8gvnK

原文釋出時間:2020-06-08

本文作者:James Maguire

本文來自:“

51CTO

”,了解相關資訊可以關注“