天天看點

資料分析之「資料探查」—幫您快速掌握資料情報您為什麼需要資料探查資料分析的資料探查是怎樣的後續Action尾聲

您為什麼需要資料探查

資料探查能解決什麼

您是否也有這樣的困擾?

面對表格中一堆淩亂的資料,除了每一列的标題和類型之外,其它一無所知。。。

  1. 資料是否完整?是否有空白或空值?
  2. 資料是否唯一?有多少個不同的值?資料是否重複?
  3. 資料是否存在異常格式?資料格式的分布是什麼?這些是您期望的格式嗎?
  4. 資料存在哪些值範圍,它們是預期值嗎?給定資料的最大值,最小值和平均值是多少?這些是您期望的範圍嗎?
  5. 針對這票資料,您後續應該做怎樣的處理,才能讓他們發揮最大的價值?
資料分析之「資料探查」—幫您快速掌握資料情報您為什麼需要資料探查資料分析的資料探查是怎樣的後續Action尾聲

都2020年了,難道還要被這些問題困擾嗎?

當然不!

為解決這些問題,Dataworks資料分析系統提供了資料探查這個情報管家,目的就是幫使用者一眼看穿目前資料的品質、結構、分布、統計資訊。

同時,也幫助使用者判斷這票資料是否值得去做資料清洗,以及應該做一次性的可視化展示,還是值得做成報表以長期可視化展示。

是以,2020年,我們一定要充分用好這個小管家!

資料探查對大資料生态的價值

資料分析

是一款資料快速洞察分析,資料編輯及資料可視化的平台,是

Dataworks開發生态

從資料內建 -> 資料開發 -> 資料服務 -> 資料分析->資料可視化這整個鍊路的重要組成部分。

資料探查

又是資料分析平台完成資料預覽、探查、加工、分析、可視化、分享等一整套資料處理生态鍊路不可或缺的一部分。

綜上,若您能接觸到資料,有了解自己資料情況的意願,希望自己的資料發揮更大價值,那您就需要資料探查!

資料分析的資料探查是怎樣的

功能簡介

資料探查一般有以下3種方法,column profiling、cross-column profiling、cross-table profiling,我們采用了第一種方法,對每列資料進行類型和值分布的探查。

它支援探查概覽、支援探查詳情、支援資料篩選、支援資料重新整理、支援資料分布直方圖動态裝箱和多級下鑽!

并且,整個資料探查過程在前端實作,具備Excel資料源的天然優點,不受odps任務慢的影響、自動支援各種資料引擎,給您更流暢的體驗!

資料分析之「資料探查」—幫您快速掌握資料情報您為什麼需要資料探查資料分析的資料探查是怎樣的後續Action尾聲

詳細介紹

針對概覽模式

目前,我們會在電子表格頂部以圖形和富文本的形式,智能展示每列資料類型和值分布的概覽情況。

  1. 針對字元串類型(string)和日期型(date):以富文本展示top2的值及其占比,同時給出其它值的占比;若值的種類超過50%,我們會展示唯一值總數。
  2. 針對數字型(integer/float):以分箱柱狀圖的形式,給出其資料範圍分布情況。
  3. 針對布爾型(boolean):以餅圖的形式展示其占比。
  4. 針對混合型(探查到含有2種或以上類型):以餅圖的形式展示各值類型占比。提醒使用者目前列存在髒資料,若是髒資料被訂正之後,我們就會按照上述3種情況來展示值分布。
  5. 針對空值(null),我們會标紅預警。

針對詳細模式

詳細模式是為使用者提供的深度探查功能,可以檢視資料的統計資訊等。我們以彈窗的形式,智能展示每列資料的字段名、字段類型等探查結果。

  1. 針對字元串類型(string)和日期型(date):展示字段個數、唯一值、有效值、空值率等基本資訊和重複值Top5。
  2. 針對數字型(integer/float):展示字段個數、唯一值、零值、空值率等基本資訊、重複值Top5、統計資訊、以及直方圖。
  3. 針對布爾型(boolean),其中字元型中的true/false、數字型中的0/1會被識别為布爾型:展示字段個數、唯一值、零值、空值率等基本資訊、重複值Top5、以及餅圖分布。
  4. 針對混合型:展示字段個數、唯一值、有效值、空值率等基本資訊和重複值Top5,以及各資料類型占比的餅圖。

打開方式

資料探查概覽模式有2種打開方式:

(1)從DataStudio跳轉過來直接展示探查結果;

(2)自助點選「資料探查」按鈕展開探查結果。

注:資料探查不會影響excel中資料,探查完資料,點「關閉」按鈕收起,即可繼續使用excel ToolBar。

詳細模式打開方式是從概覽模式右上角【詳細模式】進入。

關鍵點示範

(1)從DataStudio跳轉過來打開;

資料分析之「資料探查」—幫您快速掌握資料情報您為什麼需要資料探查資料分析的資料探查是怎樣的後續Action尾聲

(2)菜單欄點選資料探查按鈕打開;

資料分析之「資料探查」—幫您快速掌握資料情報您為什麼需要資料探查資料分析的資料探查是怎樣的後續Action尾聲

(3)智能圖表推薦、編輯重新整理;

資料分析之「資料探查」—幫您快速掌握資料情報您為什麼需要資料探查資料分析的資料探查是怎樣的後續Action尾聲

(4)資料篩選、直方圖動态分桶、多級下鑽;

資料分析之「資料探查」—幫您快速掌握資料情報您為什麼需要資料探查資料分析的資料探查是怎樣的後續Action尾聲

後續Action

  1. 優化資料統計分析能力,提供更加全面的資料統計資訊,幫助您得到您最想要的資訊。
  2. 針對您的回報,進一步完善我們的資料探查。

尾聲

知識點

資料探查是資料品質和資料決策非常重要的一個環節,也是決定最後資料正确性非常關鍵的一步!

精确的資料探查,可以幫助您更好地了解源資料的局限性、更好地進行資料清洗、更好地掌控開發時間表!

想要快速掌握您的資料情報,就來資料分析和我們一起探查吧!

希望您會喜歡我們的資料探查!如有意見建議,歡迎留言,也歡迎找我們分享或吐槽。感謝!

繼續閱讀