天天看點

GPT奇點賦能大資料行業,不隻是寫SQL還有……——以資料全生命周期視角為例

作者:人人都是産品經理
2023年,超級大模型GPT3、GPT4熱浪席卷全球,它的出現,為數字化建設領域帶來了一次“重生”的契機。當“類人思考”出現後,哪些可以被“加速”、被“繞過”、被“替代”呢?本文作者圍繞資料場景下的GPT應用,做了詳細的拆解,一起來看一下吧。
GPT奇點賦能大資料行業,不隻是寫SQL還有……——以資料全生命周期視角為例

1995年,尼古拉斯·尼葛洛龐帝宣布“數字化時代已經到來”,随之而來的是,數字化成為各行業大力投入建設的基礎設施。其中,以網際網路為代表的天生具有數字化屬性的行業,一直是引領技術創新的風向标,這就包括應用人工智能技術(AI)——超級工具為各行各業提高生産效率和效能。資料與AI之間,是互為促進,相輔相成,有機融合的關系。

當時間來到2023年,超級大模型GPT3、GPT4熱浪席卷全球(Generative Pre-Trained Transformer,即生成式預訓練Transfomer模型,是一種基于網際網路的、可用資料來訓練的、文本生成的深度學習模型,可以在海量通用資料上進行預先訓練,能大幅提升AI的泛化性、通用性、實用性)。

它的出現,為數字化建設領域,帶來了一次“重生”的契機,作為從業者的我們嘗試應用GPT4等AGI能力,為企業内部的數字化建設做一次“重新整理”,當“類人思考”出現後,哪些可以被“加速”、被“繞過”、被“替代”。截止目前,已有GPT的49種應用,其中兩項是跟資料場景有關。下面,我們将圍繞資料場景下的GPT應用,做更細粒度的拆解。

一、資料的生命周期

1. 用資料時,遇到的問題

業務高速發展帶動資料需求高漲,這與資料部門的應接能力之間存在博弈,這是擺在非天生數字化屬性的行業的一道難題。理想中,業務需要的資料都有,都能找到,可以支援各種次元的解析和創新。而現實是,能用的資料有限(A),很多已經建設出來的資料,大家不認識,不敢用(B),多個雷同資料存在使得校對該用哪一個耗時耗力。很多沉睡資料,已經過時,占用着存儲空間(D),使得資料存儲成本連年上漲。缺失重要資料,需要排期開發(C)。

GPT奇點賦能大資料行業,不隻是寫SQL還有……——以資料全生命周期視角為例

2. 資料生命周期

資料産生于業務各環節中,部分在online的業務系統中,另一部分散落在offline(比如,工廠),要将散落在各處的資料做好采集(人工錄入、掃碼、RFID),確定必要資料進入業務資料庫中。之後,針對想做分析的資料,可以放入大資料平台的數倉中,通過資料內建工具,将結構化、非結構化多源異構資料彙聚到ODS層。根據資料模組化方法,資料開發工程師做DWD和DWS層的加工建設,供業務的資料分析師使用(ADS層),做報表、配看闆、提數等。

為進一步提高資料消費效率,通過複用資料API的模式打通最後一公裡,降低各系統分别對接的成本。針對一次性,或者長期不用的冷僵資料,做歸檔和删除處理,騰出寶貴的存儲空間和計算資源。這套大資料平台,涉及平台管理能力,以及資産管理子產品。而資料治理則橫跨業務系統到資料平台的全生命周期中。

GPT奇點賦能大資料行業,不隻是寫SQL還有……——以資料全生命周期視角為例

3. 人、貨(資料)、場

大資料環境下的人貨場,跟電商場景中的人貨場有兩點相似,其一,都需要一個存儲貨物的地方——“倉庫”。大資料環境下叫資料倉庫。其二,都需要傳輸,大資料環境下叫“加工”。與實體的貨物相比,資料具有兩個特殊的屬性,使得,它的存儲和運輸,要比電商場景更為複雜。這兩個屬性是,“權限等級”、“體積變化”。

資料有等級之分,高敏感的資料,需要做更嚴格的權限管控,以確定消費安全。體積變化,是指經過一系列的加工(删除delete、drop、修改alter、增加insert、建立create等),資料的整體體積會發生變化(變大or變小)。這使得存儲or加工計算都需要具備彈性的能力,能包容、承托住資料的這些變化。貨物的流通VS資料的流通,使得我們還要考慮繼承的問題,跨系統的繼承、權限繼承、表/字段血緣繼承。這些因素,使得虛拟場景下的“人、數、場”比實體中的“人、貨、場”更為複雜。

基于上章節提及的資料生命周期,我們拆解了每個環節中,人是誰,在做什麼事兒,繼而資料會發生怎樣的變化(體積變大變小,定義更疊)。為了更為清晰的展示這些環節中人的角色,我們将他們逐一做了定義,共9個角色,1資料生産方、2資料擁有者(将資料采集到業務資料庫中)、3資料消費方(想用資料作分析,接入數倉)、4資料開發工程師、5資料分析師、6終端的小白使用者。過程中,在數倉範圍内,有7資産管理者,有8大資料平台的開發者和管理者。在整個資料生命周期範圍内,有9資料治理專家。每個角色,都有其要執行的動作,均簡要繪制在圖上,具體不再贅述。

資料方面,圖中标注了離線和實時兩種數倉結構,具體的數倉介紹,網絡上各種專家分享,内容翔實且精彩,不再贅述。

GPT奇點賦能大資料行業,不隻是寫SQL還有……——以資料全生命周期視角為例

二、GPT介入後資料生命周期發生的變化

GPT奇點賦能大資料行業,不隻是寫SQL還有……——以資料全生命周期視角為例

【前提】GPT打通大資料平台的數倉(即要添加企業專有知識 ,才能提升準确度,讓GPT在企業内部用起來,提醒,這些資訊資料的交換要在安全允許的範圍内進行),以擷取準确的中繼資料資訊,這樣在使用者輸入自然語言時,GPT能懂,并傳回符合企業資料結構特征的結果。其次,GPT還具有coding的能力,是以當它跟企業内部各個系統打通後,還可以擴充能力,代替人,執行某些既定操作。下面,我們以大資料環境中,6個常見環節,GPT是如何輔助人類的逐一做拆解。

1. 資料內建(聚)

GPT協助提效ETL:

  • Extract-Transform-Load:抽取(extract)轉換(transform)加載(load)
  • 目前的ETL工具較成熟(如:Kettle、Datastage、Informatica),資料開發人員可以通過輸入和點選關鍵資訊,自動生成排程任務,對于沒有ETL工具的公司需要使用GPT。

2. 資料開發&模組化(養)

1)GPT代寫SQL做資料模組化和開發

【前提】将表的中繼資料資訊導給 ElasticSearch,結合 GPT 與 ElasticSearch 服務,提高 SQL 生成結果的準确性。

GPT奇點賦能大資料行業,不隻是寫SQL還有……——以資料全生命周期視角為例

2)GPT代為配置資料品質監控告警

【前提】GPT跟資料品質子產品、排程子產品、email、飛書等系統打通。

  • 第一步: 輸入文字,讓GPT找到目标表(支援一次通路多張表);
  • 第二步:頁面呈現目标表(表頭、部分資料),确認準确;
  • 第三步:輸入文字,針對這些表,計算,比過往12個月自身波動絕對值最大值還高的名額,高亮辨別出來,并給出字段名稱;
  • 第四步:輸入文字,針對這些名額,做日常監控,計算超過比例,針對波動率大于等于5%的名額(基于經驗,大于曆史1年波動絕對值最大值超過5%的,判定為資料異常),email通知該表開發負責人、下遊任務建立者、消費方,某些名額可能出現異常,請關注;

【結論】GPT介入後,可以不做前端品質規則配置平台,并節約配置品質規則的人力投入。

3. 資産管理(治)

GPT代做冷僵資料歸檔和删除:

【前提】GPT跟排程子產品、資産管理子產品、email、飛書等系統打通。

  • 第一步:輸入文字,找到半年以上冷僵資料(未有動銷,讀、寫、查詢過的表);
  • 第二步:輸入文字,确認這些表,是否有配置跑批任務;
  • 第三步:輸入文字,讓GPT給這些表的建立者發送email郵件or飛書提醒,一周後,将自動删除這些冷僵資料,若需要保留,請盡快跟資産治理管理者取得聯系(此為舉例,實際工作中,細節落實時,會更複雜些);
  • 第四步:輸入文字,讓GPT執行删除冷僵資料的操作;

【結論】GPT介入後,可以不做前端冷僵資料歸檔和删除平台,可以節約配置冷僵資料定時删除規則的人力投入。

4. 平台管理(管)

GPT代建權限申請流程:

【前提】GPT跟低代碼流程中心、大資料權限管理子產品打通。

  • 第一步:當人們通過輸入文字,問GPT,尋找某張表時,看過中繼資料資訊,確定是目标表,此時,若使用者沒有權限,可以請GPT幫忙做權限申請;
  • 第二步:GPT根據該表的敏感等級,及審批要求。向申請人的直屬老闆、表的開發負責人、業務負責人、安全管理者逐層發起申請,過程中,某個環節可随時增加審批節點;
  • 第三步:審批結束後,是通過還是駁回,GPT都會通過飛書oremail,or站内,GPT與人的互動端口,即時向申請者回報資訊;

【結論】GPT介入後,可以不做繁雜的定制化的權限審批流程,可以由安全與業務同學達成一緻後,給GPT輸入自然語言,形成審批流,以此節約研發人力投入。

5. 資料分析(用)

GPT代做“自助提數”:

【前提】1、與權限(行列權限和加解密),安全審計能力打通。2、打通中繼資料,確定GPT生成SQL時,對表、字段的描述跟數倉保持一緻,可以直接使用。

第一步:輸入文字,找目标表(支援一次通路多張表)。“例如我想查詢A表,在P條件下的x、y、z字段,可以直接輸出SQL語句。當然,經過預訓練,或者在資料源僅有一張表的情況下,描述話語甚至可以更加簡略。在訓練輸入了多張表結構後,也可以支援關聯分析。”

GPT奇點賦能大資料行業,不隻是寫SQL還有……——以資料全生命周期視角為例

第二步:嘗試在原有SQL的基礎上修改一些條件“保留23年第一季度的結果”。

GPT奇點賦能大資料行業,不隻是寫SQL還有……——以資料全生命周期視角為例

第三步:嘗試增删改查表或者對表中資料進行更新“幫我把價格表中的使用者單價上調10%”。

GPT奇點賦能大資料行業,不隻是寫SQL還有……——以資料全生命周期視角為例

第四步:嘗試,将SQL翻譯為自然語言,以助于幫助了解SQL。

GPT奇點賦能大資料行業,不隻是寫SQL還有……——以資料全生命周期視角為例

備注:以上是以EverSQL産品舉例。

雖然GPT能快速撰寫高品質的SQL,但是對于不能接受任何誤差的資料場景,準确了解業務需求,并關聯到所需的表和字段,需要一定的預訓練以提高準确度。快速訓練GPT提升特定場景比對能力,會成為分析師核心競争力之一。

【結論】GPT介入後,可以不做自助提數的前端平台,特别是拖拉拽的平台,直接用SQL取數能力即可,可以降低寫SQL的門檻,可以節約用SQL配置模版的人力投入。針對複用場景,直接将“prompt”儲存下來,隻要有權限通路,即可複用。

6. BI看闆(用)

GPT生成“圖表”:

【前提】GTP跟圖表生成工具打通。

  • 第一步:同2.1第一步
  • 第二步:同2.1第二步
  • 第三步:輸入文字,告知要哪些行、哪些列,生成柱狀、餅狀、折線圖等

【結論】GPT介入後,快速支撐業務的臨時性看闆需求(自助),可以節約資料分析師配置看闆人力投入(隻做長期高頻BI看闆,針對臨時性的業務需求,特别是緊急的,無需排隊等待,業務小白可以讓GPT制作)。

7. 業務應用(用)

【結論】GPT介入後,後續甚至是語音輸入,即可,無需碼字,在移動端調取資料會更加友善,很适合銷售門店等offline無PC電腦的場景。

基于以上建設,大資料場景下向數字孿生方向的發展加快了步伐。美國國防部、微軟在工業化等數字孿生場景中(模型建設、場景設計),均引入生成式AI。智能問答、語音互動擷取資料将會實作。

受作者領域認知深度所限,及技術無時無刻不在更新疊代,業界對GPT、AutoGPT、AGI、即時AI……的衍生應用必定是珠零錦粲。無法在一篇中盡現全貌,未來可能會徹底推翻當下的種種嘗試而不得知。能為大家帶去一點點新的啟發,以深感欣慰。文中難免有纰漏或不準确的地方,歡迎大家批評指正。撰寫中參考網絡上各位同仁的最新觀點,拿來主義為打招呼,還望見諒。若有任何建議或意見,歡迎聯系作者探讨。

參考資料:

https://baike.baidu.com/item/GPT/62908731?fromModule=lemma_search-box

https://baijiahao.baidu.com/s?id=1761984800865030846&wfr=spider&for=pc

作者:shucay,佳琪,童,alan,伯敖

本文由@shucay 授權釋出于人人都是産品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協定

該文觀點僅代表作者本人,人人都是産品經理平台僅提供資訊存儲空間服務。