2023年，超級大模型GPT3、GPT4熱浪席卷全球，它的出現，為數字化建設領域帶來了一次“重生”的契機。當“類人思考”出現後，哪些可以被“加速”、被“繞過”、被“替代”呢？本文作者圍繞資料場景下的GPT應用，做了詳細的拆解，一起來看一下吧。

1995年，尼古拉斯·尼葛洛龐帝宣布“數字化時代已經到來”，随之而來的是，數字化成為各行業大力投入建設的基礎設施。其中，以網際網路為代表的天生具有數字化屬性的行業，一直是引領技術創新的風向标，這就包括應用人工智能技術（AI）——超級工具為各行各業提高生産效率和效能。資料與AI之間，是互為促進，相輔相成，有機融合的關系。

當時間來到2023年，超級大模型GPT3、GPT4熱浪席卷全球（Generative Pre-Trained Transformer，即生成式預訓練Transfomer模型，是一種基于網際網路的、可用資料來訓練的、文本生成的深度學習模型，可以在海量通用資料上進行預先訓練，能大幅提升AI的泛化性、通用性、實用性）。

它的出現，為數字化建設領域，帶來了一次“重生”的契機，作為從業者的我們嘗試應用GPT4等AGI能力，為企業内部的數字化建設做一次“重新整理”，當“類人思考”出現後，哪些可以被“加速”、被“繞過”、被“替代”。截止目前，已有GPT的49種應用，其中兩項是跟資料場景有關。下面，我們将圍繞資料場景下的GPT應用，做更細粒度的拆解。

一、資料的生命周期

1. 用資料時，遇到的問題

業務高速發展帶動資料需求高漲，這與資料部門的應接能力之間存在博弈，這是擺在非天生數字化屬性的行業的一道難題。理想中，業務需要的資料都有，都能找到，可以支援各種次元的解析和創新。而現實是，能用的資料有限（A），很多已經建設出來的資料，大家不認識，不敢用（B），多個雷同資料存在使得校對該用哪一個耗時耗力。很多沉睡資料，已經過時，占用着存儲空間（D），使得資料存儲成本連年上漲。缺失重要資料，需要排期開發（C）。

2. 資料生命周期

資料産生于業務各環節中，部分在online的業務系統中，另一部分散落在offline（比如，工廠），要将散落在各處的資料做好采集（人工錄入、掃碼、RFID），確定必要資料進入業務資料庫中。之後，針對想做分析的資料，可以放入大資料平台的數倉中，通過資料內建工具，将結構化、非結構化多源異構資料彙聚到ODS層。根據資料模組化方法，資料開發工程師做DWD和DWS層的加工建設，供業務的資料分析師使用（ADS層），做報表、配看闆、提數等。

為進一步提高資料消費效率，通過複用資料API的模式打通最後一公裡，降低各系統分别對接的成本。針對一次性，或者長期不用的冷僵資料，做歸檔和删除處理，騰出寶貴的存儲空間和計算資源。這套大資料平台，涉及平台管理能力，以及資産管理子產品。而資料治理則橫跨業務系統到資料平台的全生命周期中。

3. 人、貨（資料）、場

大資料環境下的人貨場，跟電商場景中的人貨場有兩點相似，其一，都需要一個存儲貨物的地方——“倉庫”。大資料環境下叫資料倉庫。其二，都需要傳輸，大資料環境下叫“加工”。與實體的貨物相比，資料具有兩個特殊的屬性，使得，它的存儲和運輸，要比電商場景更為複雜。這兩個屬性是，“權限等級”、“體積變化”。

資料有等級之分，高敏感的資料，需要做更嚴格的權限管控，以確定消費安全。體積變化，是指經過一系列的加工（删除delete、drop、修改alter、增加insert、建立create等），資料的整體體積會發生變化（變大or變小）。這使得存儲or加工計算都需要具備彈性的能力，能包容、承托住資料的這些變化。貨物的流通VS資料的流通，使得我們還要考慮繼承的問題，跨系統的繼承、權限繼承、表/字段血緣繼承。這些因素，使得虛拟場景下的“人、數、場”比實體中的“人、貨、場”更為複雜。

基于上章節提及的資料生命周期，我們拆解了每個環節中，人是誰，在做什麼事兒，繼而資料會發生怎樣的變化（體積變大變小，定義更疊）。為了更為清晰的展示這些環節中人的角色，我們将他們逐一做了定義，共9個角色，1資料生産方、2資料擁有者（将資料采集到業務資料庫中）、3資料消費方（想用資料作分析，接入數倉）、4資料開發工程師、5資料分析師、6終端的小白使用者。過程中，在數倉範圍内，有7資産管理者，有8大資料平台的開發者和管理者。在整個資料生命周期範圍内，有9資料治理專家。每個角色，都有其要執行的動作，均簡要繪制在圖上，具體不再贅述。

資料方面，圖中标注了離線和實時兩種數倉結構，具體的數倉介紹，網絡上各種專家分享，内容翔實且精彩，不再贅述。

二、GPT介入後資料生命周期發生的變化

【前提】GPT打通大資料平台的數倉（即要添加企業專有知識，才能提升準确度，讓GPT在企業内部用起來，提醒，這些資訊資料的交換要在安全允許的範圍内進行），以擷取準确的中繼資料資訊，這樣在使用者輸入自然語言時，GPT能懂，并傳回符合企業資料結構特征的結果。其次，GPT還具有coding的能力，是以當它跟企業内部各個系統打通後，還可以擴充能力，代替人，執行某些既定操作。下面，我們以大資料環境中，6個常見環節，GPT是如何輔助人類的逐一做拆解。

1. 資料內建（聚）

GPT協助提效ETL：

Extract-Transform-Load：抽取（extract）轉換（transform）加載（load）
目前的ETL工具較成熟（如：Kettle、Datastage、Informatica），資料開發人員可以通過輸入和點選關鍵資訊，自動生成排程任務，對于沒有ETL工具的公司需要使用GPT。

2. 資料開發&模組化（養）

1）GPT代寫SQL做資料模組化和開發

【前提】将表的中繼資料資訊導給 ElasticSearch，結合 GPT 與 ElasticSearch 服務，提高 SQL 生成結果的準确性。

2）GPT代為配置資料品質監控告警

【前提】GPT跟資料品質子產品、排程子產品、email、飛書等系統打通。

第一步：輸入文字，讓GPT找到目标表（支援一次通路多張表）；
第二步：頁面呈現目标表（表頭、部分資料），确認準确；
第三步：輸入文字，針對這些表，計算，比過往12個月自身波動絕對值最大值還高的名額，高亮辨別出來，并給出字段名稱；
第四步：輸入文字，針對這些名額，做日常監控，計算超過比例，針對波動率大于等于5%的名額（基于經驗，大于曆史1年波動絕對值最大值超過5%的，判定為資料異常），email通知該表開發負責人、下遊任務建立者、消費方，某些名額可能出現異常，請關注；

【結論】GPT介入後，可以不做前端品質規則配置平台，并節約配置品質規則的人力投入。

3. 資産管理（治）

GPT代做冷僵資料歸檔和删除：

【前提】GPT跟排程子產品、資産管理子產品、email、飛書等系統打通。

第一步：輸入文字，找到半年以上冷僵資料（未有動銷，讀、寫、查詢過的表）；
第二步：輸入文字，确認這些表，是否有配置跑批任務；
第三步：輸入文字，讓GPT給這些表的建立者發送email郵件or飛書提醒，一周後，将自動删除這些冷僵資料，若需要保留，請盡快跟資産治理管理者取得聯系（此為舉例，實際工作中，細節落實時，會更複雜些）；
第四步：輸入文字，讓GPT執行删除冷僵資料的操作；

【結論】GPT介入後，可以不做前端冷僵資料歸檔和删除平台，可以節約配置冷僵資料定時删除規則的人力投入。

4. 平台管理（管）

GPT代建權限申請流程：

【前提】GPT跟低代碼流程中心、大資料權限管理子產品打通。

第一步：當人們通過輸入文字，問GPT，尋找某張表時，看過中繼資料資訊，確定是目标表，此時，若使用者沒有權限，可以請GPT幫忙做權限申請；
第二步：GPT根據該表的敏感等級，及審批要求。向申請人的直屬老闆、表的開發負責人、業務負責人、安全管理者逐層發起申請，過程中，某個環節可随時增加審批節點；
第三步：審批結束後，是通過還是駁回，GPT都會通過飛書oremail，or站内，GPT與人的互動端口，即時向申請者回報資訊；

【結論】GPT介入後，可以不做繁雜的定制化的權限審批流程，可以由安全與業務同學達成一緻後，給GPT輸入自然語言，形成審批流，以此節約研發人力投入。

5. 資料分析（用）

GPT代做“自助提數”：

【前提】1、與權限（行列權限和加解密），安全審計能力打通。2、打通中繼資料，確定GPT生成SQL時，對表、字段的描述跟數倉保持一緻，可以直接使用。

第一步：輸入文字，找目标表（支援一次通路多張表）。“例如我想查詢A表，在P條件下的x、y、z字段，可以直接輸出SQL語句。當然，經過預訓練，或者在資料源僅有一張表的情況下，描述話語甚至可以更加簡略。在訓練輸入了多張表結構後，也可以支援關聯分析。”

第二步：嘗試在原有SQL的基礎上修改一些條件“保留23年第一季度的結果”。

第三步：嘗試增删改查表或者對表中資料進行更新“幫我把價格表中的使用者單價上調10%”。

第四步：嘗試，将SQL翻譯為自然語言，以助于幫助了解SQL。

備注：以上是以EverSQL産品舉例。

雖然GPT能快速撰寫高品質的SQL，但是對于不能接受任何誤差的資料場景，準确了解業務需求，并關聯到所需的表和字段，需要一定的預訓練以提高準确度。快速訓練GPT提升特定場景比對能力，會成為分析師核心競争力之一。

【結論】GPT介入後，可以不做自助提數的前端平台，特别是拖拉拽的平台，直接用SQL取數能力即可，可以降低寫SQL的門檻，可以節約用SQL配置模版的人力投入。針對複用場景，直接将“prompt”儲存下來，隻要有權限通路，即可複用。

6. BI看闆（用）

GPT生成“圖表”：

【前提】GTP跟圖表生成工具打通。

第一步：同2.1第一步
第二步：同2.1第二步
第三步：輸入文字，告知要哪些行、哪些列，生成柱狀、餅狀、折線圖等

【結論】GPT介入後，快速支撐業務的臨時性看闆需求（自助），可以節約資料分析師配置看闆人力投入（隻做長期高頻BI看闆，針對臨時性的業務需求，特别是緊急的，無需排隊等待，業務小白可以讓GPT制作）。

7. 業務應用（用）

【結論】GPT介入後，後續甚至是語音輸入，即可，無需碼字，在移動端調取資料會更加友善，很适合銷售門店等offline無PC電腦的場景。

基于以上建設，大資料場景下向數字孿生方向的發展加快了步伐。美國國防部、微軟在工業化等數字孿生場景中（模型建設、場景設計），均引入生成式AI。智能問答、語音互動擷取資料将會實作。

受作者領域認知深度所限，及技術無時無刻不在更新疊代，業界對GPT、AutoGPT、AGI、即時AI……的衍生應用必定是珠零錦粲。無法在一篇中盡現全貌，未來可能會徹底推翻當下的種種嘗試而不得知。能為大家帶去一點點新的啟發，以深感欣慰。文中難免有纰漏或不準确的地方，歡迎大家批評指正。撰寫中參考網絡上各位同仁的最新觀點，拿來主義為打招呼，還望見諒。若有任何建議或意見，歡迎聯系作者探讨。

參考資料：

https://baike.baidu.com/item/GPT/62908731?fromModule=lemma_search-box

https://baijiahao.baidu.com/s?id=1761984800865030846&wfr=spider&for=pc

作者：shucay，佳琪，童，alan，伯敖

本文由@shucay 授權釋出于人人都是産品經理，未經許可，禁止轉載。

題圖來自Unsplash，基于CC0協定

該文觀點僅代表作者本人，人人都是産品經理平台僅提供資訊存儲空間服務。

GPT奇點賦能大資料行業，不隻是寫SQL還有……——以資料全生命周期視角為例

一、資料的生命周期

1. 用資料時，遇到的問題

2. 資料生命周期

3. 人、貨（資料）、場

二、GPT介入後資料生命周期發生的變化

1. 資料內建（聚）

2. 資料開發&模組化（養）

3. 資産管理（治）

4. 平台管理（管）

5. 資料分析（用）

6. BI看闆（用）

7. 業務應用（用）

繼續閱讀

飛5的Spring Boot2（6）- 導入外部配置

vue - vue基礎/vue核心内容（終結篇）

寫在2-14，程式員才看得懂的情書

c語言學習打卡第一天

Vue學習記錄--執行個體的生命周期

React學習筆記（五）：生命周期

局部内部類

掙值如何計算？

【Android重點知識突破系列1】——Activity

你所不知道的Activity方法

Activity的生命周期及加載模式1.Activity的生命周期2.Activity的加載模式

Android四大元件之Activity(七大生命周期)

Android四大元件之一：Activity總結（上）

Android四大元件之Activity Life Cycle

【React】1020- React useEffect 使用指南

PMBOK學習筆記－項目生命周期特征