大語言模型在數倉資料治理上的落地實踐

随着資料規模的不斷增長和業務需求的日益複雜，資料倉庫（Data Warehouse）的建設和管理變得越來越重要，資料治理也成為資料倉庫建設中不可忽視的一環。其中數倉中繼資料和名額是對資料的描述和度量，對于資料分析和決策起着至關重要的作用。然而，由于資料規模龐大且複雜，傳統的中繼資料和名額檢索方法往往效率低下，無法滿足快速、準确地檢索需求。本文将介紹如何利用大型語言模型技術在數倉中繼資料和名額檢索治理上進行落地實踐，包括技術架構、詳細的技術說明以及解決的問題。

1.實踐的背景

在現有的系統工具中，我們已經建設過了名額管理系統，中繼資料系統，ide使用者查詢平台等多項資料工具。傳統平台更多的是工具性的支援，使用者有目的輸入，系統檢索傳回結果。這種形式容易形成資訊孤島，因為中繼資料系統就是中繼資料資訊，名額管理就是名額資訊，使用者更多的時候是希望可以進行融合，來解答業務上的問題。

大語言模型是一種基于Transformer模型的自然語言處理技術。它通過大規模的預訓練來學習語言模型，然後可以在各種任務上進行微調，以實作更具體的應用。大語言模型具有強大的語義了解和生成能力，可以根據輸入的自然語言文本生成相關的回答。它可以在現有應用系統上充當粘合劑，将不同系統的資訊有機地組合起來提供給使用者。是以，我們決定通過大語言模型來處理我們目前的解決場景，以滿足我們的需求。

2.技術架構

2.1

檢索語料入倉

通過與中繼資料系統和名額管理系統的對接，您可以将需要咨詢的内容接入數倉進行存儲和管理。在數倉中，語料内容以語料短語和詳情資訊組成的kv對的形式進行組織，形成初始的索引資訊。

索引資訊的組織形式可以根據具體的需求和資料結構進行設計。一種常見的方式是使用表名作為key，表結構作為value。這樣可以友善地根據表名進行索引查詢，快速找到相關的語料内容。

另一種方式是使用名額名稱作為key，名額說明和生成規則描述作為value。這種方式适用于需要根據名額進行咨詢的場景。通過将名額資訊作為索引的一部分，可以友善地根據名額名稱進行檢索，快速找到與名額相關的語料内容。

通過與中繼資料系統和名額管理系統的對接，您可以擷取到更多的中繼資料資訊和名額定義。這些資訊可以作為語料内容的補充說明，豐富語料的詳情資訊。同時，您可以将這些資訊與語料短語一起存儲在數倉中，以便後續的索引接入和咨詢檢索。

2.2

語料向量化處理

在完成語料組裝後，我們采用了Milvus向量庫來對語料内容進行向量化處理。這種處理方式的好處在于，通過将語料内容轉化為向量表示，我們可以避免明文比對中的完全比對或模糊比對方式所帶來的比對範圍縮小問題。因為使用者的語言變化情況非常多樣化，直接使用明文比對可能無法涵蓋所有變化的情況。

通過向量化處理，我們将語料内容映射到一個高維向量空間中。在這個向量空間中，每個語料内容都被表示為一個向量，而這些向量之間的距離可以用來衡量它們之間的相似度。這樣一來，我們可以通過向量比對的方式，找到與使用者輸入最接近的語料内容。

向量化處理的另一個好處是可以避免語言上的各種修飾詞所帶來的幹擾。修飾詞通常是一些形容詞、副詞或其他語言上的修飾性語句，它們在明文比對中可能會導緻比對結果的偏差。但是通過向量化處理，我們将語料内容轉化為數值向量，這些向量能夠更準确地反映語料内容的語義資訊，而不受修飾詞的影響。

2.3

大語言模型接入

在使用者咨詢的過程中，将對話内容也進行向量化處理，可以用于與結果進行比對。通過這種方式，我們可以根據向量的相似度來找到與使用者咨詢内容最相關的語料内容。

通常情況下，使用者在輸入咨詢内容時，可能隻會描述很少的語言，但這些描述往往是重點突出的。是以，通過向量化處理，可以将這些關鍵資訊編碼為向量表示。向量化的過程可以使用各種技術，将文本轉化為數值向量。這樣一來，我們可以通過計算向量之間的相似度，找到與使用者輸入内容最相似的語料内容。

當找到比對結果後，可以根據向量分值對結果進行排序處理。向量分值可以反映比對的程度，較高的分值表示比對度較好。通過對結果進行排序，我們可以将比對度較高的語料内容排在前面，提供給使用者更相關的咨詢答案。

一旦确定了比對結果，就可以将這些語料召回，将内容送入大語言模型提供的接口進行組裝。模型會根據輸入内容生成連貫、自然的回答。通過将比對結果與大語言模型結合，我們可以将相關的語料内容轉化為更具體、詳細的回答，提供給使用者更專業、準确的咨詢服務。

2.4

前端應用部署

在選擇前端環境時，我們考慮了原有的兩套系統以及其他綜合性平台，但沒有找到合适的入口和理由來讓使用者接觸和使用這些系統。最後，我們決定将系統結合到IDE使用者查詢平台中。對于使用SQL查詢資訊的使用者，他們經常需要了解名額的含義、用法以及表的中繼資料資訊。這些使用者主要分布在數分、産品、營運、算法等不同的小組。他們是目前最符合我們的使用場景的切入點。

通過将系統整合到IDE使用者查詢平台中，我們可以為這些使用者提供一個統一的界面和入口，使他們可以友善地查詢和了解名額的相關資訊。使用者可以在查詢平台中輸入SQL語句，并擷取到與名額相關的詳細資訊，包括名額的定義、計算方法、使用示例以及表的中繼資料資訊等。這樣一來，使用者可以在一個平台上完成查詢和了解名額的操作，無需切換多個系統。同時，使用者可以通過查詢平台擷取到準确、全面的名額資訊，幫助他們更好地了解和使用名額，提高工作效率。

總體架構圖：

3.應用效果

通過大語言模型在數倉治理中中繼資料和名額檢索方面的落地實踐，我們解決了以下幾個問題：

提高檢索效率：傳統的中繼資料和名額檢索方法往往需要複雜的查詢語句和繁瑣的操作，效率低下。而利用大語言模型技術，使用者隻需輸入自然語言的查詢問題，系統可以快速地傳回相應的結果，大大提高了檢索效率。
提升檢索準确性：傳統的中繼資料和名額檢索方法容易受到查詢語句表達不準确的影響，導緻傳回的結果不準确。而大語言模型具有強大的語義了解和推理能力，可以更好地了解使用者的查詢意圖，提高檢索結果的準确性。
提供更好的使用者體驗：傳統的中繼資料和名額檢索方法需要使用者具備一定的技術背景和操作經驗，對于非專業人士來說較為困難。而利用大語言模型技術，使用者隻需輸入自然語言的查詢問題，無需了解複雜的查詢文法和操作步驟，大大提高了使用者的使用體驗。
總結：通過大語言模型的技術支援，我們可以實作更智能、便捷的中繼資料和名額管理。它能夠了解自然語言輸入，并根據使用者需求提供相關的中繼資料和名額資訊。這種智能化的能力使得資料操作和資料分析更加高效和準确。通過大語言模型的支援，我們可以更好地管理和利用資料倉庫中的中繼資料和名額，提升資料治理和資料分析的水準。希望本文對您有所幫助，謝謝！

作者簡介

範文

■ 資料平台部-資料倉庫團隊

■ 主要負責汽車之家資料倉庫建設，資料開發，搜尋業務對接工作。

作者:範文

來源:微信公衆号:之家技術

出處:https://mp.weixin.qq.com/s/LSrYbDMT38YovyNIpkUhAg

大語言模型在數倉資料治理上的落地實踐

繼續閱讀

3倍靈敏度，搜尋百萬蛋白對隻需幾秒，複旦等開發新的語言模型

8.3K Stars!《多模态大語言模型綜述》重大更新

Meta研究員破解大模型逆轉詛咒，推出《語言模型實體學》

解碼 AI：揭秘聊天機器人的“大腦” - 大語言模型

預測蛋白質共調控和功能，哈佛&MIT訓練基因組語言模型

【英特爾釋出新一代AI晶片，或成英偉達産品勁敵】英特爾在人工智能加速器領域取得了重要進展，其子公司HabanaLabs在

研究者提出人工智能新概念，讓大語言模型與真實實體世界進行互動

Llama 3：開源大語言模型的下一個前沿

大語言模型的應用秘訣：如何通過高效的提示詞掌控AI？

蘋果又被曝大動作，自研裝置端大語言模型，AI才是“重振雄風”新出路？

難怪之前傳iPhone16系列國行版本AI功能将由百度提供，原來百度在中國人工智能發明專利企業排名中還是靠前的。排名前十

蘋果釋出OpenELM，基于開源訓練和推理架構的高效語言模型

所羅門諾夫：大語言模型的先知

大語言模型部署：vLLM 與量化技術

蘋果發高效語言模型 OpenELM；小米策劃 15 萬元新車；AI 成功改寫人類 DNA|極客早知道

深度學習與化學語言模型結合，用于藥物從頭設計，登Nature子刊