天天看點

柏睿資料推出面向行業大模型建構和應用的産品方案

作者:柏睿資料官方
柏睿資料推出面向行業大模型建構和應用的産品方案

生成式AI大模型在智能對話、内容創作、程式設計等人機互動場景中大放異彩,各行業企業也在積極建構自己的AI模型,以支撐垂直專業領域的智能化應用,提升企業洞察力,創造業務新價值。

但AI大模型不具備長期記憶能力,在服務垂直專業領域時會存在知識深度和記憶時效性不足的問題,企業建構屬于自己的大模型面臨挑戰。

基于此現狀,柏睿資料推出LLMOps平台、向量存儲查詢引擎兩種産品方案,助力企業高效、簡單地建構和應用完美适配業務場景的AI大模型。企業不僅能夠通過柏睿LLMOps平台在大模型上做垂直領域的模型微調,還可通過向量存儲查詢引擎,基于企業的自有知識資産建構本地知識問答服務,使得服務更加專業、實時且智慧。

柏睿資料推出面向行業大模型建構和應用的産品方案

柏睿LLMOps: 高效微調大模型

LLMOps本質是人工智能研發營運體系(MLOps)的子類别。柏睿資料智能平台Rapids AI 是一個以資料為中心、以MLOps為方法論的機器學習平台,緻力于解決 AI 生産過程中團隊協作難、管理亂、傳遞周期長等問題,最終實作高品質、高效率、可持續的 AI 生産過程。

在大模型時代,柏睿資料在基于Rapids AI的已有MLOps生态鍊中補充LLMOps的能力,更加關注大語言模型的建構和運作,其能力特點包括:

  • 訓練微調模型能力

通過柏睿LLMOps平台,通過柏睿LLMOps提供的優化的基礎架構、資源管理能力和精簡的開發流程,企業能夠在本地訓練和微調大模型,確定在模型訓練、疊代和部署過程中提高效率和控制能力,進而充分利用大模型實作人工智能賦能業務場景的變革能力。

  • 可視化編排能力

柏睿LLMOps平台的可視化工作流編排能力,使資料科學家和研究人員能夠結合大模型及其他應用,通過prompt工程,快速建構工作鍊,充分發揮大模型的全部潛力,實作靈活傳遞。

  • 資産管理能力

與傳統MLOps類似,LLMOps也具有資料、模型、代碼的統一管理和運維能力。對資産的版本和品質進行持續監控和高效統一管理,并加以風險防控和安全管理等手段,進而實作有效治理。

  • 應用運維能力

通過可視化的方式編寫Prompt并調試,并自動接入上下文或資料集,隻需幾分鐘即可釋出AI應用。同時提供模型API服務,助力企業快速将大模型的能力內建到業務場景應用中,而無需關注複雜的後端架構和部署過程。

通過柏睿LLMOps平台,企業可以簡化LLM支援應用程式的開發、部署和維護過程,更高效地部署好用、可靠、精準地AI大模型,加速釋放大語言模型(LLM)在垂直應用場景中的全部潛力。

柏睿向量存儲查詢引擎:強化LLM記憶的“海馬體”

但 LLM 更像是容易失憶的大腦,需要海馬體來強化記憶,向量資料庫就是支撐LLM長期記憶的“海馬體”:基于向量資料庫,一方面,LLM 通過浏覽專用資料與知識使回答更精準;另一方面,LLM 能回憶自己過往的知識和經驗,通過“反思”為使用者提供更個性化的服務。

向量資料庫作為一種能夠存儲和處理圖檔、文字、語音等多種資料類型的系統,通過embedding加工使LLM接觸和學習的資料向量化,能夠有效地支援多模态資料的存儲、索引和查詢。向量搜尋通過與向量資料庫中存儲的海量向量進行相似度比對,找到最符合要求的k個記錄,此過程可以助力LLM實作相似文本搜尋、文本推薦系統、問題回答和知識檢索等功能。

柏睿資料作為一家深耕“Data + AI”技術的公司,一直緻力于将AI的能力與資料庫結合,面向AI大模型時代推出向量存儲查詢引擎,支援資料的向量化存儲和向量索引。柏睿資料RapidsDB的資料聯邦機制能夠支援結構化資料和向量資料的存儲與查詢,且采用全記憶體分布式架構和大規模并行計算引擎,具備高性能、高可用、彈性擴充等特點,切實解決企業對向量的快速檢索需求。

基于柏睿資料的大模型訓練運維管理生産線 LLMOps及向量存儲查詢引擎,結合特定行業或應用的場景,企業可獲得比對自身垂直領域的智能化能力。

LLM+RapidsDB:人人都是資料分析師

通過在具有完全知識産權的全記憶體分布式資料庫RapidsDB中引入LLM,柏睿資料推出了具有自然語言接口的分析型資料庫。使用者通過自然語言提問,可以從RapidsDB的多張資料表中快速查詢結果并傳回相應分析報告,進一步降低資料庫的使用門檻,真正實作“人人都是資料分析師”。

通常,自然語言轉SQL是将資料庫中所有表的schema傳遞給大模型,大模型會根據提問和schema資訊生成相應的SQL。但是,如果資料庫中存在大量的資料表,則會導緻傳遞給資料的schema資訊超出token的限制,進而無法完成自然語言轉SQL的任務。

針對該問題,柏睿資料首先将資料庫中的schema通過embedding轉為向量,并存放于向量資料庫;再計算問題和schema 向量的相似度,選擇與問題比對的表資訊,将篩選後的schema傳遞給大模型,進而大大減少了單次prompt的token消耗。這樣一方面解決了資料表過多無法生成SQL的問題,一方面減少了token數,降低大模型的使用成本。

同時,為讓大模型生成更準确的SQL,柏睿資料也在本地利用LLMOps對大模型進行微調,強化大模型對中文的了解和輸出,并通過SQL語料的微調,提高SQL生成的準确率。

行業大模型應用:物聯網下的智慧工廠

在工廠裝置全生命周期管理中,各個環節都會采集、彙聚海量結構化和非結構化的資料、實時流資料和曆史資料等多種類型的資料,并需要從這些海量資料中高效、實時地擷取能夠為業務人員所用的有效資訊。

柏睿資料智慧工廠解決方案通過将大語言模型與物聯網技術相結合,賦能工廠智能運維場景,重塑資料追蹤和分析流程,助力工業企業獲得更深入的洞察和智能決策,提高生産質效、降低成本。

  • 首先,采集工廠裝置大資料,包括建立裝置靜态、動态統一的資料庫以及裝置管理全業務環節的日常業務資料庫。
  • 其次,建立“引發工況的可能問題”的樣例庫。分析不同類型裝置出現的不同故障表現及原因并采取适當行為解決該故障,由此形成故障體系。
  • 再次,通過建立專家知識庫配置平台,将行業專家的知識整理後錄入知識庫,作為工廠故障診斷分析、優化運作的指導依據。
  • 最終,一方面将知識庫的内容向量化存儲到向量資料庫中,與LLM結合,輸出應對故障和優化問題的、基于經驗的回答;另一方面,使用積累的資料對LLM進行微調,使得系統在每次處理和分析資料的過程中都能夠通過持續的資料庫運算進行“學習”。

由此,大資料平台從工廠營運的經驗中收集新的故障檢修資訊,通過自動學習架構捕捉獲得的經驗進行編譯後,再提供給所有使用者。

未來,柏睿資料将持續發力“Data + AI”的前沿技術與應用,與客戶、夥伴攜手同行,助力AI大模型深入關鍵行業的垂直場景,共同構築數字化全域能力,共同推動産業數智化發展,共同建設智能美好未來!

繼續閱讀