天天看點

無資料,不模型! 亞馬遜雲科技持續引領資料基座建構三大核心能力

作者:遊戲頭号

北京——2024年4月30日 亞馬遜雲科技持續引領雲上資料服務創新,助力企業建構全面的資料基座以充分發揮資料潛力,加速生成式AI技術落地。在生成式AI時代,資料是企業脫穎而出的關鍵——基礎模型依賴于大規模高品質資料集,生成式AI的差異化優勢來源于企業的專有資料,生成式AI應用産生的大量新資料也需要及時有效地加以管理和利用。亞馬遜雲科技持續引領資料基座建構必備的三大核心能力,即模型微調和預訓練所需的資料處理能力、利用專有資料與模型快速結合以産生獨特價值的能力,以及有效處理新資料以助推生成式AI應用持續快速發展的能力,助力企業在生成式AI時代取得成功。

無資料,不模型! 亞馬遜雲科技持續引領資料基座建構三大核心能力

亞馬遜雲科技大中華區産品部總經理陳曉建表示:“企業需要的是懂業務、懂使用者的生成式AI應用,而打造這樣的應用需要從資料做起。亞馬遜雲科技建構資料基座的三大核心能力涵蓋從基礎模型訓練到生成式AI應用建構的重要場景,能夠幫助企業輕松應對海量多模态資料,提升基礎模型能力。作為全球雲計算的開創者和引領者,亞馬遜雲科技正在幫助各個行業、各種規模的企業打造強健的資料基座,在確定使用者業務和資料安全的前提下,将資料的獨特價值賦予基礎模型和生成式AI應用,加速企業業務增長。”

優秀的資料處理能力,快速提高模型微調和預訓練品質

生成式AI基礎模型微調和預訓練需要将海量的多樣化原始資料轉化為高品質的大資料集,這對資料存儲、清洗和治理都提出了更嚴峻的挑戰。

在資料存儲方面,擴充性和響應速度是關鍵。Amazon Simple Storage Service(Amazon S3)對象存儲幾乎是雲上擴充性的代名詞,它支援廣泛的資料協定,能夠輕松應對各種資料類型,還支援智能分層以降低訓練成本。專門建構的檔案存儲服務Amazon FSx for Lustre則能夠提供亞毫秒延遲和數百萬IOPS的吞吐性能,能夠進一步加快模型優化的速度。

在資料清洗方面,企業面臨着繁重的資料清洗加工任務,Amazon EMR Serverless和Amazon Glue可以幫助企業輕松完成資料清理、去重、乃至分詞的操作,讓企業專注于生成式AI業務創新。Amazon EMR serverless采用無伺服器架構,幫助企業運作任何規模的分析工作負載,自動擴充功能可在幾秒鐘内調整資源大小,以滿足不斷變化的資料量和處理要求。Amazon Glue是一個簡單可擴充的無伺服器資料內建服務,可以輕松快速地完成微調或預訓練模型的資料準備工作。

在資料治理方面,企業難以在多個賬戶和區域中查找資料,也缺乏有效的資料治理工具。Amazon DataZone讓企業能夠跨組織邊界大規模地發現、共享和管理資料,不但能夠為多源多模态資料進行有效編目和治理,而且還提供簡單易用的統一資料管理平台和工具,進而為使用者解鎖所有資料的潛能。

資料與模型快速結合,讓企業專有資料釋放更大價值

生成式AI基礎模型的局限性之一在于無法及時擁有企業專有資料,是以通過技術手段加速資料與模型的結合成為企業資料基座的第二項關鍵能力。檢索增強生成(Retrieval-Augmented Generation,RAG)技術被普遍認為是實作資料與模型結合的主要途徑之一,它通過将資料轉換為向量并存儲到向量資料庫中,進而将語義的關聯性轉化為向量間的數學距離問題,以實作内容的關聯性計算。現代應用程式需精準了解使用者需求并正确關聯産品或内容,這一需求廣泛存在于搜尋、評論、購物車及産品推薦等互動架構中,這些架構又依賴于功能各異的資料庫,這使得資料庫成為實施RAG技術的理想平台。

亞馬遜雲科技将向量搜尋的支援功能加入到主流的資料服務中,通過将資料和向量存儲在一起來提升資料查詢性能。這能夠讓企業輕松利用RAG技術将專有資料提供給基礎模型,進而釋放更大價值。此外,亞馬遜雲科技還為圖資料庫Amazon Neptune推出了分析資料庫引擎,以結合圖資料庫與大模型的優勢,進而能夠快速從圖形資料中擷取洞察,并進行更快的向量搜尋。

有效處理生成式AI應用的新資料,降低模型頻繁調用成本并提升性能

對生成式AI應用程式而言,基礎模型頻繁調用将會導緻成本的增加和響應的延遲,是以如何處理生成式AI應用程式新生成的資料,提升模型調用效率成為企業資料基座的第三項關鍵能力。Amazon Memory DB記憶體資料庫通過緩存之前問答生成的新資料,實作對類似問題的快速響應和準确回答,同時有效降低基礎模型的調用頻率。Amazon Memory DB能夠存儲數百萬個向量,隻需要幾毫秒的響應時間,能夠以99%的召回率實作每秒百萬次的查詢性能。

此外,生成式AI應用程式需要快速占領市場。亞馬遜雲科技通過提供無伺服器資料庫服務和Amazon OpenSearch Serverless用于向量搜尋,最大限度為企業減少運維負擔和成本,消除性能瓶頸,使企業能夠專注于生成式AI業務創新。

Amazon Music通過分析使用者和歌曲的特征,并将它們轉換成向量以提高推薦精準度。Amazon Music已認證Amazon OpenSearch将1億首歌曲編碼成向量并進行索引,以為全球使用者提供實時音樂推薦。Amazon Music目前在Amazon OpenSearch中管理着10.5億個向量,并能夠處理每秒高達7,100次的查詢峰值,有效支撐其推薦系統。

繼續閱讀