天天看點

媒體聚焦 | 資料科學技術發展與應用趨勢分析

作者:柏睿資料官方
媒體聚焦 | 資料科學技術發展與應用趨勢分析

大模型時代加速到來的背後,資料科學技術不斷推動着人工智能的發展,大模型的發展也帶動資料科學技術走向新未來。

日前,鳳凰網科技頻道、賽迪網、DOIT等媒體刊登了柏睿資料相關觀點文章。

文章内容如下:

以ChatGPT為代表,布局人工智能大模型已成為世界性趨勢,大模型時代正在加速到來。大模型發展背後,資料科學技術不斷推動着人工智能的發展,大模型的發展也帶動資料科學技術走向新未來。

本文将從資料科學技術發展曆程出發,探讨資料科學技術在實施過程中面臨的挑戰,并分析其未來發展趨勢。

資料科學技術發展溯源

RapidsDB資料科學的概念最早出現于1962年,美國數學家John Tukey提議用資料科學(Data Science, Datalogy)來替代計算機科學,認為資料科學是資料分析的未來。

在1974年,Peter Naur 發表了《計算機方法簡明調查》,調查了各種應用程式中的資料處理方法,第一次明确定義了資料科學是“處理資料的科學”。此後,計算機科學家和統計學家開始關注如何利用計算機技術處理大量的資料。

随着計算機技術的發展和資料量的不斷增長,在20世紀90年代,資料科學技術經曆了爆發式的發展,諸如資料挖掘、資料倉庫等技術概念應運而生。直到現在,資料科學的概念和範圍也在持續演變。

目前,維基百科将資料科學定義為“一門利用資料學習知識的學科”。它的目标是從資料中提取輸入價值的部分生産資料産品,其中最典型的代表就是各類人工智能的應用。

實際上,資料科學交叉融合了諸多技術,包括數學、統計、機器學習、資料倉庫以及高性能計算等關鍵技術。尤其是将計算機科學中的資料處理技術和數學中的機器學習技術融合,是資料科學典型的特征。

媒體聚焦 | 資料科學技術發展與應用趨勢分析

資料處理與機器學習的關系

從上述關系圖可以看出,在計算機方面資料科學所涵蓋的核心技術是資料處理和機器學習,不妨通過二者發展曆程來探尋其關系。

自2016年AlphaGo橫空出世起,大衆對人工智能的認知達到了前所未有的廣度和高度,傳統産業對智能更新和轉型的熱情也空前高漲。再到2022年底ChatGPT的釋出,使得更為廣泛的大衆深刻感受到人工智能對日常生産生活的影響。

其實,目前主流人工智能技術中所采用的算法,幾乎都是上世紀八九十年代或更早前被提出的。以AlphaGo為例,其采用的強化學習、深度學習、蒙特卡洛搜尋樹都是上世紀被提出來的。可以說,在上世紀70年代至90年代,人工智能經曆了漫長的“黑暗期”,多項研究進展緩慢。

媒體聚焦 | 資料科學技術發展與應用趨勢分析

通過将大資料技術發展曆程圖和人工智能技術發展曆程圖對照,可以看到從1960年開始,資料管理的需求逐漸增長,從二十世紀九十年代到進入二十一世紀,資料庫技術持續蓬勃發展,在2005年Apache基金會推出大資料處理架構Hadoop,助力企業更高效地處理和存儲海量資料,為資料科學的發展奠定了基礎。

媒體聚焦 | 資料科學技術發展與應用趨勢分析

總體來說,資料形式和資料量的變化,推動了資料處理和機器學習的進化:資料量的增加催生了更為先進的資料處理技術,資料處理技術的成熟使得機器學習的發展成為可能。

實施資料科學面臨的挑戰

傳統的資料科學家會使用Python作為工具,而Python的資料科學棧三大底座分别是NumPy, Pandas和SciPy。其中NumPy用來做數值計算,包括最基礎的資料結構。Pandas在NumPy之上,通過各種API來對資料進行分析操作,SciPy則負責科學計算。在三大底座之上,還有豐富的機器學習和可視化的函數。

此套資料技術棧組合的益處在于使用廣泛,高度标準化;上手成本低,容易為初學者和學生入門;和語言結合緊密,能用Python來組織函數調用。但以Python為基礎的資料科學技術棧問題也很明顯,它們都是單機的資料庫,不能處理很大的資料量。

在資料量爆炸式增長、資料來源多樣、資料實時性要求高的當下,顯然使用Python的資料庫不能很好地解決實際中遇到的問題,是以往往需要引入大資料的技術棧。

主流的大資料技術包括Hadoop, Spark, Flink, Kafka等,雖然都支援多語言,但是學習曲線比較陡峭,也需要使用者對系統本身有足夠的了解。是以,實施資料科學項目時,通常由資料科學家用Python完成小量資料的分析、處理、模組化,将資料處理的部分交給資料工程師,由資料工程師将資料處理的邏輯轉化為大資料技術的方法,再将處理好的大資料交還給資料科學家。但由于兩者使用的技術不同,技能背景不同,導緻溝通配合成本較高,應用落地難。

而在大模型快速發展的當下,除了提供極速的大資料分析處理能力外,如何為模型服務提供高品質的資料,進而提升大模型響應速度并降低算力消耗,也是值得研究的方向。

資料科學技術新趨勢

面對以上挑戰,資料科學技術也迎來一些新的發展趨勢。

In-DBMS analytics

為應對大模型時代越來越大的資料量,最簡單的方式就是Scale Up,利用更多的核和更好的硬體,如GPU、FPGA等;另外一個方式是Scale out, 利用分布式的方式,例如RAY, DASK等。

而結合Scale up和Scale out,可以建構一個大規模的、更好的硬體內建,柏睿資料的全記憶體分布式計算引擎RapidsDB即是如此,搭載了針對引擎的FPGA加速晶片,為大資料場景提供一站式的資料科學解決方案,滿足使用者對大資料存儲、分析、模組化的全部需求。

MLOps

解決大資料技術和人工智能技術不統一的方法,其中一個便是通過工程化的方式提高資料科學項目落地的效率。人工智能研發營運體系(MLOps) 作為 AI 工程化重要組成部分,其核心思想是解決 AI 生産過程中團隊協作難、管理亂、傳遞周期長等問題,最終實作高品質、高效率、可持續的 AI 生産過程。

柏睿資料Rapids AI是一系列用于建構人工智能應用的産品組合,包括資料智能分析診斷平台、特征庫、AIWorkflow和模型集市,覆寫了在人工智能應用開發全流程的工作,包括資料擷取、資料探索、資料處理、特征工程、模型開發、模型評估、模型部署應用和模型監控維護,提升資料科學開發落地的工作效率。

當JVM在運作位元組碼程式的時候,還會根據程式運作時的情況做運作時優化,包括指令和資料的預取等,以此進一步提高查詢的執行效率。要指出的是,資料庫查詢程式尤其适合運作時優化,因為有大量的循環嵌套等。

向量資料庫

在如ChatGPT此類大語言模型的預訓練、微調以及條件生産過程中,需要利用詞嵌入的方法,将單詞轉化為具有語義資訊和連續表示的向量。這些詞嵌入向量使得模型能夠更好地了解單詞之間的關系、模組化上下文資訊,并生成連貫的文本或了解上下文的含義。

在大語言模型的應用場景中,例如問題回答和知識檢索等應用場景,可以使用向量資料庫存儲大規模的知識庫,通過将問題和知識庫中的内容轉化為向量表示,并計算向量之間的相似度,最大限度地減少資料檢索所需的時間,系統可以更快地響應并提供更好的使用者體驗。使用嵌入(以及文檔索引)和向量存儲的另一個優點是,它更易于實作遷移學習等技術,以實作更高效的微調和更好的性能。

未來展望

根據Gartner技術報告分析,In-DBMS Analytics庫内分析技術将是資料庫技術主流發展趨勢;未來,從資料産生、內建、模組化、執行、管理均在同一平台完成,實作資料和AI技術的融合。

在過去,由于資料管理技術的發展,帶動了AI技術的發展,但随着ChatGPT此類大語言模型的成熟,人工智能技術也會反哺資料管理領域。一方面,通過ChatGPT等AI模型賦能,提高代碼的編寫效率,加速軟體開發疊代;另一方面,改變互動方式,降低使用門檻,讓計算機語言不再成為資料科學家工作的障礙。

作者:易水寒 / 柏睿資料 Rapids AI 産品負責人

繼續閱讀