強化學習如何做資料分析？新加坡國立等TKDE 2022綜述論文

新智元報道

來源：專知

【新智元導讀】資料分析是現在必備的技能之一。傳統大多采用靜态算法或者規則進行資料分析，但在現實場景中往往面臨的是複雜的互動環境中，如何學習更好的政策是個很實際的問題。幸運的是強化學習可以作為解決這種問題的一種有效方法。來自新加坡南洋理工大學的學者在TKDE發表了《深度強化學習資料處理與分析》的綜述論文，對最近的工作進行了全面的回顧，重點是利用DRL改進資料處理和分析。

資料處理和分析是基礎和普遍的。算法在資料處理和分析中發揮着至關重要的作用，許多算法設計都結合了啟發式和人類知識和經驗的一般規則，以提高其有效性。

近年來，強化學習，特别是深度強化學習（DRL）在許多領域得到了越來越多的探索和利用，因為與靜态設計的算法相比，它可以在複雜的互動環境中學習更好的政策。受這一趨勢的推動，我們對最近的工作進行了全面的回顧，重點是利用DRL改進資料處理和分析。

首先，我們介紹了DRL中的關鍵概念、理論和方法。接下來，我們将讨論DRL在資料庫系統上的部署，在各個方面促進資料處理和分析，包括資料組織、排程、調優和索引。

然後，我們調查了DRL在資料處理和分析中的應用，從資料準備、自然語言處理到醫療保健、金融科技等。

最後，我們讨論了在資料處理和分析中使用DRL所面臨的重要挑戰和未來的研究方向。

論文連結：https://arxiv.org/abs/2108.04526

在大資料時代，資料處理和分析是基礎的、無處不在的，對于許多組織來說是至關重要的，這些組織正在進行數字化之旅，以改善和轉變其業務和營運。在提取洞察力之前，資料分析通常需要其他關鍵操作，如資料采集、資料清理、資料內建、模組化等。

大資料可以在醫療保健和零售等許多行業釋放出巨大的價值創造。然而，資料的複雜性（例如，高容量、高速度和高多樣性）給資料分析帶來了許多挑戰，是以很難得出有意義的見解。為了應對這一挑戰，促進資料處理和分析的高效和有效，研究人員和實踐人員設計了大量的算法和技術，也開發了大量的學習系統，如Spark MLlib和Rafiki。

為了支援快速的資料處理和準确的資料分析，大量的算法依賴于基于人類知識和經驗開發的規則。例如，「最短作業優先」是一種排程算法，它選擇執行時間最短的作業進行下一次執行。但在沒有充分利用工作負載特性的情況下，與基于學習的排程算法相比，其性能較差。另一個例子是計算機網絡中的包分類，它将一個包與一組規則中的一條規則進行比對。一種解決方案是使用手工調整的啟發式分類來構造決策樹。具體來說，啟發式算法是為一組特定的規則設計的，是以可能不能很好地工作于具有不同特征的其他工作負載。

我們觀察到現有算法的三個局限性：

首先，算法是次優的。諸如資料分布之類的有用資訊可能會被忽略或未被規則充分利用。其次，算法缺乏自适應能力。為特定工作負載設計的算法不能在另一個不同的工作負載中很好地執行。第三，算法設計是一個耗時的過程。開發人員必須花很多時間嘗試很多規則，以找到一個經驗有效的規則。

基于學習的算法也被用于資料處理和分析。經常使用的學習方法有兩種:監督學習和強化學習。它們通過直接優化性能目标來實作更好的性能。監督學習通常需要一組豐富的高品質标注訓練資料，這可能是很難和具有挑戰性的擷取。例如，配置調優對于優化資料庫管理系統（DBMS）的整體性能非常重要。在離散和連續的空間中，可能有數百個調諧旋鈕互相關聯。此外，不同的資料庫執行個體、查詢工作負載和硬體特性使得資料收集變得不可用，尤其是在雲環境中。

與監督學習相比，強化學習具有較好的性能，因為它采用了試錯搜尋，并且需要更少的訓練樣本來找到雲資料庫的良好配置。

另一個具體的例子是查詢進行中的查詢優化。資料庫系統優化器的任務是為查詢找到最佳的執行計劃，以降低查詢成本。傳統的優化器通常枚舉許多候選計劃，并使用成本模型來找到成本最小的計劃。優化過程可能是緩慢且不準确的。

在不依賴于不準确的成本模型的情況下，深度強化學習（DRL）方法通過與資料庫互動來改進執行計劃（例如，更改表連接配接順序）。

當查詢發送給agent（即DRL優化器）時，代理通過對基本資訊（如通路的關系和表）進行特征化，生成狀态向量。agent以狀态為輸入，利用神經網絡生成一個動作集的機率分布，動作集可以包含所有可能的作為潛在動作的join操作。

每個操作表示一對表上的部分連接配接計劃，一旦執行操作，狀态将被更新。在采取可能的行動之後，生成一個完整的計劃，然後由DBMS執行該計劃以獲得獎勵。

在這個查詢優化問題中，獎勵可以根據實際延遲計算。在有獎勵信号的訓練過程中，agent可以改進政策，産生更高獎勵的更好的連接配接排序（即延遲更少）。

查詢優化的DRL工作流程

強化學習（RL）專注于學習在環境中做出智能的行動。RL算法在探索和開發的基礎上，通過環境回報來改進自身。在過去的幾十年裡，RL在理論和技術方面都取得了巨大的進步。

值得注意的是，DRL結合了深度學習（DL）技術來處理複雜的非結構化資料，并被設計用于從曆史資料中學習和自我探索，以解決衆所周知的困難和大規模問題（如AlphaGo）。

近年來，來自不同社群的研究人員提出了DRL解決方案，以解決資料處理和分析中的問題。我們将現有的使用DRL的作品從系統和應用兩個角度進行分類。

從系統的角度來看，我們專注于基礎研究課題，從一般的，如排程，到系統特定的，如資料庫的查詢優化。我們還應當強調它是如何制定的馬爾可夫決策過程,并讨論如何更有效地解決DRL問題與傳統方法相比。由于實際系統中的工作負載執行和資料采集時間比較長，是以采用了采樣、仿真等技術來提高DRL訓練效率。

從應用的角度來看，我們将涵蓋資料處理和資料分析中的各種關鍵應用，以提供對DRL的可用性和适應性的全面了解。許多領域通過采用DRL進行轉換，這有助于學習有關應用的領域特定知識。

在這次綜述中，我們的目标是提供一個廣泛和系統的回顧，在解決資料系統、資料處理和分析問題中使用DRL的最新進展。

RL技術分類

參考資料：

[1] J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, A. Hung Byers et al., Big data: The next frontier for innovation, competition, and productivity. McKinsey Global Institute, 2011.

[2] X. Meng, J. Bradley, B. Yavuz, E. Sparks, S. Venkataraman, D. Liu, J. Freeman, D. Tsai, M. Amde, S. Owen et al., “Mllib: Machine learning in apache spark,” The Journal of Machine Learning Research, vol. 17, no. 1, pp. 1235–1241, 2016.

[3] W.Wang, J. Gao, M. Zhang, S.Wang, G. Chen, T. K. Ng, B. C. Ooi, J. Shao, and M. Reyad, “Rafiki: machine learning as an analytics service system,” VLDB, vol. 12, no. 2, pp. 128–140, 2018.

強化學習如何做資料分析？新加坡國立等TKDE 2022綜述論文

繼續閱讀

紮心了，機器都比我會學

斯隆獎得主方飛：當深度學習和博弈論相結合，能解決哪些社會問題？

我用ChatGPT寫神經網絡：一字不改，結果竟然很好用

鍊上資料分析：深陷泥潭的 Solana，能否“絕處逢生”？

谷歌搜尋：被ChatGPT颠覆的可能性

ChatGPT爆火背後，學會性别歧視的AI

馬斯克同題推文浏覽量低于拜登，連夜要求員工改算法優先推薦自己

小冰CEO李笛：小冰鍊不是中國版ChatGPT

算法＝價值觀！平台不能一直躺在“避風港”中

在便利蜂，人被機器支配

ChatGPT能自己跑代碼了：提需求直接輸入運作結果，網友直呼“魔法”

matlab maps 指北針和比例尺,第5步：制作地圖（指北針、比例尺、圖例）.doc

剛剛！馬斯克開源Twitter算法，GitHub Star數已破萬

馬斯克兌現承諾，推特開源推薦算法：聽使用者的建議，改進算法

殺入GPT戰場，“兩翼齊飛”的360勝算有幾分？｜内測體驗

七部門聯手！首個生成式AI監管檔案将實施，釋放了哪些信号？