天天看點

參加阿裡雲開發者大會對于大資料與AI 的未來思考低代碼的未來開發與算法的融合性大資料和AI資料處理的未來發展

應阿裡雲MVP團隊邀請有幸通過線上管道參加本次開發者大會,應個人發展方向的關系對于大資料和AI部分的内容介紹特别感興趣,以下簡單介紹下個人對這兩方面未來的思考。

低代碼的未來

低代碼是目前即熱門又有些争議的話題,典型的争論的點就是對于算法開發的替代性究竟會到哪個程度,是否随着低代碼的推進,算法開發會逐漸退出曆史舞台。由于個人同時在阿裡雲PAI平台上進行過實驗,平時主要還是采用Python和R語言研究自己的算法,是以對于這個問題覺得不要過于極端的偏向任何一種看法較好,寫代碼進行算法開發和低代碼是完全可以融合的,不但可以面向不同的對象,哪怕同一個算法工程師或者資料科學家也可以同時采用兩種方式,并不存在哪個較為有優勢的問題。

算法的設計除了技術更是一門藝術,成品是算法模型和通過模型預測出的結果。我們的世界不管是商業還是工業,場景衆多,資料種類也衆多,面對這些千變萬化的情況,絕對不敢說算法都已經開發完畢了或者說不會再産生新的算法了。這樣低代碼在應對這些複雜場景的時候因為它産生的原因就是高度封裝是以缺乏靈活性是個不可避免的問題,核心就是低代碼模式下封裝的顆粒度,顆粒度太粗則雖然易于使用但是靈活性不佳的特點愈發明顯,顆粒度太細則子產品的數量太多最終又和寫代碼的方式越來越接近,最後使用者覺得還不如自己寫代碼比較友善。

個人覺得,對于低代碼的定位需要清楚,它的優勢就是高度封裝,是以面向的是業務人員而不是開發人員或研究人員。當算法開發完畢已經能夠被廣泛的用于生産場景的時候,低代碼其實優勢就很明顯,能夠作為業務人員和開發人員之間的橋梁,也能讓業務人員更多的參與到算法的設計和改進過程中來。特别是在工業網際網路中,很多技術專家對于自己所從事的本專業極其精通,但是具體到大資料和AI怎麼落地的時候,寫代碼成為了一道壁壘,而開發人員雖然有很熟練的開發技術,但是又無法說各類場景的原理和生産過程都十分了解。這使雙方因為自身的短闆無法很好的将個人擅長的東西糅合到一起進而讓大資料算法和AI産生疊加的生産力,低代碼的推廣使這個壁壘有了打破的工具,業務人員通過子產品形式搭建自己需要的算法邏輯,運作之後可以直接看到自己所設計的算法的結果,如果是因為子產品的問題而造成的結果不理想,則開發和研究人員因為有了業務層面的第一手回報而大幅度的提高了改進的效率和速度。最終,業務人員對于生産過程的寶貴技術經驗真正的通過低代碼工具能夠沉澱下來,開發人員因為有了業務上的回報避免了很多無意義的勞動。從這個角度上分析,低代碼最大的意義不是取代開發工作和研究工作,而是一個讓不同專業能夠互相溝通的手段和橋梁,具有非常大的發展價值,甚至推進了大資料和AI在各領域落地的速度。

開發與算法的融合性

仔細學習了這次開發者大會上各位老師的演講和資料,大部分集中于資料架構的改良和新的基于雲上服務的形成。個人了解就是開發對于算法的支撐力越來越強,雖然嚴格從專業上看開發和算法是差別較明顯的兩個領域,但是從目标都是對于資料進行處理這個角度兩者又必須進行融合才能讓資料的價值展現出來。

一般在回答别人提問什麼是大資料的時候其實這個問題因為範圍過大,很難真正完全講透,大部分情況下都是用大資料的4V特征來介紹,符合4V特征的就是大資料。那開發和算法就是分别從不同的角度來展現和解決4V特征,首先是資料的多樣性,粗略的進行分類一般就是結構化、半結構化和非結構化,開發通過形成各個工具和面向不同種類資料的資料庫確定這些異構資料能夠被順利接入,算法通過設計分析算法、挖掘算法從這些接入的資料中提取和挖掘價值,使資料成為資訊,并且盡最大的努力讓同樣的一份資料能夠産生更多的資訊;其次是資料的體量大,這個方面開發的作用更大一些,事實上雲計算的産生就是因為需要有海量資料的處理技術,計算力能夠保證後才又推動了物聯網的發展。随着機器學習和深度學習的大規模落地,巨大的計算量在缺少底層支援的情況下各類算法都無法快速的工作,這對于搜尋、個性推薦、實時控制這些對于時間有嚴格要求的場景來說直接關系到存在的基礎。充分展現了開發與算法發展有差別但又必須融合的思想,開發的意義本質上在于提高資料的處理能力和安全性,是對算法的底層支撐,而算法有了底層強大的基礎後才有可能進一步推進算法的研究、開發和落地。畢竟機器學習和人工智能的很多算法和思想其實并不是這兩年才有,過去雖然有這個想法甚至理論,但是計算力基礎沒有造成了很長一段時間研究工作陷于停頓,隻能有限的範圍内進行使用而無法大規模落地。

大資料和AI資料處理的未來發展

大資料和AI資料處理的未來上,其實很關注于對于資料清洗能力提升的方面。目前很多場景的問題不是缺乏資料,而是資料過多并且過雜,這從4V特征講就是價值高但是價值密度低。從事過算法設計工作的都有直覺了解,資料清洗的工作量占整個算法設計和開發工作量的70%并且隻會更多而不會少,是個工作量很大,很繁瑣但是又不得不做的工作。這個方面如果能不斷的有更自動化和實用的工具出現自然是很受各方面歡迎的。對于AI來說,因為資料基本是非結構化的語音、圖像、視訊,是以資料清洗工具能力的提升直接關系到資料預處理和特征工程,進而影響整個算法的結果,這些問題随着資料量的變大隻會越來越突出。中台一直各方都認為很強大,它的本質其實就是增加資料的處理能力,也是很大程度的關注于資料的清洗能力和預處理能力,這比計算力更難解決,而一旦解決,資料真正的成為資料資産的效率也就更高。這次開發者大會上,看到了平台不斷的在增加這方面的處理能力也是非常的開心,期待這方面今後能有更多的發展,在有了資料、有了計算力後,不因清洗能力的落後而遺漏了可能會挖掘出的價值。