賈揚清：如何看待人工智能方向的重要問題？

人工智能算法

目前，AI（人工智能）已經成為科技産業大趨勢。各個行業都與“AI”密切相關。與AI相關的領域如下圖所示，其中包括與AI強相關的領域和AI間接賦能的的領域。那麼究竟什麼是人工智能、人工智能的應用以及人工智能系統将在之後一一介紹。

人工智能發展的80年，實作了從圖靈測試到全民換臉。機器是通過人工智能像人一樣來回答問題、創作或者計算分析的，在一些領域，計算機已經能夠做的和人一樣優秀。例如在2019年網絡上的“全民換臉”都是基于人工智能中的深度學習及神經網絡等技術的廣泛應用的結果。

目前，人們生活中以及工業生産中都有很多“AI”技術的應用，用來代替人類的工作。例如比較流行的“ELON MUSK’S”能夠模拟人的大腦工作。但随着人工智能的快速發展，也出現了一些對人工智能的反思和一些“假冒AI”。

人工智能AI在發展過程中面臨了一系列的事件，其中有比較嚴重的假冒僞劣AI騙取2億融資的事件。那麼人工智能究竟是什麼以及它的用途主要有哪些是接下來要重點讨論的問題。

在學術界，人工智能的定義也有所差異。人工智能是接受輸入的資訊，通過資訊的整理判斷，像人一樣對輸入的資訊做出一系列理性行為和決策。它的主要特征就是“理性的行動”。

在這個“感覺”到“決策”的回報中，如何感覺外部世界資訊成為人工智能能否去行動的關鍵。既然是要模拟人的大腦，那人去感覺的過程其實是一個認識和學習的過程。那也就是人工智能中“深度學習”所要解決的問題。

深度學習

隻有将外部資訊（視訊，文字，密碼等）轉換成機器語言才能被人工智能所接受并作出反應。這個問題的思考早在人工智能初期就被科學家所考慮和研究。

在這之後人們開始讨論如何通過視覺感覺來完成資訊的輸入，并做了很多研究。2012年，加拿大多倫多大學的ImageNet競賽冠軍獲得者Hinton和他的學生Alex Krizhevsky設計的。也是在那年之後，更多的更深的神經網絡被提出，比如優秀的vgg,GoogLeNet。這對于傳統的機器學習分類算法而言，已經相當的出色。

AlexNet開始的深度學習曆程

通俗的說，就是在大量的物體中，準确地識别我們指令中需要的物體。這個模型的應用使得圖像識别領域取得了突飛猛進的發展，并被廣泛應用。

神經網絡這種分層學習的模式跟我們人類大腦一樣，随着不斷地學習，神經網絡也變得越來越複雜。假設要在百萬級的圖檔資訊中找已标注的資訊“貓”，然後把編輯好的視覺網絡的模型在一個非常大的資料集中訓練。通過模型的疊代實作更複雜的訓練。

目前，比較普遍使用的“RestNet模型”，深度在一百多層，并加入了一些最新的科研成果,例如最下面圖中如拱橋部分的快速連結，可以有效快速的訓練如此深的網絡。最終解決視覺領域的“感覺”問題。

阿裡雲：智慧航空機坪管理

通過人工智能來識别機種，登機門，機場車輛，并與實際地圖結合起來，以及了解飛機在飛行過程中的運作軌迹等等，這些資訊都可以作為輸入的資訊來通過人工智能管理，使得機場運轉更加快捷和高效。

上面所說的，深度學習是感覺的一個重要形式和方法。深度學習算法主要組成：

資料标注
算法模型開發
高性能分布式訓練
模型調優
模型部署

人工智能在“感覺”之後，另一個需要做的就是“決策”。深度學習是一個黑箱操作，能夠很好地學習和感覺外部資訊，但是不能給出回報及如何解釋自己感覺的問題究竟是什麼原因。那就需要“決策”來分析和回報。

傳統機器學習的榜樣是決策樹算法和邏輯回歸。例如，銀行發放貸款的過程就是一個權衡各方面因素之後的一個決策過程。可以通過決策樹的形式，進行“Yes”或“No”的判斷來最終決定是否發放貸款。而邏輯回歸，指的是兩類資料之間的互相關系，通過數學的方式精确求解。

其實，深度學習和機器學習是一種互補的狀态。深度學習非常好地解決了感覺的問題（計算機視覺，語音等等），可以用神經網絡的架構來解決非常多的“感覺”的問題，但它需要解釋這些感覺的東西。而傳統機器學習則沒有這麼人性化的感覺功能，但它的模型相對較小，我們可以直接解釋（例如金融，風控等）。

人工智能很早便被應用在廣告領域中。早在宋朝就有廣告，用來幫助來招攬生意。

目前比較典型的廣告場景是淘寶廣告。廠家首先通過消費者個人的浏覽資訊了解使用者的喜好是什麼，然後再通過智能推薦系統來推送消費者所搜尋的相關産品。這樣的一些智能算法的廣泛應用使得使用者的資訊浏覽更加高效和精細化。

無論是感覺還是決策，都和算法相關。

感覺。與深度學習算法相關，涉及到資料标注、算法模型開發、高性能分布式訓練、性能調優、模型部署等。
決策。傳統機器學習算法以及深度學習算法相關，涉及到行業行為資料采集、結構化/非結構化資料處理、資料和算法的組合模組化、算法開發訓練和調優、模型部署和實時訓練回報等。

人工智能系統

在算法發展迅猛的今天，相應的基礎設施支援也顯得尤為重要，這就需要人工智能系統的支援。建構人工智能或者機器學習系統的兩個不可或缺的因素是算法和算力，算法創新的背後是算力的突破。

截止到2019年，人工智能對于算力的需求如下圖所示。相較于AlphaGo Zero，AlexNet對于算力的需求已經有了30萬倍的增長。這種情況下解決算法疊代和算法落地的問題，給系統提出了更高的要求。

AlexNet在2013年的時候所謂的系統如下圖所示，簡單的一台機器加GPU，當時的訓練成本大約是七天每天500瓦，也就是業務模型的疊代周期是一周左右。

在業務需要飛速發展的今天，比如廣告推薦，一周的模型疊代周期是遠不能滿足需求的。是以，目前越來越多的人關注如何通過大規模叢集或者晶片的方式來為人工智能系統提供更好的算力。MIT在2014年的時候做了一個對比，一個人在一分鐘内大概可以處理77張圖檔，單個GPU相同的時間内可以處理230張，盡管單個GPU的處理速度與人的處理速度相差不大，但是其可以通過GPU叢集的方式實作更大規模更快速的計算，比如下圖中512個GPU的叢集，可以在一分鐘内處理60000張圖檔。

人工智能系統在設計的過程中需要關注怎麼樣做高性能存儲，怎麼樣實作機器之間的快速通信，怎麼樣保持分布式叢集的穩定性。今天，阿裡雲内部有一個Eflops平台，可以實作三鐘内1018次的計算，耗電128千瓦每分鐘。這是在2015年以前是無法想象的能力，這一能力的實作主要歸功于大規模叢集，還有系統底層晶片的伸縮性。

目前國内很多家企業緻力于更高性能晶片的研發，阿裡也不例外。2019年，阿裡釋出了全球最高性能的AI推理晶片含光800，并在城市大腦和航空大腦的實際測試場景中進行了測試，峰值性能可以達到将近80萬張圖檔每秒，這與上一代的晶片相比，實作了40倍左右的性能提升。

系統複雜度上升後，會帶來一系列的問題，包括軟體複雜度、硬體複雜度、資源管理複雜度、排程效率複雜度、全系統優化複雜度，這在系統發展過程中是比較共性的挑戰。

需要強調的是，AI叢集不等于通用叢集。AI在做訓練的時候需要子任務周期性同步，不同機器之間需要有高性能的通信，很多時基于GPU或NPU專用部件。不同的計算模型，不同的互動模式目前對于AI訓練有比較大的挑戰。

阿裡的各種業務場景都可以用到AI，是以可以通過AI實踐打磨平台設計，比如手淘-拍立淘的百萬分類模型、淘寶網的語音+NLP和阿裡媽媽廣告推薦等。

打磨後的飛天AI平台分為三層，從最底層的基礎硬體，到中間的訓練和推理架構，再到開發平台。對于AI平台來講很重要的平台有以下三個：

輕量級AI開發平台：幫助算法和資料科學家實作一鍵式開發、調試部署
AI和大資料協同開發平台：幫助更加迅速地開發面向大資料型業務的系統
AI推理服務平台：解決推理需要的計算資源問題、模型訓練、部署和效果監測

以上三個平台支撐了算法API的輸出和垂直領域平台以及大腦的解決方案。

深度學習領域，斯坦福大學推出了一個名為DAWNBench的測試基準，相比于之前的最有結果，阿裡雲機器學習實作了性能百分之十左右的優化。

AI技術能力在今天對于提升資産使用率、解決不同場景需求具有重要意義。綜合的AI技術能力主要涉及以下幾方面：

基礎硬體：用于提供通用的算力以及AI所需要的計算能力，通過IaaS提供雲的能力
AI雲服務：最基礎的PaaS層，通過容易拉起的軟硬體環境向絕大多數使用者提供适合AI的算力

高性能計算：提供核心AI計算引擎加速
AI系統架構：提供AI計算模式的完整抽象以及跨體系結構的模組化疊代和部署
AI托管平台：提升算法研發共享部署和輸出的效率，以及具有使用者粘性的開發平台

智能計算和資料計算

AI是智能計算，大資料領域是資料計算，二者是相輔相成不可或缺的關系。

資料支撐AI

剛才提到的算法和算力背後需要大量資料的支撐，資料是展現算法和算力價值的重要部分。

下圖分别展示了2005年和2013年教皇登基的場景。目前手機網際網路的發展導緻了資料的指數型增長，這也可以給深度學習帶來性能的提升。

1998年的一個小系統MNIST的訓練資料僅有 10MB，2009年的ImageNet有200G，2017年的WebVision有3TB，而典型的産品視覺系統有1PB。海量的資料幫助阿裡幾乎線性地提升其性能。

舉一個的生活中的場景來說明資料量對于性能的提升作用。在X光片醫學識别領域，有研究顯示，醫生在X光片上識别病症的效果和其所看過的X光片數量成正比。看的越多，正确率越高。同理，目前的醫療引擎系統可以通過大規模的計算機系統訓練更多的資料，實作更加精準的醫療識别。

AI驅動大資料走向智能化

下圖展示了Forum對大資料領域做的趨勢總結，目前大資料領域需要提取更多的資訊，要實作實時的計算，實作AI平台和線上預測等，都展現了大資料走向智能化的趨勢。

多個資料源不同類型的資料，如結構化、半結構化和非結構化，落到數倉後如何發揮其價值，答案是智能計算。以廣告推薦場景為例，資料源是使用者在淘寶上的點選、浏覽和購買行為資料，通過資料內建離線或實時同步、離線或實時ETL的方式将其落到數倉中，再通過數倉或資料湖的解決方案生成各種資料模型對資料進行訓練，最後通過資料服務的方式對訓練結果進行輸出。可以發現，該過程中對于資料的了解和使用方式開始變得智能化。

幾年前的HTAP，包括OLTP和OLAP兩部分，OLAP可以進一步分解為大資料的分析，離線、實時分析，基于資料量的不同選擇不同的引擎。而目前資料服務也變得越來越重要，在一些智能客服場景中，需要依賴資料提煉模型，來做實時人工智能推理服務和應用，是以如何把analytics和service結合也很關鍵。這也是現在考慮在做的HSAP，通過人工智能驅動離線、實時數倉資料價值提取，通過資料服務推送給使用者。

阿裡在自己本身的應用中沉澱出了AI加持的大資料方法論和解決方案，在雙十一大促中的離線計算（批處理）、實時計算（流計算）、互動式分析和圖計算等場景，和飛天AI平台相結合，為使用者提供了AI加持的完整的新一代飛天大資料産品。

大資料和AI一樣，也非常注重性能。2019年阿裡雲大資料平台MaxCompute和EMR分别在TPC上的計算性能和成本效益優勢明顯。具體測試結果如下圖所示。

阿裡的阿裡小蜜目前為使用者提供了智能化的的語音客服互動方式，其應用了深度學習和智能感覺的AI技術，同時需要和背後的大資料業務系統緊密聯系，如物流、使用者資料等，才能實作最後的智能化效果。

那麼作為一個企業應該如何擁抱AI呢。簡單來講，人工智能需要落地，應該從應用需求出發，逐漸追求技術創新，就像愛迪生發明電燈一樣。通過雲提供低成本、到高性能和高穩定性的基礎設施，但關鍵應該明确需求是什麼。

前面幾年，AI一直在做算法的創新，做Demo，但這是遠遠不夠的。

AI算法隻是系統中的一環，怎樣收集資料，擷取有用特征，怎樣進行驗證，怎樣進行過程管理、資源管理等等，都是企業在擁抱AI需要考慮的問題。

AI不是萬能的，但是忽略AI是萬萬不能的。當企業擁抱AI的時候，最重要的還是從業務出發。随着資料量越來越大，算法越來越多，核心是需要建立懂業務的資料工程師、算法工程師的隊伍，這是目前智能化企業緻勝的關鍵。而前面提到的算法、算力和資料，都可以利用目前雲上提供的服務和解決方案來實作，其可以幫助企業更快速的實作AI的落地。

賈揚清：如何看待人工智能方向的重要問題？

人工智能算法

深度學習

AlexNet開始的深度學習曆程

阿裡雲：智慧航空機坪管理

人工智能系統

智能計算和資料計算

資料支撐AI

AI驅動大資料走向智能化

繼續閱讀

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

【python】【資料處理】畫多元資料分布圖

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希