不知道這些AI知識，可能你就out了！

最近，我有幸與人工智能領域相關企業的決策者進行交談。其中幾名高管已經被投資者詢問了他們的機器學習方向的戰略，以及他們現有機器學習項目的情況。那麼為何機器學習會突然成為公司董事會讨論的話題呢？

大家都知道，從一開始計算機就被設計成幫助人類解決各種問題。傳統的軟體工程就是針對某個問題進行程式設計。換句話說，就是我們告訴計算機一個能解決某個問題的算法，并讓它來執行。現實世界中很多問題可以被描述成某個算法。

比如，國小算數中，我們用加法來解決計數問題。一旦現實問題被抽象成了算法，計算機能比人類更快速，更高效地執行它們。

不過，人們也漸漸的發現了這種過程的局限性。對于類似圖像識别這類問題（例如，判斷照片中是否是一隻貓），在人類看來是如此的輕而易舉，然而想把這類問題描述成一種高效的算法卻并不容易。由于對象的特征有可能被隐藏起來，我們不能簡單的用“有四條腿”或“有兩隻眼睛”來對判斷是否是貓的照片。而且，照片中還可能隻顯示了貓的一部分，問題就演變為識别貓的某個部位，進而使得問題變得愈加複雜。

以上對于傳統程式設計來說的難題卻恰恰是機器學習的強項。我們并不需要告訴計算機如何解決這個問題，而是使用樣本來訓練計算機，使其學習算法本身。我們用大量标記為貓的照片來訓練計算機（有監督學習）。通過這種方式，算法得到了演進，最終能夠識别出各種貓的圖檔。

與傳統軟體工程不同，機器學習中的計算機考察的是神經網絡中的邊際權重。這個原理與人類大腦中的學習過程非常相似，依靠神經元的互相通訊來完成。而人類很難對這個具有邊際權重的網絡做出全面的解釋。在這種情況下，深度學習應運而生，并被證明了它的成功。深度學習是多種機器學習方法中的一種，目前也成為了人工智能中的一門學科，是計算機科學研究的主要分支之一。早在2012年，一支Google研究小組成功地訓練了一個由16,000台計算機組成的網絡，這個網絡能通過處理千萬記的視訊圖像，來識别出貓或任何指定的事物對象。而其中他們就采用了深度學習技術。

許多現實世界中的問題更需要通過機器學習的方式來解決。這是由于許多問題常常需要我們發現資料中的某種特征或模式，例如從圖像中識别出某個對象，從語言中提取目标文本，從交易資料中偵測到可能的欺詐行為。

這裡有一個簡單的例子。假設，我們有許多傳感器在發送并接受資料。為了確定它們的正常工作，我們需要對它們進行實時的監測，一旦其中的某台機器發生故障，我們就要進行及時的處理。通過監測，我們可以從導緻故障的資料流中發現某些固定的模式。一旦了解了這些模式，就可以在日常運作期間偵測這種模式。一旦這種模式出現，就能提前預測到可能發生的故障，進而提高運維的效率。

雖然機器學習的原理并不新鮮，但它越來越受到人們的追捧。這有三個主要原因：首先，得益于大資料技術，我們有了充分的樣本資料可以被用來訓練計算機。其次，我們現在擁有了前所未有的計算能力，特别是在雲計算的基礎下。第三，一系列開放源碼的項目使得幾乎每個人都可以利用這些機器學習的算法為自己的項目進行研發。

機器學習并不是傳統軟體工程的替代品，而是對其做了很好的補充。機器學習提供了許多有用的工具，使我們能夠解決更多傳統軟體工程解決不了的問題。機器學習帶來了許多新的機會，同時現有的系統也越來越多地采用了機器學習技術。

其中，遵循模式的重複操作就是一個典型的例子。想象一下，一個應用系統有着多達一百多個功能，但其實使用者每天一般隻會使用其中的幾個功能。通過觀察使用者操作步驟，計算機可以學習并預測使用者的下一步操作，進而提高效率。另一個例子就是配置設定和轉換資料（例如，用于填充資料倉庫的ETL作業）,計算機在這個過程中學習重複的資料和對象，并對其中的步驟進行自動化并提高性能。

在其他領域我們也可以找到這樣的場景：針對不同學生（特别是“大型開放式線上課程”或MOOC課程）定制個性化的學習材料、對疾病的早期診斷、定位正确的線上營銷目标群體、自動識别資料品質問題，或是線上交友網站的自動比對。

由于其出色的功能，Spark（與Hadoop組合）已經成為機器學習主流的大資料架構。 Talend也正在往這個方向發展，而且它更進一步，使用了更高效的模組化作業。在使用模組化以後，就能降低複雜性，同時也使得它的底層技術有了自己的獨立性。由于這些技術在不停的改進中，是以隻有少數這方面的專家才能運用得法。

雖然目前隻有少數專家才需要真正了解機器學習領域的算法細節，但是另一方面，機器學習概念的普及也同樣重要。從大量的樣本中發現某種模式最終拓展了計算機可以解決問題的類别，具體來說是就是自動化的決策過程，這正是計算機學到的東西。它從訓練資料中積累知識，之後利用學到的知識對新資料做出決策。一方面，我們可以直接利用機器學習的訓練結果讓決策過程更智能、更準确。另一方面，我們也可以對其他領域的機器學習的結果進行分析、改進，使其适合自己的業務領域。

總而言之，如今計算機已經不僅能夠遵循明确的指令（比如，算數計算），還可以通過樣本來進行學習（比如，前面提到的圖像識别）。在不同的場景下，這兩種方法都有着本身的特點和優勢。然而，如果我們能換種思路，把這兩種方式結合在一起，那可能在人工智能方面我們又會向着最終目标更進一步。

本文由北郵@愛可可-愛生活老師推薦，阿裡雲雲栖社群組織翻譯。

文章原标題《What Everyone Should Know About Machine Learning》，作者：Gero Presser 是德國QuinScape GmbH 創始人及CEO。譯者：friday012 審閱：阿福，海棠，李烽

不知道這些AI知識，可能你就out了！

繼續閱讀

ubuntu14.04下安裝hbse1.0.1.1

筆試面試題目：滑動視窗(二)

Linxu常用指令技巧彙總

httpd服務的部署、啟動、配置和簡單優化一、部署二、啟動三、配置檔案

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

User Defined Hadoop DataType

資料結構與算法（27）——排序（二）

nginx 安裝錯誤資訊解決

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希