吳恩達 NIPS 2016：利用深度學習開發人工智能應用的基本要點（含唯一的中文版PPT）

雷鋒網按：為了友善讀者學習和收藏，雷鋒網(公衆号：雷鋒網)特地把吳恩達教授在nips 2016大會中的ppt做為中文版，由三川和亞峰聯合編譯并制作。

今日，在第 30 屆神經資訊處理系統大會（nips 2016）中，百度首席科學家吳恩達教授發表演講：《利用深度學習開發人工智能應用的基本要點（nuts and bolts of building applications using deep learning）》。

此外，吳恩達教授曾在今年 9 月 24/25 日也發表過同為《nuts and bolts of applying deep learning》的演講(1小時20分鐘)，以下是 youtube 連結：

https://www.youtube.com/watch?v=f1ka6a13s9i

吳恩達 NIPS 2016：利用深度學習開發人工智能應用的基本要點（含唯一的中文版PPT）

吳恩達在開場提到：深度學習為何這麼火？

答案很簡單：

第一是因為規模正在推動深度學習的進步。

從傳統算法到小型神經網絡、中型神經網絡最後演化為現在的大型神經網絡。

第二：端到端學習的崛起

從下圖中的上半部分可以看出，傳統端到端學習是把實體資料表達成數字資料，輸出數字值作為結果。如退昂識别最後以整數标簽輸出為結果。

而現在的端對端學習更為直接純粹，如機器翻譯：輸入英國文本，輸出法國文本；語音識别：輸入音頻，輸出文本。但端對端學習需要大量的訓練集。

吳恩達先講述了常見的深度學習模型，然後再着分析端到端學習的具體應用。

二、主要的深度學習模型

普通神經網絡

順序模型 (1d 順序) rnn, gru, lstm, ctc, 注意力模型

圖像模型 2d 和 3d 卷積神經網絡

先進/未來技術：無監督學習（稀疏編碼 ica, sfa,）增強學習

傳統模型：語音→運算特征—（人工設計的 mfcc 特征）→音素識别器—（音素識别）→最終識别器→輸出。

端到端學習：音頻→學習算法→轉錄結果；在給定了足夠的有标注資料（音頻、轉錄結果）時，這種方法的效果會很好。

傳統模型：攝像頭圖像→檢測汽車+檢測行人→路徑規劃→方向控制。

端到端學習：攝像頭圖像→學習算法→方向控制。

自動駕駛對安全有極高要求，是以需要極高的精确度。采取純粹的端到端學習十分有挑戰性。隻在有足夠（x，y）的資料，來學習足夠複雜的函數的情況下，端到端學習才有效果。

你經常有很多改進 ai 系統的主意，應該怎麼做？好的戰略能避免浪費數月精力做無用的事。

以語音識别為例，可以把原語音資料分割成：

60% 訓練集（訓練模型）

20% 開發集（開發過程中用于調參、驗證等步驟的資料集）

20% 測試集（測試時所使用的資料集）

這裡面普及幾個概念：

人類水準的誤差與訓練集的誤差之間的差距是可避免的偏差，這部分誤差可以通過進一步的學習/模型調整優化來避免。

訓練集和開發集之間的差距稱為方差，其因為跑了不同的資料進而導緻誤差率變化。

上述兩種偏差合在一起，就是偏差-方差權衡（bias-variance trade-off）。

假設你想要為一個汽車後視鏡産品，開發語音識别系統。你有 5000 小時的普通語音資料，還有 10 小時的車内資料。你怎麼對資料分組呢？這是一個不恰當的方式：

更好的方式：讓開發和測試集來自同樣的配置設定機制。

當機器學習在處理某項任務上比人類表現還差時，你經常會看到最快的進步。

機器學習超越人後，很快就會靠近貝葉斯最優誤差線。

可以依靠人類的直覺：（i）人類提供加标簽的資料。（ii）進行錯誤分析，來了解人是怎麼對樣本正确處理的（iii）預估偏差/方差。比如，一項圖像識别任務的訓練誤差 8%，開發誤差 10%，你應該怎麼處理？

新的監督dl算法的存在，意味着對使用 dl開發應用的團隊合作，我們在重新思考工作流程。産品經理能幫助 ai 團隊，優先進行最出成果的機器學習任務。比如，對于汽車噪音、咖啡館的談話聲、低帶寬音頻、帶口音的語音，你是應該提高語音效果呢，還是改善延遲，縮小二進制，還是做别的什麼？

今天的人工智能能做什麼呢？這裡給産品經理一些啟發：

如果一個普通人完成一項智力任務隻需不到一秒的思考時間，我們很可能現在，或者不遠的将來，用 ai 把該任務自動化。

對于我們觀察到的具體的、重複性的事件（比如使用者點選廣告；快遞花費的時間），我們可以合理地預測下一個事件的結果（使用者是否點選下一個此類廣告）。

本文作者：亞峰

吳恩達 NIPS 2016：利用深度學習開發人工智能應用的基本要點（含唯一的中文版PPT）

繼續閱讀

開源低帶寬語音編解碼器

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希