微軟亞研20周年，微軟ResNet等AI技術突破盤點

2016 年，《财富》雜志在文章《Why deep learning is suddenly changing your life》曾如此描述這波 AI 浪潮的興起，「最初的革命火花開始于 2009 年。那年夏天微軟的鄧力邀請神經網絡先驅、多倫多大學的 Geoffrey Hinton 來參觀并合作... 鄧力的團隊用神經網絡做了大量語言識别方面的實驗。」

作為世界頂尖的研究中心之一，成立于 1991 年的微軟研究院經過數十年的積累，成為了這波深度學習浪潮中的主力軍。而微軟亞研作為微軟在美國本土以外最大的基礎研究機構，作出了 ResNet、r-Net 這樣的頂級研究成果，也培養了何恺明、孫劍這樣一批優秀的後繼力量。

11 月 5 日，是微軟亞洲研究院（MSRA) 成立 20 周年。在「21 世紀的計算」學術研讨會以及後續的 20 周年慶典上，微軟回顧了他們為全球 AI 技術發展貢獻的重要研究成果，特别是在 AI 領域的突破性研究。機器之心對這些突破性研究進行了盤點，很榮幸的是我們從 2015 年初就已經開始關注、報道微軟在 AI 領域的技術突破。

圖：來自「21 世紀的計算」學術研讨會上洪小文演講

計算機視覺 ResNet、Faster R-CNN

計算機視覺是人工智能核心領域之一，過去數年因深度學習得以快速發展。在 2015 年微軟研究院的研究者們提出 ResNet 之前，卷積網絡的深度有非常大的限制，最深的網絡受限于梯度傳播也隻有十幾二十層。而微軟的研究者創新地提出了殘差連接配接，進而使得訓練數百甚至數千層成為可能，并在這種情況下能展現出大大超越以往的性能。

在 ImageNet 比賽分類任務中，ResNet 獲得第一名，ResNet 的作者何恺明也是以摘得 CVPR2016 最佳論文獎，其他作者包括張祥雨（Xiangyu Zhang）、任少卿（Shaoqing Ren）和孫劍（Jiangxi Sun）

現在，ResNet 已經成為了計算機視覺領域的一大經典技術，很多 CV 任務都将預訓練的 ResNet 作為基礎網絡，可以說大多數 CV 模型都離不開 ResNet。除了 ResNet，在計算機視覺領域微軟還提出了用于實時物體檢測的 Faster R-CNN，用于立體視覺的置信度傳播算法，用于圖像分割的 Lazy Snapping 算法以及暗通道去霧法等。

參見：

「超人」語音識别

除了計算機視覺，語音識别也因深度學習取得極大的突破。2016 年，微軟在語音識别次錯率上不斷重新整理記錄：2016 年 9 月份，微軟的單個系統在産業标準 Switchboard 語音識别任務的基準評估取得了 6.3% 的詞錯率（WER）；2016 年 10 月份，微軟語音識别系統實作了和專業速錄員相當甚至更低的詞錯率（WER），達到了 5.9%；2017 年 8 月，微軟語音識别研究團隊在黃學東的帶領下，将去年 10 月重新整理的 5.9% 詞錯率降至 5.1%。

在 2017 年 9 月份，機器之心對黃學東的專訪中他曾表示，「在技術研究的「最後一英裡」，每 0.1 個百分點的進步都異常艱難。」但他也表示，「真正的語音識别有口音、噪音、遠場、語速等等問題，在這些方面，人的魯棒性還是不同一般的。是以我們在這個任務上達到了『超人』的水準隻是一個小小的裡程碑。」在這個領域，還有大量的工作需要完成。

機器閱讀了解打破人類記錄

2018 年 1 月初，AI 社群為微軟、阿裡所引爆。幾乎在同一時間，微軟和阿裡巴巴的機器閱讀了解系統在最新的 SQuAD 資料集測評結果中取得了并列第一的成績，曆史上第一次打破了人類記錄。

在此比賽中，微軟使用的是 MSRA 于 2017 年釋出的論文《R-NET: MACHINE READING COMPREHENSION WITH SELF-MATCHING NETWORKS》中提出的 R-Net。R-NET 模型在 SQuAD 文本了解挑戰賽中，EM 值（表示預測答案和真實答案完全比對）達到 82.650 分。此後，微軟亞洲研究院更新後的 NL-NET 模型在 EM 值和 F1 值（表示預測答案和真實答案近似比對）兩個次元上，分别獲得了 85.954、91.677 的高分。

雖然此成績經過媒體的誇大傳播引起了 NLP 社群的反感，但我們确實在機器閱讀了解領域不斷進步。除此之外，過去幾年，微軟研究院一直在「讓機器了解人類上」壓以重注，如 2016 年微軟釋出資料集 MS MARCO，有意打造閱讀了解領域的「ImageNet」；2017 年微軟收購 NLP 明星公司 Maluuba。

機器翻譯媲美人類

2016 年，自谷歌宣布谷歌翻譯整合神經網絡實作颠覆性突破之後，機器翻譯成為了深度學習社群的熱門研究領域。2018 年 3 月，微軟研究團隊表示，微軟和微軟亞研創造了首個在品質與準确率上比對人類水準的中英新聞機器翻譯系統。

在接受機器之心專訪時，微軟語音、自然語言與機器翻譯的技術負責人黃學東表示，他們采用專業人類标注與盲測評分代替 BLEU 分值而具有更高的準确性，且新系統相比于現存的機器翻譯系統有非常大的提升。是以，根據人類盲測評分，微軟機器翻譯取得了至少和專業翻譯人員相媲美的效果。

微軟亞研20周年，微軟ResNet等AI技術突破盤點

計算機視覺 ResNet、Faster R-CNN

「超人」語音識别

機器閱讀了解打破人類記錄

機器翻譯媲美人類

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希