今日頭條馬維英：從結繩記事到超級智能，AI Era保持競争力的5大優勢

隻有到了現場才能深切體會新智元的“ai春節”有多麼火熱，這不僅僅是說700多人的聚會讓會場溫暖到熱，各位技術大牛輪番知識轟炸也讓人的腦筋在高速運轉下真的發起燙來。

一身優雅的襯衫和儒雅的台灣腔，今日頭條馬維英博士的登台瞬間為現場帶來一股清流，腦汁被幹貨壓榨也成為享受。

馬維英博士是今日頭條副總裁兼人工智能實驗室主任。今年2月他離開微軟加入今日頭條的消息在業界引發了不小的震動。各方都在密切關注這位前微軟亞洲研究院常務副院長在新崗位上的新動向。

馬維英博士的研究領域包括機器學習、自然語言處理、多媒體分析和了解、資訊檢索、網際網路搜尋技術、知識圖譜和大規模資料挖掘。在微軟亞洲研究院擔任常務副院長期間，他帶領團隊開發了許多關鍵核心技術，應用在微軟的搜尋引擎、線上廣告等微軟認知服務當中。更早之前，馬維英從1997年到2001年在惠普實驗室工作，從事多媒體自适應傳輸和移動網際網路的分布式多媒體服務系統的研究。

去年10月，今日頭條創始人兼ceo張一鳴表示，今日頭條是目前人工智能在實際應用層面，應用最廣泛的一款科技産品。作為一款個性化資訊推薦引擎産品，今日頭條離不開資料挖掘、神經網絡、自然語言了解、機器學習這些人工智能技術。而頭條成立人工智能實驗室的主要研究方向則是：1. 自然語言了解；2. 計算機視覺；3. 機器學習（算法與系統）和4. 人機互動。可以說，所有這些都與馬維英的研發經曆十分契合。

通過移動端擷取新聞資訊在全球範圍内逐漸成為主流，而個性化推薦則成為各個新聞用戶端的标配。國内新聞資訊市場百家争鳴，内容戰争全面更新，而今日頭條則是其中不能忽視的重磅級玩家。

人工智能與新聞資訊的結合是一個全新且充滿希望和挑戰的領域，人工智能的強勢介入已經改變了資訊的生産和消費，而馬維英的演講則為我們窺見這一曆程的未來提供了重要的線索。在演講中，馬維英博士更多是從資料而非算法的角度去看待人工智能。如今資料越來越多、軟體越來越聰明，這些趨勢都形成了正循環，促成了人工智能産生變革。馬維英說，人工智能實際上并沒有很神秘，由于現在的機器已經能夠直接從資料中學習，隻要定義好輸入和輸出，擁有大量标注的資料，就能得出有意義的表達。

下面是馬維英博士在新智元開源·生态ai技術峰會暨新智元2017創業大賽頒獎盛典上的演講全文。

馬維英：謝謝楊靜，謝謝新智元，今天很高興有機會來這裡和大家分享。我剛剛加入今日頭條這家公司一個多月，今天在這裡希望能跟大家分享我這一個多月的感想，包括在人工智能領域對今日頭條等公司發展的一些想法，以及今日頭條人工智能實驗室想要從事的創新。

連接配接人與資訊：從結繩記事到超級智能

首先，我還是回到今日頭條本身的願景，回到人類社會自古以來的基礎需求，就是連接配接人與資訊。當我還是學生的時候，曆史課老師告訴我，人類最開始嘗試把資訊傳遞給下一代，用了一種技術叫結繩記事，那時候還沒有語言。有大的事件就結一個大的結，小的事件就結一個小的結，我們當年還開過玩笑，說過了一陣子人忘記當年那個結是什麼怎麼辦。

公元前100年蔡倫發明了紙，後來又有了書。書的傳播需要印刷術。公元前1000年，畢昇發明了活字印刷術。這兩件發明都是來自于中國，在很長的一段時間内，整個人類社會還是靠書和紙來傳播資訊。之後，在我讀博士期間，有了數字圖書館項目，美國開始把全國的圖書館數字化，開始出現搜尋、管理、影像分析。在pc網際網路時代，網站成為紙張之外的另一個主要資訊來源，但還是有局限性。在pc網際網路時代，雖然有了搜尋引擎和相對應的廣告引擎，但大部分搜尋還是受限于不能移動，人隻能定點于pc上。紙張有所消亡，但是并不徹底。當我們走路或者外出時，還是習慣于随身攜帶雜志或報紙。

最近10年，移動網際網路與智能手機讓人不再受限于固定的地理位置，這讓紙張進一步消失。尤其在近幾年，這一趨勢尤其明顯，很多傳統媒體、傳統出版社都需要轉型。在pc網際網路時代，搜尋引擎可以借着爬蟲器在web上到處爬蟲，但到了移動網際網路時代，很多資訊都藏在應用裡面，這也讓搜尋引擎發現資訊有了一定的難度。

在這個新的時代裡，機會與挑戰并存。雖然不能利用搜尋引擎，将每個app裡的資訊輕松爬出，但是在這股潮流中湧現出一些新的應用，讓我們能夠重新定義資訊的源頭。例如頭條有頭條号，我們可以與很多資訊的供應商、内容的提供商、媒體一起來解構這個格式。以前我們需要做很多抽取的工作，現在可以更直接拿到結構化的資料。

到了今天，頭條大規模使用人工智能做個性化推薦。因為在移動網際網路上、在手機上人有很多碎片化的時間，讓人産生了學習、娛樂等需求。由于這些需求，産生了有各式各樣的應用場景。突然之間我們發現，在推薦引擎這一塊突然間有了一個榜，将人與資訊相連接配接。搜尋引擎裡所有的排序、分析等技術，都用于進一步的個性化精準推薦，進而變成資訊流。在座的各位不一定了解什麼是資訊流，資訊流是一種新的、更智能的方式，讓人能夠随時随地在需要時得到他所要的資訊。人工智能不但能夠做個性化推薦，可以讓人類在各種不同的地方享受服務。我們的目标就是——用超級無所不在的機器智能幫助人類創作、發現、使用、分發資訊，還有進行社交場景的互動。

再向前發展就會出現超級智能，在這個新的時代，在很多的場景下，人工智能與人可以互相幫助，進而讓彼此變得更聰明。人工智能需要很多标注，在資訊流的場景我們有更多機會拿到更多細顆粒度的标注，幫助我們做自然語言的了解、自然語言的生成，圖像視訊的了解和圖像視訊的生成。人将與人工智能進一步地共同進化，這也是一個非常值得期待的未來。

人工智能的本質是軟體産業革命

在過去5年，人工智能快速發展。之前，人工智能雖然有機器學習，但往往受限于傳統思維。20年前，有一些傳統ai實際上并不能有效使用大資料。前不久我參加2016 nips大會，發現nips吸引了全世界最聰明的6000多位研究人員，每個人都帶來了新想法、新視角，不再受限過去20年的經驗和成就，而是更大膽地開始創新。

今天人工智能的本質其實是軟體産業的革命。很多人知道“software is eating the world”——軟體正在改變全世界，但是軟體産業本身都已經在被人工智能的發展颠覆。越來越多的軟體不再依靠軟體工程師的邏輯和認知一行一行被寫出來。這些軟體已經是大的模型，裡面有上千億的參數，有各式各樣的大資料，訓練各種各樣的模型，包含統計模型、符号、邏輯、知識表達的模型。

今天，視訊、圖像、文字都已經被數字化，而數字化到了一定階段之後要進一步語義化，比如圖像了解。數字原始表達空間計算機很難做語義了解，我們需要深度學習的模型來學習非線性的轉化。機器跟人的思維方式不一樣，機器算得快，任何問題隻要能表達，加減乘除就能搞定，機器都會做得比較好。

我們到了這樣一個時代，我們有了更好的技術，能夠學習這樣一個表達方式，而且直接從資料本身學習。以前我們還需要做人工的标注，現在看到很多deep learning模型，将decision network和feature extraction combine，從沒有标注的資料中學習。這将構成一個正循環，我們發現很多正循環中都有摩爾定律。越大的資料學習出來的表達方式越好，有更高的識别精度，這将構成一個正循環。我們希望訓練更大、更深的網絡，但也帶來一定的挑戰，因為我們需要更大的資料和更大的計算平台，這也讓分布式機器學習的平台變得非常重要。

今天大部分的應用還是依賴于監督學習。但是，我們也看到很多研究，比如對抗學習，它讓機器學習裡面的生成模型跟辨識模型兩個互相對抗，在博弈論的架構裡面彼此學習。這就好像你訓練兩個模型，一個是學生模型，一個是教練模型，教練不斷出更好、更難的題目來測試學生，學生也借由這些更難的題目被訓練得更好。例如，一個滑冰選手大部分的場景都跳得很好，但是在三轉跳的時候可能需要更進一步的improve，教練就需要訓練模型。學生在大量針對性的improve後，就能不斷進步。當然，這裡也涉及到我們能夠創造出更多的訓練樣本。另外，unsupervised learning，weakly supervised learning還有人機互動學習也是一個很重要的方向。

ai 驅動資訊流：打通内容生産和消費

今日頭條是一家資訊流的産品與平台服務的公司，我們看到兩端，一端是資訊的創作源頭，包含文字、文章、影像、問答，還有最近流行的短視訊——頭條也有視訊服務，最近在短視訊領域發展迅速。

另外一端是入口，現在有很多的入口，社交網絡的時代有越來越多的人可以借由不同的資訊流（feeds），還有不同的apps、channels接入資訊。在資訊流的過程中，人工智能能夠處理、分析、挖掘和了解資訊流裡面的每一個環節。頭條有大量的稽核工作，需要過濾資訊，再進一步将各式各樣的特征向量做标注，借由推薦引擎的算法推薦。使用搜尋引擎搜尋，大部分人看到的結果是一樣的，但資訊流個性化推薦的難度複雜度更高，但也是以提供了更多的使用場景。

人工智能實驗室在頭條要做的就是在這個過程中把所有的輸入跟輸出連接配接起來。今天的人工智能沒有什麼秘密，隻要能夠定義輸入是什麼，輸出是什麼，有大量的例子、标注資料讓系統來學習，基本就可以建立資料模型。當然我們希望把所有的input、output在資訊流的pipeline裡面define好。一旦有大資料我們就用機器學習，若沒有大資料，就利用人工的特征向量，并進一步形成閉環，借由使用者不斷的消費和資訊的創作，能夠再一次拿到更進一步的标注資料。

在這個過程中，我們的ai也會越來越智能，我們甚至能夠借由資訊的創造，讓ai幫助内容創作。我們的目标是有一天machine可以做writing，可以創作内容；不僅如此，人工智能還可以幫助消費，有一天也會有 machine reading。比如，依靠機器閱讀，知道文章有沒有内容，有沒有問題需要過濾掉，文章的品質如何。将來，machine在writing和reading都會借由新的資訊流機會，不斷進步，品質不斷提升。在這一過程中，我們希望建立ai的infrastructure和platform。這方面，我們會在内部先提供自己産品組所需要的服務，希望将來有一天能夠對外開放。

在 ai era 保持競争力的5大優勢

今天這個時代競争越來越激烈，智能化的門檻也在不斷降低，有五件重要的事情可以幫助我們思考。大資料還是最關鍵的，如果你是一家創業公司或者公司，我覺得你一定要有這樣的思想。

第一，資料非常重要，最好能夠建立data warehouse來管理所有的訓練樣本，而且最好bigger than anyone else。一旦有了這個想法你就會知道資料是很重要的，是資料讓我們的ai技術不斷疊代訓練。

第二，想辦法閉環。你要有很大的使用者基礎和使用者的使用時間，這将進一步給你很多細粒度的标注，有助于你思考你的産品定位。

第三，應用場景。最好有很多很多應用場景，當然頭條非常幸運，今天我們能在一個戰略節點（strategic point）上面，看到大量的、無窮無盡的ai可以用到的地方。解決人類社會的基礎需求就是連接配接人與資訊。這裡面你自己要先做給自己用，你自己有這個需求，你要真正把它解決好，将來有一天才能夠to b，也能夠提供給其他人用。

第四，除了算法以外，ai包括從底層的晶片到資料中心的管理都至關重要，你必須加速和訓練你創新的算法，必須build your own ai infrastructure，必須能夠看到 real workload。如果沒有大規模計算的需求，沒有分布式機器學習的需求，你或許無法意識到一些重要問題的存在。

第五，人才還是非常重要的。今天的算法還在不斷往前，衆多公司紛紛保持開放與合作，很多很優秀的人才在外面，在開源社交媒體裡面，怎麼有效利用與學術界的合作，建立聯合實驗室，或者貢獻到開源community，都能幫助公司成長。

這就是五個我認為非常重要的關鍵點。具體到頭條，我們有非常大的資訊，包含每天展示的文章和視訊數目已經超過100億，每天處理的資料量已經超過7.6 pb，每天新增日志超過300 tb，目前資料總量是200 pb。頭條系列的使用者每天産生60億次伺服器請求，峰值達到每秒150萬次，每天使用者産生數十億點選。

截止到2016年12月底，我們今日頭條單一産品每天服務7800萬dau（日活）——在移動網際網路時代，日活是非常重要的名額。頭條系列産品合起來還超過這個數字。在内部我們有非常大規模的計算和分布式機器學習的建造，還有豐富多樣的ai應用場景來連接配接人與資訊。

今日頭條馬維英：從結繩記事到超級智能，AI Era保持競争力的5大優勢

繼續閱讀

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希