作者介紹
唐雲峰,1999年建立“站長工廠”網站,提供網站建設技術與資訊、開源軟體下載下傳、托管應用、桌面虛拟化等服務。2009年起投身物聯網與NLP(自然語言處理)領域,2017年擔任中韓未來革新加速器(SKFI)社長,專注于IoT企業投資與技術賦能。
2018年底成為2018~2019年度阿裡雲MVP,此次應阿裡雲開發者社群之邀,參與“MVP時間”策劃的5G+AIoT系列專題創作。
内容概述
“夏蟲不可以語于冰者,笃于時也。”
5G的想象空間與應用并不能在4G時代去規劃,但從業者可以沿着4G技術對于現有應用與場景的支撐不足展開一些近期可能的産業機遇分析。
AI與IoT目前的技術邊界決定了AIoT的融合會産生什麼樣的效應或者說是技術工具,嚴格來講作者是立足于網際網路從業者角度去看待5G的産業發展的,所關注的也更多是應用場景。最後将以個人視角展開幾個應用場景,管窺蠡測其中的工程難題與産業機遇。
文章目錄
- 移動通訊與網際網路應用演進與革新
- IoT發展現狀(物聯網這個事情有多麼的不進階)
- AI有多麼的不智能
- 如果把人類的曆史看成IoT(萬物互聯)的演化曆史
- 那麼現有的技術會帶給物聯網什麼樣的未來呢?
- 實作AIoT(萬物智能)會帶給我們怎樣的挑戰并帶來怎樣的産業機遇
更新計劃
自2019年11月27日起,每周更新一篇,感謝關注,期待交流。雖然内容準備很正經,但是我盡量說人話,講故事,談場景。該系列自我要求:多一點感性認識,少一些理性分析。不是提倡反智,而是甘為搬運工。
為了減少勞動而更加努力勞動
看看标題都覺得這是《動物莊園》裡的口号,我這裡分享的是個人接觸AI的故事。
資料庫重構是一個重體力勞動
1999年一位忘年交好友,做了一個人物資料庫的網站,可以查詢上千位名人的生平資料。後來,我們團隊接手了這個項目的營運。人物的資料庫從最初的1300多,擴充到2.6萬條,相關的文章多達數萬篇。
最初的人物資料就是一篇篇文章,人物的各個屬性都不是獨立的字段。為了實作按照生卒年排序或查詢,不得不對資料庫進行重新設計。
重新設計之後的資料庫,需要把原先的資料按照新的字段進行填寫。海量的工作對于我們之後5個兼職志願者來說,兼職就是不可能。
有些工作是重複勞動
愚公移山對于我們來說算是一種信念了,夜以繼日,日複一日。兩個多月過去了,資料轉換僅僅完成了不到十分之一。
漸漸的總結了一些規律出來,比如某些字段的開始總是有特定詞語的。或者在出現某些詞語的句子裡面出現的數字,總是有特定的格式或者特定的意義的。
于是我嘗試編寫了一個程式,把人物資料當中的生卒年,出生地,姓名等基礎資訊提取出來。當然使用的是全文檢索的模式,雖然對于計算機來說是效率不高的一堆指令集合。
但是這個程式卻解放了我們,有點類似于很多AI的初學者用Python寫的爬蟲。處理了資料才有後面的分析資料。
關鍵詞是什麼?
更大的調整自然發生在簡單問題解決之後。
每一位人物的簡介、關鍵詞都是人工添加的。在釋放了大量的人力之後,我們不斷折騰的路又一次開始走偏。
每一篇文章需要完整閱讀之後才能總結出關鍵詞。我們嘗試過詞頻統計的方式來總結關鍵詞。然而那個時候我們弄出來的東西都是一些很奇怪的結果。因為中文分詞,中文詞語和英文詞語最大的差別是,中文的語素之間是沒有空格的。導緻大量的“詞語”并不是真正的詞語,有一些是截斷的内容。
我們做了一個詞典庫,出現在詞典裡面的才能被認為是詞語。然而,更棘手的問題出現了。統計出來的确實是一個詞,但是有可能是從别的詞上切下來的一部分。
針對這種情況,又嘗試着做了詞語的權重。機械且傳統的方式,調整了一個程式算是勉強能用了。因為再這樣做下去,我們發現我們都可以做搜尋引擎了(确實,但那是另外一個故事)。
根據描述判斷好人還是壞人
這隻是一個比喻,我們團隊發生過争論,要不要去判斷一個人是什麼職業、曆史褒貶之類的資訊。
因為這些褒貶資訊總是能夠伴随着一些詞語的詞頻展現出來。
同樣的,每一位曆史人物的描述上也能夠找到職業的歸屬。
終于,我們基于樸素的統計方法和傳統的語言學的知識無法解決我們的需求了。
NLP(自然語言處理)進入了我的視野,然而當時能夠找到的中文NLP一片荒涼,能夠參考的隻有哈佛的一些論文、哈爾濱工業大學、複旦大學搞得試驗性的開源項目。
AI還隻是個孩子,需要有人教
當我費力地學會了一些Java的皮毛之後,更加費力地部署了FudanNLP,獲得了前所未有的便利。
依存句法分析、指代消解、分類、聚類想都不敢想的玩法出現在了面前。
基于半監督學習,NLP提供給我一個新的思路。傳統靠程式設計,AI靠教育。
雖然NLP玩法很豐富,但是針對我們具體場景的需求則需要單獨訓練,我們的訓練語料沒有示範的語料那麼齊全,還需要大量的标定工作。
為了偷懶,付出了比踏踏實實做更高的成本。因為你需要教育個非人類物種了解人類的語言。為此,我學習了大量的數學相關的知識。作為一個文科生,被AI實實在在教育了一番——“不想當數學家的程式員不是一個好的國文老師。”
AI的工作方式有何不同?
程式設計是通過告訴計算機要做什麼,每一步操作都可以被預期,甚至出現的每一個bug都能找到原因。
有傳言AI的可預期隻是在可以接受的機率下的可靠,甚至不知道AI是如何想的。
其實,AI沒有那麼可怕。很多時候讓我有了一些錯覺,隻是其中的數學方法藏的很深,深到了不容易甚至無法對應到現實意義當中。
打比方是不準确的,但卻容易讓人了解。“教會了AI之後,AI按照你預想的結果不斷修正自己的輸出,如同耍猴人不停鞭打做錯動作的猴子,耍猴人并不清楚猴子怎麼想的,也不屑知道猴子怎麼想。”
或許正因為如此,讓很多人對AI應用在涉及人類安全的領域,有一種莫名的恐懼。
目前AI的工作特點是簡單重複
大量簡單重複的工作才是AI的應用領域,不論是寫詩還是作曲,人臉識别或者語音控制。
能否有更多的拓展呢?訓練素材和算力才是制約,哪個領域的素材豐富需求的算力可承受,哪個領域的人工智能應用就發展得快。
目前的好AI,是一個專家,隻能完成特定任務的專家。
阿裡雲PAI平台&AI服務
隻要有标定好的資料,你可以不懂數學,不懂程式設計依然能夠訓練自己的人工智能算法。大家可以使用PAI,嘗試一下,當一個人工智能教師。
沒有資料,也可以開始使用人工智能,語音識别、圖像識别、翻譯、自然語言處理等通用能力已經被阿裡雲做成了通用服務,不需要重複造輪子了。
下期預告
本期通過介紹個人的AI接觸故事,下一期我們将一起繼續技術視角的人類曆史課。