雲栖号資訊:【 點選檢視更多行業資訊】
在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!
阿爾法公社說:在AI越來越普及的時代,擁有大量資料的科技巨頭會形成壟斷麼?創業公司應該如何高效的利用資料?後進的AI領域創業公司還有機會麼?創業者應該如何利用AI技術切入行業?如果你也有這些疑問,歡迎閱讀。
AI,包括機器學習現在是重要的技術趨勢,在這個領域已經有不少獨角獸創業公司,科技巨頭們更是早早布局。隻要對這項技術稍有了解就會明白,資料是機器學習的養料,那麼已經擁有大量資料的科技巨頭公司會不會強者更強,甚至形成壟斷,後來的創業公司還有機會麼?
為什麼資料對于機器學習很重要?
首先,為什麼資料對于機器學習如此重要?舉例說明。在過去,利用傳統的方法建構一個系統來識别某樣事物,需要一系列複雜的規則,例如要識别圖檔裡的一隻貓,需要建構識别貓的輪廓、毛發、腿、眼睛、耳朵等一系列的規則,并把它們整合在一起。但在實踐中,這樣的方法過于複雜,可行度不高。

如果用機器學習來識别貓,你不需要寫規則,而是給一個統計引擎提供資料和例子,這個引擎就會生成一個具有分辨能力的模型。然後你給它10萬張标有 "貓"的圖檔和10萬張标有 "不是貓 "的圖檔,機器就能分辨出它們的差別。機器學習用資料中自動确定的模式取代了手寫的邏輯步驟,對于一些非常廣泛的問題,機器學習的效果會更好,例如在計算機視覺、文字和語音方面,它都有非常典型的用例。
對于機器學習,你需要多少數量的資料才能達到目标是一個浮動的數字,有一些研究方向是讓機器學習使用更小的資料集就可以完成工作,但是在目前,更多的資料幾乎總是能得到更好的結果。
巨頭擁有很多資料,這會幫助它們壟斷麼?
是以,問題來了:如果機器學習可以重構很多重要的事情,并且資料越多機器學習就給你越好的結果。那麼,是否意味着已經是巨頭,擁有巨量資料的公司會變得更加強大?這種赢家通吃的效應會有多強?因為這背後的道理似乎很清楚:"更多的資料=更準确的模型=更好的産品=更多的使用者=更多的資料"。于是有一些說法就會出現:“谷歌/Facebook/亞馬遜擁有所有的資料,中國擁有所有的資料,那些擁有大量資料的科技公司和人口衆多,資料豐富的國家将在競争中獲得優勢。”
某種程度上,這能成立。
不過,雖然機器學習需要大量的資料,但你使用的資料必須是非常具體的,隻有這樣才能解決特定的問題。GE有很多瓦斯輪機的遙測資料,Google有很多搜尋資料,Amex有很多信用卡欺詐資料。你不能用渦輪機的資料作為例子來發現欺詐性交易,也不能用網絡搜尋的資料來發現即将出現故障的瓦斯輪機。也就是說,機器學習是一種通用的技術,你既能用它來欺詐監測也能進行人臉識别,但是用它建構的具體應用互相之間是不通用的。每一個特定的模型或應用隻能做一件事。
這和之前的自動化技術普及大同小異:就如洗衣機隻能洗衣服不能洗碗一樣,機器學習支援的翻譯程式也不能識别貓的圖檔。你建構的應用程式和這些應用程式需要的資料集是非常具體的,他們隻會勝任特定的任務(當然,現在有一些前沿研究試圖使某些資料集能夠擁有更廣泛的通用性。)
是以,利用機器學習可以實作的應用是非常廣泛而分散的。谷歌不會“擁有所有的資料”,它隻會擁有谷歌自己的資料。谷歌會利用機器學習技術獲得更好的搜尋結果,GE獲得更好的引擎遙測,沃達豐獲得更好的通話模式分析和網絡規劃,而這些都是不同公司建立的不同業務和功能。谷歌可以利用機器學習讓它自己的業務變得更好,但不意味着谷歌可以利用機器學習壟斷一切業務。
也就是說,機器學習可以讓每個行業的大公司變得更強大——沃達豐,GE,谷歌擁有各自行業“所有的資料”,這會讓他們擁有更強的競争優勢,讓已經存在的護城河變的更深。但是問題其實也不那麼簡單,我們可以提出疑問:到底誰擁有資料,這些資料到底多有用,在什麼層面上它是有效的,怎樣去聚合與分析它們才是正确的?
如何聚合與分析資料才是有意義的?
作為一個公司的創始人,可以思考以下的問題:作為一家行業公司,你是否有收集和管理好自己的資料,并建立機器學習系統來分析它,還是說你找了對口的AI供應商來做這件事;你的供應商提供的是一個已經在别的資料集上訓練好的成品,還是根據你的資料定制訓練,或者将你的資料與其他資料集混合起來一起訓練?你的供應商是否需要你的資料來優化模型,還是說整個行業的資料已經非常豐富,用現成的資料集就已足夠?在業務的不同部分,不同的行業,不同的細分業務中,這些問題的答案是不同的。
換到另一端,如果你是一家AI創業公司,要切入某個細分行業解決實際問題,那麼有兩個關于資料的基本問題:如何獲得你的第一個資料集來訓練你的模型,并以此來獲得你的第一個客戶,另外你到底需要多少資料?
第二個問題可以分解成很多問題:是用相對較少的、擷取相當容易的資料集(但很多競争對手也能擷取)來解決問題,還是用更難擷取,規模更大的資料集,如果是後一種,是否可以從網絡效應中獲益,進而形成赢家通吃的态勢?以此建構的産品,是會随着資料越來越多,變得越來越好,還是有一條S曲線?
這取決于以下這些因素:
有些資料集對企業或産品來說是獨一無二的,或者能提供強大的專有優勢。GE的發動機遙測資料可能對分析羅羅的航空發動機沒有什麼用處,即便有用處,它們也不會分享。這可能就是一個創業機會,但同時也是很多大公司内部IT和外包項目承包商眼饞的地方。
有些資料集則更具有共性,可以适用于更多的行業和公司。“這個客戶有些奇怪”可能适用于所有信用卡公司,“客戶聽起來很生氣”則适用于大多數呼叫中心。這種共性問題可以誕生很多公司,他們可以基于此解決不同行業的共性問題,這裡有資料的網絡效應。
但是也可能出現另一種情況,到了某種分界點後,模型已經很成熟,廠商不需要更多的資料,就已經能夠很好的建構産品了。
AI創業,到底應該怎麼切入?
在實際的創業中,随着機器學習的應用範圍越來越廣,創業公司總能在細分領域找到切入點。例如Everlaw進入的是法律相關的領域:一場官司會産生堆積如山的紙質卷宗,機器學習可以對這些卷宗進行分析,一方面,可以找出具有共性的卷宗,例如“包含焦慮情緒的檔案”,另一方面可以做聚類分析,找到和選出的某一份卷宗差不多的其他卷宗。而這些不需要根據某一個特定案件的資料訓練,用一些行業通用的資料集就可以解決。
Drishti,是一家利用計算機視覺來分析工廠生産線的公司,它的其中一些能力需要客戶公司的資料進行訓練,但它的能力具有較強的通用性,可以跨行業工作。
舉一個極端的例子,我最近接觸到一家大型的汽車主機廠,他們利用機器學習來優化爆胎監測傳感器,使它更加準确。這些訓練資料是他們自己制造的,做了很多爆胎和沒有爆胎的試驗。很明顯,想要得到資料,你總能獲得資料,隻是資料,并不能建構護城河。
是以,回到核心,對于機器學習創業公司,都要面對兩個問題:如何獲得資料,需要多少資料?但這些隻是技術性問題:你更應該考慮你的目标市場是什麼,如何進入市場,你要解決的問題對你的客戶有多大價值,等等。也就是說,很快就不會再有 "人工智能 "創業公司了,它們将是工業流程分析公司,法律平台公司,或者銷售優化公司等等。事實上,機器學習的普及并不意味着谷歌變強,而是意味着各種創業公司可以比以前更快地用這種先進技術來建立業務。
我用一個比喻來做最後的總結,我們可以把機器學習比作資料庫。資料庫非常重要,它是一種基礎設施,融入了各種各樣的場景。如果你不使用它,而你的競争對手使用它,你就會落後。在它還是一個新鮮事物時,有的公司曾經依靠這種技術獲得過競争優勢,沃爾瑪的部分成功來自于使用資料庫,進而可以更有效的管理庫存和物流。但在今天,如果你創辦了一家零售商,并說,我們正在使用最先進的資料庫技術;那這并不會讓你變得與衆不同。資料庫已經變成了一種普遍化的技術基礎設施,它不再有特殊性,同樣的事情在未來也會發生在機器學習上。
本文綜合編譯自知名投資人Benedict Evans的個人部落格。
【雲栖号線上課堂】每天都有産品技術專家分享!
課程位址:
https://yqh.aliyun.com/zhibo立即加入社群,與專家面對面,及時了解課程最新動态!
【雲栖号線上課堂 社群】
https://c.tb.cn/F3.Z8gvnK
原文釋出時間:2020-06-24
本文作者:阿爾法公社
本文來自:“
36kr”,了解相關資訊可以關注“
36kr”