區塊鍊技術,塊分散成小立方體在數字資料背景- 3D渲染
有不同的方法來定義常識機器學習。這可能意味着盡可能使用簡單的模型,避免過度拟合,正确選擇特征,或以正确的方式進行交叉驗證。也可能意味着不使用任何資料集。然而,做出的預測遠遠超過那些在大型資料集上工作的聰明的資料科學家團隊。第一個定義可能是以後文章的主題。這裡我主要讨論後者。我提供了例子來說明我的意思。一般來說,這可以歸結為擁有錯誤的資料和/或缺乏業務經驗,或缺乏常識。我需要打破正常的思維。
更大的頂級資料科學家團隊、更大的資料和更好的模型并不是解決方案。更多樣化的資料或第三方資料有時會有很大幫助。問題是如何找到正确的資料。雖然在某些情況下,不需要資料:我稱之為機器學習隻用人腦完成。
第一個例子:Covid預測
在早期,當我檢視有關“康複者”的統計資料時,這個數字低得令人難以置信。在深入調查之後,很明顯,“恢複”意味着你的檢測結果呈陽性,你的病例被記錄在某個官方資料庫中。也許你去了醫院,然後“活着”出院了。我被感染的家人和親密的朋友——他們都是自己康複的——都沒有被統計出來。這是我進一步調查官方資料可能相差多遠的起點。
如今,科學家們抱怨接受檢測的人太少,或者在家裡進行檢測而不報告結果。一些人聲稱,在任何正式的陽性病例中,有14例未報告。追蹤病例是否仍然重要,這是我不願讨論的問題。我認為住院治療是一個更好的名額,盡管它是一個滞後的名額。如今,科學家們使用廢水資料,盡管美國各地并沒有均勻地跟蹤這種資料。
一個簡單的解決方案
在過去的幾天裡,我生病了,還在恢複中。我不知道是什麼,我妻子(也有點生病)的Covid檢測呈陰性。她學校的幾個同僚最近感染了新冠病毒。我查了一下新冠熱能持續多久。這讓我想到了一個簡單的解決方案來估計病例趨勢,并包括那些(像我自己)從未進入官方資料庫的病例。
我想到了這個主意:看看谷歌的“Covid症狀”或相關關鍵字的趨勢。你可以按面積細分。如果你可以通路完整的資料(谷歌可以),你甚至應該能夠根據IP位址告訴我,我昨天在谷歌上搜尋了“Covid fever”。當然,這并不意味着我是積極的,但這是一個很好的代理名額。特别是,我發現俄勒岡州的情況比附近的州更“糟糕”。下面是圖檔。這些資料對所有人都是免費的,可以在這裡找到。
俄勒岡州“Covid症狀”的谷歌關鍵字趨勢
當你可能剛剛被感染時,你也開始質疑是否要接種疫苗。疫苗可能已經過時了,正如預期的那樣,我的病情并不比接種疫苗的人更嚴重。如果你呼吸困難(我這次沒有),你要自我隔離,你也會想為什麼要在家裡戴口罩。這可能會讓本來就不愉快的情況變得更糟。這方面似乎沒有任何嚴肅的研究。一個放之四海而皆準的解決方案遠非理想。我的觀點是,許多分析中缺少了一些基本的統計資料。
第二個例子:回應你招聘廣告的隐形候選人
我最近寫了一篇關于招聘資料科學家時人才短缺的神話的文章:請看這裡。許多公司使用的自動履歷篩選流程是拙劣的人工智能。考生可以列出6種程式設計語言來通過,誠實、優秀的考生可能會失敗。
優秀的招聘經理知道如何在LinkedIn上找到潛在的候選人。自從我在LinkedIn上恢複活躍後,許多招聘人員聯系我,甚至在Facebook上!你很容易發表比許多人所發表的更有深度的評論,并脫穎而出。我這樣做不是為了找工作,而是為了擴大我的閱聽人。最後,我想知道履歷這個概念是否已經過時了。
招聘經理過于依賴黑盒系統等履歷篩選工具是不利的。你需要再努力一點。我想這些工具在未來會變得更智能,但目前它們還不太好。做一個簡單的測試:用僞造的履歷應聘你所招聘的職位。看看有多少這樣的履歷通過稽核。那麼你的下一個問題是:我的公司是否應該停止在這樣一個低效的系統上浪費資金?
說到招聘,你肯定想要有商業知識的人(見下一節)。缺乏常識實際上是缺乏商業知識。這可能和成為一名優秀的程式員一樣重要。然而,當NBCi聘請我處理廣告歸因問題時,我在電視廣告方面的商業專業知識是零。我從來不看電視節目,也沒有電視機。但他們最終還是喜歡我所做的,因為我用簡單的語言和簡單的電子表格解釋了它,利益相關者可以了解。它還産生了附加值。在面試候選人或申請一個職位時要考慮的一件事是:讨論過去的成功故事。
第三個例子:像Reddit這樣的公司錯失了盈利機會
我最近遇到的一個反複出現的問題是,我的廣告在Facebook、Twitter或Reddit等平台上的拒絕率很高。就好像我在賣非法的東西一樣。然而,他們是高度針對性的,相關的,并促進高品質的機器學習論文。相反,當我通路這些平台時,我隻看到無關的廣告。
我也是一個專業的廣告作家。起初,我以為廣告是由機器人審批的。然而,在很多情況下,這是由人類造成的。如果手動檢查這些廣告的人都不能分辨出好壞,人工智能又怎麼能做到呢?一些人工智能系統是由對實際問題知之甚少的人設計的。他們可能擁有麻省理工學院的機器學習博士學位,但要麼他們缺乏商業知識,要麼他們上面的人不知道他們在做什麼。以Reddit為例,我要求他們寫一個可以被接受的廣告。他們沒能兌現承諾。這是為MLTechniques.com做廣告。希望随着IPO的臨近,會有更多的人關心收入——至少是股東。
正如我在前一節中所寫的,我在對電視節目一無所知的情況下,也不會操作電視機,但卻在電視廣告業工作得很成功。是以這絕對是可能的。但了解你的客戶體驗對提高你的人工智能有很大幫助。如果像Reddit這樣的公司聘請的機器學習科學家本身就是廣告商,他們将獲得客戶的視角,進而開發出更有意義的人工智能。現在,客戶體驗和廣告審批可能由兩個不同的團隊負責。他們要麼不溝通,要麼目标沖突。
其他的例子
Facebook上的自動翻譯是另一個例子。盡管我經常在Facebook上用法語閱讀和發帖,但它的算法已經認定我隻會一種語言。facebook為我翻譯了所有的英語,可能是因為我在美國。開發這一功能的工程師在FB上也必須面對同樣的問題。英語版本也很有趣。谷歌還會反複詢問我是否需要翻譯成英語。然而,我已經好幾年沒用過這個功能了。這些隻是小麻煩,但它表明那些設計這些系統的人(或那些對功能做出最終決定的人)并不生活在現實世界中。
另一個例子:谷歌地圖讓我走上了一些尴尬的道路。在偏遠地區的多日汽車旅行中,算法是殘酷的數學。它肯定能顯示最快或最短的路。但是,當交通堵塞很容易避免的時候,政府并不關心那些停放着大量拖拉機的兩車道公路,或者沒有加油站的長段路段。如果你把你的旅行分成更短的部分,它會做得更好——一個簡單的修複,你會認為算法本身可以利用。你會想,設計這些系統的人除了在日常通勤中測試過這些系統嗎?這個算法在某種程度上進行了數學優化。但不是在實際用途中最有用的方式,而是在非标準旅行中使用它。
最後,2008年房地産泡沫的破裂是資料科學出錯的一個例子。科學家們追随他們的模型,就像泰坦尼克号的船長追随他的船走向深淵一樣嗎?還是他們足夠聰明,避免了損失?那是不是太貪心了?