天天看點

設計偉大的資料産品

設計偉大的資料産品

 在過去的幾年中,我們已經看到了許多基于建立預測模型的資料産品。這些産品包括從氣象預報到推薦引擎,再到航班起降時刻預測服務,它的預測甚至比航空公司本身更準确 。 但是,這些産品還隻是進行預測,而不是告知對此預測結果該采取怎樣的行動。預測技術可以是有趣的,而且具有數學上的優雅性,但我們需要更進一步。這項技術可以幫助我們建立徹底改變整個行業的資料産品,有什麼理由不去建立呢?

作為介紹這個過程的開始,我們已經改變了保險業的四部曲方法。 我們把它稱為傳動系統方法,靈感源于新興領域的自駕駛車輛。工程師先是定義一個明确的目标 :他們想要汽車在無人幹預地情況下,安全地從a點行駛到b點。成功的預測模組化是這一解決方案極為重要的部分;但随着産品複雜度的提高,它将不再是一個獨立的部分,而是融入到産品銜接中了。一些使用谷歌的自動駕駛汽車的人并不知道,使它它工作的是其背後上百成千種的資料模型和pb級的資料。資料科學家建構的産品日益複雜,他們需要一個系統的設計方法。傳動系統方法不一定是最好或唯一的方法;我們的目的是在資料科學和商業社群之間建立起對話,以推動我們共同的目标。

我們正在進入資料驅動的時代,使用資料不隻是為了産生更多的資料(比如預測性資料),而是從資料知道該采取什麼行動。這就是傳動系統方法的目的。為了最好的說明這個過程,我們來看一個非常熟悉的資料産品:搜尋引擎。回到1997年,altavista還是算法搜尋世界的王者。雖然它們的模型善于尋找具有相關性的網站,但是使用者最感興趣的結果往往出現在搜尋結果中的百頁以後,使用者幾乎不可能通路到。之後,谷歌來了,以一個簡單的問題改變的線上搜尋:使用者搜尋的主要目的是什麼?

設計偉大的資料産品

傳動系統方法的四部曲。

谷歌認識到,搜尋目的是為了找到最相關的搜尋結果;對于其他公司,目的可能是增加利潤、改善客戶體驗、找到機器人的最佳路線,或是對資料中心進行負載平衡。一旦我們定義了目标之後,第二個步驟是找出系統中可控的輸入 ,即那些可以調整并影響最終的結果的杠杆因素。對于谷歌,他們可以控制搜尋結果中的排名。第三步是思考産生這樣的排名需要什麼樣新資料;他們意識到,網頁被連結到哪些其它網頁這一隐含的資訊可以被用于此目的。隻有這前三個步驟後,我們開始思考建立預測模型 。我們的目标、可用的杠杆因素、已有的資料加上所需收集的額外資料,決定了我們能建立何種模型。可控杠杆因素和所有不可控因素都将作為該模型的輸入;模型的所有輸出結果将被結合起來預測我們目标的最終情況。

谷歌所用的傳動系統方法中的第四步現在已是高科技曆史的一部分了:拉裡·佩奇(larry page)和謝爾蓋·布林(sergey brin)發明了圖的周遊算法pagerank,并由此建立了革命性的搜尋引擎。但是,你也不是非得發明下一個pagerank才能建立一個了不起的資料産品。我們将介紹一個系統化的步驟四方法,沒有計算機博士學位也照樣能用。

從合适的預測模型優化出下一步該如何行動,這可能是公司最重要的戰略決策。對于保險公司,價格政策就是他們的産品,是以一個最優的定價模型之于它們就像是制造裝配生産線之于汽車生産商。保險業有幾百年的預測經驗,但在近十年,保險公司往往對于每名新客戶該收取多少費用無法做出一個商業上最優的判斷。他們的精算師可以建立模型來預測客戶發生事故的可能性和相關索賠的預期值,但是這些模型并不能解決定價問題,是以保險公司隻能在結合市場研究的基礎上猜測一個定價。

這種情況在1999年因為一家名為最優決策小組 (odg)的公司而得到了改變。作為傳動系統方法的一個早期運用,odg實踐了其中的步驟四——它可以應用于很多廣泛的問題。首先,他們定義了保險公司的目标 :最大化新顧客在一段年限内的利潤淨現值,但同時又要考慮到一些其它因素,例如保持市場佔有率。就這樣,他們發展出一個優化的定價過程,為保險公司增加了數百萬美元的保底利潤。[ 注:本文的共同作者傑裡米·霍華德(jeremy howard)創辦了odg。

odg确定的那些保險公司的可控杠杆因素:向每個客戶收取的價格,覆寫的事故類型,在市場營銷和客戶服務上花的花費,以及如何應對其競争對手的定價方案。他們也考慮了不可控因素:如競争對手的戰略、宏觀經濟的情況、自然災害以及客戶的“粘性”。他們還考慮了需要什麼樣的額外的資料來預測客戶對于價格變動的反應。為了建立這些資料集,這就有必要持續幾個月地随機改變成百上千條定價政策。雖然保險公司不願在這些真實客戶身上做實驗,因為他們顯然會是以失去一些客戶;但在優化定價政策可能帶來的巨大收益面前,他們還是動搖了。最終,odg開始設計能夠最大化保險公司利潤的模型 。

設計偉大的資料産品

傳動系統方法第四步:模型裝配生産線。圖形化的資料産品的模型裝配生産線,可将原始資料轉化為下一步的行動。這個模組化器将原始資料轉換成稍加提煉的預測資料。

odg模組化器中的第一個元件是一個關于新保單和續單的價格彈性模型(使用者接受一個給定價格的機率)。價格彈性模型反映的是使用者接受保單的機率和保單價格之間的關系。這條曲線從低價時的幾乎肯定接受一直到高價時的幾乎不可能接受。

odg模組化器第二個元件在考慮能夠接受保單價格的客戶的情況下,把保險公司的利潤和産品價格進行關聯。極低價格下的利潤在考慮第一年的預期索賠加上擷取及維護新客戶的開銷後被計算出,并被顯示為紅色。這兩條曲線相乘将得到一個最終的曲線,顯示了價格與預期收益的對應關系(見下方的預期利潤圖 )。最後的曲線有一個清晰可辨的局部最大值,表明了第一年應當給于使用者的最佳價格。

設計偉大的資料産品

預期利潤

odg還建立了客戶忠誠度的模型。這些模型在考慮價格變化和客戶轉投競争對手公司的意願的情況下,預測客戶是否會在一年内續保。這些額外的模型結合年度模型将能夠預測未來五年内一個新使用者所能帶來的利潤。

這套新的模型仍不是一個最終答案,因為它隻能确定一個給定輸入的結果。“裝配生産線“上下一個”機器“是一個模拟器 ,通過它,odg可以問“假如……會怎樣”的問題,來觀察杠杆因素是如何影響最終結果的分布的。把可能出現的結果作為一個曲面,預期利潤曲線僅僅是這個曲面的一個切片。要建立整個曲面,模拟器需要在模型上運作大範圍的輸入。操作員可以調整輸入的杠杆因素杆來回答一些特定的問題,比如“如果公司在第一年為客戶提供一個誘惑性的低價,然後在第二年提高價格,将會有何結果?”他們也可以探尋那些對于保險公司來說的不可控因素是如何影響利潤的分布的:“如果經濟崩潰并且客戶失去了他的工作,那會怎樣?如果他的家遭遇了百年一遇的洪水又如何?如果一個新競争者進入市場,我們公司又不加應對,會對我們的底線造成怎樣的影響?“由于模拟是在每一個政策層面的,保險商可以看到一組給定的價格變動對收入,市場佔有率,随着時間的推移和其他名額的影響。

模拟器的結果将被導入優化器 ,它将确定出代表了所有可能結果的曲面中的最高點。優化器不僅找最好結果,它也可以識别那些災難性的後果,并告知如何避免它們。我們已有很多不同的優化技術可供選擇(見下面的邊欄 ),這是一個為人所熟知的領域,已有了強健和易用的解決方案。雖然odg的競争對手在找最佳的價格上所用的技術有所不同,但他們推出的同樣是一個具有全局性的資料産品。使用動力傳動系統模型和模型裝配線相結合的重要價值在于,這樣就可以在預測模型和可采取的行動項之間架起了一座橋梁。 cloudphysics公司的伊爾凡·艾哈邁德(irfan ahmed )對預測模型進行了良好的分類,并且描述了整個裝配線過程:

“在需要處理成敗上千個元件模型以了解整個系統的行為的時候,”搜尋“的運用是必需的。我把它看成是一個用來揭開帷幕的複雜的機器(整個系統)通過受控的實驗,我們對這個機器的每個重要部分模組化,然後模拟的它們之間的互相作用。注意這裡的不同層次:各個元件的獨立模型;在一個給定的一組輸入的模拟器重互相捆綁在一起;通過搜尋優化器在不同的輸入集合上進行優化疊代。“

邊欄:現實世界中的優化

優化是一個經典的問題,從牛頓和高斯開始直至現今的數學家和工程師們都在對此進行研究。許多優化過程是疊代的,這就像是先走一小步,檢視我們的高度,然後再向上一小步,直到我們達到一個無論向哪個方向都無法爬上更高的點。這一爬山方法的危險之處在于,如果步子太小了,我們可能會逗留在山腳下的局部最大值中,這就無法找到可控輸入中的最佳集合。已有很多技術用以避免這個問題,一些是基于統計學并且把對最佳結果的猜測範圍撒得更廣;還有一些是基于自然界中見到系統,像是生物進化或玻璃中的原子冷卻過程。

設計偉大的資料産品

優化是一個我們在日常生活中都很熟悉的過程,即使我們從來沒有使用過類如梯度下降法或是模拟退火的優化算法。一個最近的techzing播客提供了一個現實世界中優化的非常好的寫照,這篇播客來自于資料挖掘的競賽平台kaggle的共同創辦人。本文的作者之一解釋了一種疊代優化技術,然後主持人說到,“是以,在一定意義上傑裡米(jeremy),你的方法就像是在做一個創業公司——先做一些東西出來,然後反複地疊代,疊代,再疊代。”一句話,不管你是一個小型創業公司或者是一家保險巨頭,當我們要決定如何去我們想去的地方的時候,我們都在不自覺地使用優化。

讓我們來看看我們如何能夠應用此過程到另一個行業:市場營銷。首先,我們的傳動系統方法應用到一個熟悉的例子,推薦引擎,然後由此建立一個完整的優化營銷政策。

推薦引擎是為人熟知的資料産品例子,它是基于精心打造的預測模型的,但是并不牽涉尋求最佳結果。目前的算法會根據客戶以及和他相似的客戶和購買曆史來預測客戶會喜歡什麼樣的産品,像亞馬遜這樣的公司,把每一次交易表示成一個巨大的稀疏矩陣,行是客戶,列是商品。一旦他們有了這種格式的資料,資料科學家就可以應用某種形式的協同過濾來“填寫矩陣”。例如,如果使用者a購買産品1和10,客戶b購買産品1,2,4,10,推薦引擎會建議a買2和4。這些模型能夠不錯地預測客戶是否會喜歡某個給定的産品,但他們推薦的産品往往是顧客已經知道或已決定不買的了。亞馬遜的推薦引擎可能是現有中最好的一個,但很容易就能顯示出它的問題。,以顯示其疣。以下這張截圖是關于在亞馬遜上搜尋泰瑞 普萊契(terry pratchett)的“ discworld系列中最新圖書後,“購買了此商品的使用者還購買了“這一欄内顯示的内容。

設計偉大的資料産品

所有的推薦都是同一系列的其他書籍,但是一個很好的假設就是:這些書對于一個搜尋了“泰瑞 普萊契(terry pratchett)”的客戶都是早就知道了的書。一些預料之外的建議可能會出現在這一欄的第二到第十四頁,但有多少客戶會不厭其煩的一一看下去呢?

除了這種方法,讓我們用傳動系統方法來設計一個改進過的推薦引擎。我們從重新考慮我們的目标開始 。推薦引擎的目的是通過推薦一些如果沒有推薦,使用者可能不會購買,但是又能讓使用者驚喜和興奮的書,以此來推動額外的銷售。我們真正想要的是模拟馬克·約翰遜(mark johnson ziteceo)的體驗 ,他在最近的toc談話 中關于“客戶推薦體驗到底應該是怎樣的“給了一個極好的例子。他走進斯特蘭德書店在紐約市,并要求一本和托妮·莫裡森(toni morrison)的“寶貝兒(beloved)”類似的書。櫃台後面的女孩推薦了威廉·福克納(william faulkner)的”押沙龍,押沙龍! (absolom absolom)”。而在亞馬遜上,一個類似搜尋結果中最靠前的都是托妮·莫裡森的另一些書和其他一些寫有關種族話題的知名女性作家的作品。斯特蘭德書商的推薦很有才,也很難做到。這個推薦可能更多的是基于莫裡森的文筆特質而非和其他作者的表面上的相似性。她透過表面直達本質的推薦将使客戶帶着一本新書回家,并且在今後會一而再,再而三地回到斯特蘭德。

這不是說,亞馬遜的推薦引擎不能做到相同關聯性;可問題是有用的推薦被深深地隐匿在許多推薦項之下,遠在那些和“寶貝兒”有着明顯相似性的書之下。我們的目标是為了避免推薦的過濾泡沫。這一術語最早由禮·帕裡澤(eli pariser)提出,用來描述個性化的新聞源有這樣一種傾向性:趨于顯示一些隻有平淡無奇的大衆觀點的文章或者隻是進一步确認讀者已有偏見的文章。

相對altavista-google的例子來說,一個書商可以控制杠杆因素就是推薦排名。必須收集新的資料來生成新的推薦以此帶來新的銷售。這将需要進行許多随機試驗以收集資料,這些資料需要覆寫對于大範圍客戶的全方位推薦。

傳動系統過程中的最後一步是建立模型裝配線 。避免推薦泡沫的一種方法是建立一個包含兩種購買機率模型的模組化器,分别針對看見推薦和沒有看見推薦的情況。這兩個機率之差就是對于一個給定顧客的推薦的效用函數(見下方推薦引擎圖)。函數值在兩種情況下很低:該算法推薦的是一本挺常見的,已經被客戶拒絕了的書(兩個都是低函數值)或一本即使不推薦,他也會買的書(兩個都是高函數值,亦顯示不出差別) 。我們可以建立一個模拟器來測試我們庫存中種種圖書的效用;或者隻是把協作過濾模型(有關相似客戶的交易的模型)的輸出結果重新處理一邊,然後建立一個簡單的優化器,把推薦的圖書按照模拟出的效用來排名顯示。通常來說,當我們選擇一個目标函數來優化時,我們更多強調的是“目biao”而非“功能”。什麼是我們資料産品的使用者的目的?我們到底在幫助他做怎樣的選擇?

設計偉大的資料産品

推薦引擎

相同的系統方法可以被用來優化整個營銷政策。這可以包括零售商在實際買賣交易之外和其客戶的所有互動:是否做産品推薦,鼓勵客戶了解網上商店的一個新功能,或是發送促銷活動資訊。選擇錯誤的代價對于零售商意味着利潤減少(打折銷售并沒有帶動額外的營業額),損失機會成本,(例如首頁上的稀缺性房地産資訊,以及推薦欄位被一些使用者不喜歡或者即使沒有推薦也仍然會購買的東西所占據),或是導緻客戶的流失(發送了過多無用的電子郵件促銷,導緻客戶把所有将來的郵件過濾成了垃圾郵件)。我們将告訴你如何去建立一個優化的營銷政策,來減輕這些影響。

在之前的每個例子中,我們都首先問一個問題:“什麼是營銷政策試圖達到的目标?”答案很簡單:我們希望優化每個客戶的終身價值。第二個問題:“有什麼杠杆因素 是我們可以加以利用去實作這一目标的?”有不少,例如例如:

我們可以使産品推薦是令人感到驚訝和愉悅的(使用上一節中列出的優化建議)。

我們可以針對顧客并沒完全準備購買或是會去其他商家購買的産品提供量身定制的折扣或特殊的優惠,

我們甚至可以同過客戶關懷電話,關心使用者有多喜歡我們的網站,讓他們覺得他們的意見是有價值的。

我們需要收集怎樣的新資料?不同情況的答案各不相同,在這一步,一些網上零售商正采取創造性的方法。線上時尚零售商的zafu展示了如何鼓勵客戶參與這個收集過程。賣名牌牛仔布的網站很多,但對于很多女性來說,高檔牛仔褲的服裝是她們從來沒有在網上買過的,因為不試穿的話難找到合适的。zafu的做法是不讓客戶直接去看衣服,而是用一些簡單的問題作為開始,通過詢問客戶的身型,以及其他牛仔褲的合身情況,和他們的時尚偏好。這些之後,客戶才開始浏覽zafu從庫存挑選出的推薦。資料收集和推薦不再是一個附加功能,他們已經是zafu的整個商業模式 —— 女式牛仔褲既是資料産品。zafu可以把他們的推薦調整得就像是他們的牛仔褲一樣的合身,因為他們的系統問了正确的問題。

設計偉大的資料産品

以目标作為開始迫使資料科學家們開始考慮他們需要為模組化器建立哪些額外的模型。我們可以保留我們已有的“相似”模型,以及針對有推薦和沒有推薦情況下的因果關系模型,然後采取分階段的方式來增加我們認為将改善的營銷效果的額外的模型。我們可以添加一個價格彈性模型來測試提供折扣将如何影響使用者購買商品的機率。我們可以對于客戶對針對性差勁的定向廣告的忍耐力構造一個耐性模型:他們什麼時候做出調整把我們資訊直接過濾成垃圾郵件?(“如果hulu再給我看一次這個狗糧廣告,我就走人了!”)一種購買順序因果關系模型可以用來識别關鍵的“引入性産品”。例如,一個條牛仔褲往往會和某件上衣搭配着買,或是某系列小說的第一部分往往會導緻之後這一系列的整套出售。

有了這些模型後,我們就可以建構了一個模拟器和優化器,在上面運作組合起來的模型,以找出什麼推薦将實作我們的目标:推動銷售和改進客戶體驗。

設計偉大的資料産品

模組化器的構造。

人們很容易陷入這樣的思維誤區:因為資料往往存儲在一些抽象的地方,比如在一個電子表格中或在雲端的資料中,是以資料産品也就是一些抽象的算法。為此,我們希望向你展示基于目标的資料産品是如何已經成為這個有形的世界的一部分的。這些例子最重要的地方是,設計這些資料産品的工程師并不是一開始打造出一個華麗麗的機器人,然後再看看能用它做些什麼。他們開始以這樣的目标:“我想要我的車帶我去不同的地方”,然後設計了一個鮮為人知資料産品來完成這一任務。工程師們經常悄悄地在算法應用上非常地領先,因為他們持久地一直在以基于目标的方法思考自己的模組化中的種種挑戰。首先開始使用神經網絡的就是專業工程師們,把它們應用到例如裝配生産線的優化設計和品質控制上。布賴恩·裡普利(brian ripley's)的有關模式識别的開創性著作為很多從20世紀70年代幾乎被人遺忘的工程檔案赢得了應有的贊譽,它們包含了許多想法和技術。

當設計一個産品或生産過程中,動力傳動系統模型的內建,模拟和優化的過程,是系統工程師 工具包中一個很熟悉的部分。在工程中通常需要把許多的元件模型連接配接在一起,以便可以對它們一起進行模拟、優化。這些企業有充足的經驗,為其最終産品的每一個部件和系統建造模型,無論他們要造的是一個伺服器群或是噴氣式戰鬥機。我們可能會有一個機械系統的詳細模型,一個單獨有關熱系統的一個單獨的模型,還有一個是為電氣系統設計的模型,等等。所有這些系統都互相有着至關重要的作用。例如,在電氣系統的電阻産生的熱量會作為一部分輸入導入熱擴散和冷卻模型。這多餘的熱量會造成機械部件的變形,産生需要輸入機械模型的壓力。

下面的截圖是從由鳳凰內建設計的模型內建工具中截取的。雖然這張圖來自于一個完全不同的工程學科,但是卻和我們推薦的用來建立資料産品的傳動系統方法非常相似。目标很清晰:建立一個飛機機翼。j翼盒的設計包括諸如跨度,錐度比和掠度這些杠杆因素 。資料存在于機翼材料的實體屬性之中;成本被列在了應用程式的另一個頁籤中。此外還有一個關于空氣動力學性能和機械結構的模組化器,它可以被輸入到一個模拟器來産生關鍵翼的輸出,包括成本,重量,升力系數和誘導阻力。這些結果可以用來輸入到一個優化器以建造一個既能正常運作且成本也很劃算的機翼。

設計偉大的資料産品

鳳凰內建設計的模型內建工具的截圖。

預測性模組化和優化在廣泛的活動中變得越來越至關重要,讓我們拭目以待那些能夠擾亂行業的工程師們,雖然這并不會立即出現在資料業務中。“動力傳動系統方法”的靈感, 已經在山景城(mountain view)的路上了,就是很好的例子 。不再是以資料驅動的,我們現在可以讓資料驅動我們。

設想我們想從舊金山去聖克拉拉(santa clara)參加2012年的strata會議 。就此,我們即可建立一個有關距離/限速的簡單模型來預測到達時間,是需要一把尺和路線地圖就可以做了。如果我們希望有一個更精緻的系統,我們可以再建一個交通擠塞情況的模型,然後再來一個預測天氣情況以及天氣對最大安全行駛速度影響的模型。建立這些模型的過程中,你會遇到很多很酷的挑戰,但僅靠它們還不能帶我們到目的地。如今,用一些啟發式的搜尋算法來預測不同路線的駕駛時間是件微不足道的事( 模拟器 ),然後可以在考慮例如“避免過橋費”或者“最大化汽油的效用”等限制因素下選擇最短的一個路徑( 優化器 。但是,為什麼不想得更大一些?不再隻是gps裝置的女機器人聲音告訴我們該走哪條路線,該在哪裡轉彎,如何能造出一輛自己就會做這些決定的汽車?為什麼不把用一個實體引擎把仿真和優化引擎捆綁在一起,統統放入汽車的黑盒子裡?

讓我們想想這又是傳動系統方法的一個怎樣的應用。我們已經定義了我們的目标 :建立一輛能夠自行駕駛的汽車。杠杆因素是我們都很熟悉的車輛的控制部件:方向盤,油門,刹車等。接下來,我們考慮汽車需要收集什麼樣的資料;它需要的傳感器來收集道路資料,還需要攝像頭來檢測道路标志、紅燈或者綠燈,以及意想不到的障礙(包括行人)。我們需要定義我們會用到的模型,例如預測轉向、刹車和加速相應影響的實體模型,以及模式識别算法來把路标轉換成資料 。

正如谷歌自動駕駛汽車項目的一名工程師在最近的一篇“連線”雜志的文章中寫到,”我們每秒鐘要分析和預測世界20次。”這句話中沒有提到的恰恰是這次預測産生的結果。汽車需要使用一個模拟器來檢查它各種可選的行動都會導緻怎樣的結果。如果它現在左轉,會不會撞到行人呢?如果在這種天氣條件下以55英裡每小時的速度右轉,會不會打滑呢?僅僅預測會發生什麼還不夠好。自行駕駛的汽車需要更進一步:在 模拟了所有的可能性後,必須優化模拟結果,挑選出加速、刹車、轉向以及信号燈的最佳組合,進而讓我們安全地抵達聖克拉拉。預測隻告訴我們将要發生事故。優化器會告訴我們如何避免事故發生。

改善的資料收集和預測模型是非常重要的,但我們要強調以定義一個清晰的目标作為開始的重要性,而且目标要配以能夠産生行動項的杠杆因素。資料科學已經開始遍及我們生活中的方方面面。由于科學家和工程師變得更善于預測和優化日常問題,他們正在擴大可能性,去優化從我們個人的健康到我們所處的房子和城市的每一樣東西。用來模拟流體動力和湍流的模型被用于改善交通和行人流量 ,其中的杠杆因素就是出口的設定位置以及控制人群的障礙物。這改善了地鐵站的緊急疏散程式,并降低了在有體育賽事期間發生人群踩踏的危險。nest公司正在設計智能溫控器,它能夠學習房子主人對溫度偏好,然後優化能源消耗。對于汽車交通,ibm和斯德哥爾摩市開展了一個項目來優化交通流量,它把擁塞程度減少了近四分之一,并把城市中心的空氣品質提高了25%。尤為有意思的是,這并沒有必要建立一個新的精心設計的資料采集系統。任何一個在紅綠燈上帶有測量裝置的城市都已經擁有了所有必要的資訊,他們缺少的隻是從中汲取意義的方法。

在另一個領域,基于目标的資料産品有着改變生活的力量。卡内及梅隆大學(cmu)矽谷分校正進行一個項目以打造資料産品去幫助自然或人為災害中的急救人員。卡耐基梅隆大學矽谷分校的jeannie stamberger向我們解釋了許多預測算法在應對災害中的應用,從通過對推特(twitter)的文本挖掘和情緒分析來确定破壞的程度,到成群的用于偵察和救援的自主機器人,再到幫助多個司法管轄區協調他們反應的物流優化工具。這些災難應用是很好的例子來說明為什麼資料産品需要簡單的、設計良好的接口來提出具體的建議。在緊急情況下,一個隻是産生更多的資料的資料産品是沒有多大用處的。科學家們現在有預測工具來建構産品以給大家帶來好處,但他們需要意識到,光建立的模型是不夠的,他們還需要提供出優化過的,可以實作的内容作為結果。

我們介紹了傳動系統的方法以此為設計下一代優異的資料産品提供了一個架構,并描述了這一方法在核心層面上是如何依賴于優化。今後,我們希望看到優化出現在商學院和統計學系的教學中。我們希望看到資料科學家推出的産品在設計時考慮的是用來産生期望的商業成果的。這仍然隻是資料科學的初期階段。我們不知道未來還将發展出什麼樣的設計方法,但目前,資料科學界有必要圍繞着一個共同的詞彙和産品設計過程,以此來教育他人如何從他們的預測模型中獲得價值。如果不這樣的話,我們會發現,我們的模型隻用資料來建立更多的資料,而不是使用資料來建立行動,重塑行業,改變生活。

<b></b>

<b>原文釋出時間為:2013-10-01</b>

<b>本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号</b>

繼續閱讀