天天看點

業界 | 别跟風了!你的公司根本不需要資料科學家

資料科學家不是魔法師,當所需的資料不可得或者品質很差的時候,資料科學家能做的很有限,這已經超過了技術的範疇。企業管理者如果能從全局出發部署資料戰略,才能真正解決當下資料科學家的痛點,這樣資料科學家才能發揮作用解決公司的痛點。

大約在四年前,資料科學家成為了每個公司的必須雇的人。技術人員争先恐後地甩掉在大學用的統計課本,花大量的時間重新學習Python Pandas和R,然後惡補最時髦的機器學習理論,再買幾件geek制服顯得更像那麼回事。我就是其中一員。

如果你是做Hadoop開發的,這也是你的黃金時代。因為大家已經達成了共識,不會map/reduce得資料科學家不是合格的資料科學家。伴随着資料科學的熱潮,印度的程式員工廠推出了數以千計的Hadoop程式員和資料科學“專家”來迎接未來的“大事件”,一定程度上延長了瀕臨倒閉的Hadoop公司的壽命。

各大公司在第一時間都開始了對資料科學家的投入。每一家在納斯達克指數中占有一席之地的公司都向這些資料科學家支付了巨額薪水,他們認為資料的先知力量會讓他們挫敗競争對手。

而各個銷售經理和高層管理隻要每天早上打開iPad就能實時看到公司具體營運情況。資料儀表圖成為了重要的地位象征,企業高管會獲得具有3D可視化和實時動畫散點圖的超級豪華儀表圖,而基層員工也會看到平面2D儀表盤,雖然沒有那麼花哨,但也會得到必要的資訊和簡要的摘要。

然而,這其實改變不了什麼。那些資料科學家(大部分具有高學曆和多年工作經驗,如在制藥或進階材料工程領域)将會很快意識到他們使用的資料品質其實非常糟糕。

大家普遍認為企業中存在各個環節、部門的各式各樣的資料都是有用的,但是最後他們發現這些資料大部分是過時的,沒有固定格式的,隻能夠為當時需要并收集這些資料的程式員所用。

大部分資料都是以電子表格形式儲存,在沒有監管的情況下多次被修改,是以與真實資料有很大偏差。很多資料集沒有詳盡的文檔記錄,表格的表頭名稱意義不清,比如MFGRTL3QREVPRJ,不同表格之間也沒有一緻的主鍵。換句話說,他們擁有的資料不适合做任何分析,更不要提針對藥物試驗的專業測試分析。

現在你拿着15萬美元的薪水來做可視化儀表圖,給那些根本不懂統計隻想獲得百萬利潤和巨額提成的銷售經理看。你的資料一團糟,根本沒法用。當你請求重建資料庫時,公司陷入了掙紮,這個項目要花上百萬,而他們認為沒有必要。現在你面臨一個選擇,其實你可以撒個謊,用計算機随機産生資料,然後得到一個很可能比目前資料更加準确的結果。但是這對于資料工作者是個難題,因為這違背了他們追求精準的初衷。那該怎麼辦?

現在,我可以裝作一個語義分析傳道者,告訴你需要開發一個語義資料中心。實際上,這不是很難實作,并且是有益處的,但它并不是什麼神奇的魔法。語義資料可以比較容易轉化成可用的資料形式(如果沒有發現有用的資料,也能發現并摒棄掉沒有的部分),但本質上這不是資料科學問題——它是資料品質和本體工程問題。

好了,對于那些高層決策者,當你遇到資料上的問題,你的資料科學家可以有“萬花筒”般的資料分析方法,但是沒有高品質的資料做保證,得到的結果一點用都沒有。巧婦難為無米之炊,這不是資料科學家的問題,是你的問題,你天天盯着那些能給你賺千萬資金的可視化儀表盤,其實是看着你的錢從門前溜走。

在資料分析的項目中盡管你不是實際操作的人,但你的參與絕對不是可有可無,首先你需要明确你想要什麼資訊,然後花時間與資料科學家和業務人員一起确定需要收集什麼資料。不要指望你想要的資料會奇迹般地從資料庫中出現。

再來談談資料庫。資料庫大多是為程式員所用,寫各種應用程式,它存在的首要目的不是為你的公司提供具有洞見的指導性意見。首先你要坐下來好好想想你已經有什麼資源,因為要從别人那裡索要資料資源是非常被動的,特别是當這個資料獲得權涉及到别人的工作和職責範圍的時候。

再者,你要明白大多數資料庫都沒有詳盡的文檔記錄(有的甚至沒有文檔記錄),很多資訊都需要從隐藏文獻中提取。這個過程被稱為推理計算,很多程式員不願意做這個事情,因為這意味着他們需要從代碼去反推其他程式員的意圖,而别的程式員要麼已經離職了,要麼能力有限,要麼已經忘了他們十年前寫的東西。

關系型的資料湖不能解決這個問題,資料湖唯一能夠解決的問題是讓計算機程序能夠通路所有的資料。這是此類推理計算的必要部分,但它不是最難也不是最昂貴的部分。最昂貴的部分是弄清楚資料實際意義是什麼,獲得不同的資料集甚至能夠識别出它們是關于同一件事的。這些問題都沒有現成的解決方案,需要靠摸索。

這裡,我們再次提出語義的解決方案——圖形三重存儲,RDF,本體管理,查詢和所有内容。它不是一個開箱即用的解決方案,但它是一種工具,可以使推理分析變得可行,并且可以把這個工具交給程式員來管理。

不過,你需要經常對整個資料流的過程進行重新思考。你需要知道最開始從哪裡獲得資訊,然後讓資訊盡早流入資料通道。這需要你的程式員和資料庫管理者放棄一定程度的自主權,在一個集中化的環境中工作。作為執行人的你,應該更加熟悉資料治理的世界。

對于商業人士來說,這是一個相當激進的改變,不止一些人意識到他們要實際動手去解決IT問題。不過,如今的企業正在進行轉變(并且大部分已經成功轉型),成為專業的資料管理公司,産品和服務更像是它們的副産品。

現今CEO的角色是在管理銷售的同時了解公司資料的輸入與輸出,確定他們的資料品質是最好的。這不僅是為了合理的監管,更因為資料的完整最終會決定他們是否能夠在市場競争中脫穎而出。

企業上司者要多與資料團隊協作交流,來确定你需要知道什麼,想要知道什麼,什麼東西是相關的,然後再來建構和你商業需求相關的資料收集過程。随意從資料庫裡提取一些資訊來分析,隻是徒增磁盤儲存的成本而已,雇傭資料科學家來分析垃圾資料隻能得到垃圾的分析結果。結果呈現可能很漂亮,各種漸變梯度各種三維效果,然而卻毫無價值。

原文釋出時間為:2018-08-05

本文來自雲栖社群合作夥伴“

大資料文摘

”,了解相關資訊可以關注“大資料文摘”。