多元統計老師說:“資料挖掘是以統計分析為基礎的,多數在采用統計分析的方法”。我有不同的觀點,就寫點東西出來,大家可以自己評述。
我們過去曾給予資料挖掘方法智能的生命力,把它看作商務智能重要的發展方向。但統計學作為一個學科是否應該關心它的發展。我們是否應該将它看成統計的一部分?那意味作什麼?最起碼它表明我們應該:在我們的雜志上發表這類文章;在我們的大學課程中講授一些這方面的内容,在我們的研究所學生中講授一些相關的研究課題。我們的博士生專業課就有《多元統計》一課;給那些這方面較優秀的人提供一些獎勵(工作,職稱,獎品)。
答案并不明顯,在統計學的曆史上就忽略了許多在其它資料處理相關領域發展的新方法。如下是一些相關領域的例子。其中帶*的是那些在統計科學中萌芽,但随後絕大部分又被統計學忽略的方法領域。
1 模式識别*–cs/工程
2 資料庫管理–cs/圖書館科學
3 神經網絡*–心理學/cs/工程
4 機器學習*-cs/ai
5 圖形模型*(beyes 網)-cs/ai
6 遺傳工程–cs/工程
7 化學統計學*–化學
8 資料可視化**–cs/科學計算
可以肯定地說,個别的統計學家已經緻力于這些領域,但公平地說他們并未被我們的統計學學術圈接納,主流的學術圈并未接納這些,至少我沒有聽到哪個統計學教師鑽研神經網絡。
既然象上面的一些從資料擷取知識的課題和統計學的關系如此冷淡,我們不禁要問:`什麼不是統計學`。如果和資料聯系并不是一個課題成為統計學一部分的充分理由,那麼什麼才是充分的呢?到目前為止,統計學的定義好象依賴于一些工具,也就是我們在目前的研究所學生課程中講授的那些東西。如下是一些例子:
.機率理論
.實分析
.測度論
.漸近理論
.決策理論
.馬耳可夫鍊
.周遊理論
統計領域好象被定義成一族能提出如上或相關工具的問題。當然這些工具過去和将來都會很有用。就象brad efron(brad efron, department of statistics sequoia hall 390 serra mall stanford university stanford)提醒我們一樣:“統計是最成功的資訊科學。那些忽略了統計的人将受到懲罰,他們将在實際中自己重新發現該統計方法。”
有人認為在目前資料(及其相關應用)以指數方式增長,而統計學家的數量顯然趕不上這種增長的情況下,我們統計學應該将精力集中于資訊科學中我們作得最好的部分,也就是基于數學的機率推斷。這是一種高度保守的觀點,當然它也有可能是最好的一種戰略。然而,如果我們接受這一種觀點,我們統計學家在‘資訊革命’浪潮中的作用肯定會逐漸消失殆盡(在這個舞台上的演員越來越少)。當然這種戰略的一個很好的優點是它對我們創新的要求很少,我們隻需要墨守成規就可以了。
另一種觀點,早在1962年就由john tukey[tukey (1962)]提出來了,他認為統計應該關注資料分析。這個領域應該依據問題而不是工具定義,也就是那些和資料有關的問題。如果這種觀點成為一種主流觀點,那就要求對我們的實踐和學術課題作較大的改變。
首先(最重要的),我們應該跟上計算的步伐。哪裡有資料,哪裡就有計算。 一旦我們将計算方法看成是一個基本的統計工具(而不是一種友善地實作我們現成工具的方法),那麼目前許多和資料密切相關的領域将不複存在。他們将成為我們領域的一部分。
認真對待計算工具而不是簡單地使用統計包–雖然這一點也很重要。如果計算成為我們的一個基本的研究工具,毫無疑問,我們的學生應該學習相關的計算科學知識。這将包括數值線性代數,數值群組合優化,資料結構,算法設計,機械體系,程式設計方法,資料庫管理,并行體系,和程式設計等等。我們也将擴充我們的課程計劃,它應該包括目前的計算機 定向資料分析方法,它們大部分是在統計學科之外發展起來的。
如果我們想和其它的資料相關領域争奪學術和商業的市場空間,我們的某些基本模式将不得不改變,我們将不得不調節對數學的幻想。數學(象計算)隻是統計的一個工具,雖然非常重要,但并不是唯一能證明統計方法有效性的工具。數學不等價于理論,反之亦然。理論本來是創造了解力和數學,雖然這很重要,但并不是作此的唯一方法。比如,在疾病的基因理論中數學内容很少,但它卻使人們更好地了解許多醫學現象。我們将承認經驗确認方式,雖然有一定局限性,但的确是一種确認方式。
我們可能也不得不改變我們的文化。每一個參與其它資料相關領域的統計學家都被他們和統計學的‘文化差距’所震撼。在其它的一些領域,‘想法’比數學技術(基礎)更重要。一個有啟發的‘想法’就被認為是有價值的,若有更詳細的确認(理論的或經驗的)人們才去讨論它的最終價值。思維方式是‘如果沒有證明是有罪的,那就是清白的’這和我們領域的思路是不一緻的。過去如果一個新方法不是用數學證明是有效的,我們常常诋毀它,即使不這樣,我們也不會接受它。這種思路在資料集比較小和資訊噪聲比較高時是合理的。特别地,我們應該改變我們诋毀那些表現很好(通常在其它領域),但卻沒被我們了解的方法的習慣。
個人感覺,也許,現在的統計學正處在一個十字路口,我們可以決定是接受還是拒絕改變。如上所說,兩種觀點都極富說服力。雖然觀點豐富,但誰也不能肯定哪一種戰略能保持我們領域的健康發展和生命力。大多數統計學家好象認為統計學對資訊科學的影響越來越小。它們也不太同意為此作些什麼。站主導的觀點認為我們有市場問題,我們在别的領域的顧客和同僚不了解我們的價值和重要性。這也是我們的主要專業組織,美國統計協會的看法。在戰略計劃委員(a mstat news-feb.1997)會所作的五年計劃報告中有一節‘增強我們學科的聲望和健康’,報告中提及“以下的内容意思是:統計學面臨危機,市場的,人才的危機。”統計學可以在資料挖掘科學中發揮作用,統計學應該和資料挖掘合作,而不是将它甩給計算機科學家。
有一部分統計專家認為計算機和他們争搶了市場,這個是表面現象。以我們的課程為例,老師講得很認真,但很多人都沒有統計基礎,這嚴重影響了學生對分析過程和結果的了解。spss、sas等分析軟體已很優秀,但運作出來的結果仍需進行解釋,統計專家的價值也在于此。資料挖掘的可視化比統計分析工具更成功,在目前bi風起雲湧的大背景下,企業資料倉庫發展到一定階段,資料挖掘的市場會越來越大,統計專家們的擔憂正變為現實。資料挖掘是面向最終使用者的,而統計分析的中間轉換環節提高了應用成本。
<b>原文釋出時間為:2013-08-27</b>
<b></b>
<b>本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号</b>