以往的經驗告訴我們,充分發揮擴充優勢會帶來更大的分析價值。但是大資料[注]并不是一把萬能的錘子,而每一個問題也不是一個靠錘子就可以解決的釘子。
許多人認為大資料意味着越大越好。人們也常常從各種哲學視角來诠釋“越大越好”這一問題。對此我将這些角度歸納為:
信仰:是指容量更大、速度更快和種類更豐富的資料總會帶來更多洞察力,而這正是大資料分析的核心價值。如果我們無法發現這些洞察力,那是由于我們沒有充分認真地嘗試,或是我們的靈活程度還不夠,或者是我們沒有使用正确的工具和解決方案。
偶像:是指資料的龐大容量本身就是有其價值的,與我們是否能夠從中獲得特殊的洞察力無關。如果我們僅憑其所支援的特定商業應用來評估它們的效用,那麼在這方面,我們是與資料科學家們目前的需求是不一緻的,資料科學家們的需求是将資料不加分别地存儲到資料湖中,以支援今後的探索工作。
負擔:是指資料的龐大容量未必是好事或壞事,但是一個無法改變的事實是,它們會對現有資料庫的存儲和處理能力帶來極大的壓力,并是以讓(hadoop等)新平台成為必需品。如果我們不能跟上這些新資料增長的步伐,那麼核心的業務需求将被迫轉向新型資料庫。
機遇:在我看來,這是一個處理大資料的正确解決方案。随着資料規模上升至新的層次,流動的速度更快,資料的來源和格式不斷增長,這一解決方案将重點放在了更為高效地擷取前所未有的洞察力方面。它沒将大資料作為一種信仰或偶像,因為它知道即便較小的資料規模也能夠持續獲得許多不同的洞察力。它也沒有将資料的規模視為一種負擔,而是視為一種挑戰,這種挑戰能夠通過新的資料庫平台、工具和實踐加以有效應對。
2013年,我在部落格中曾就大資料的核心使用案例展開過讨論,但當時隻涉及到如上方程式中的“機遇”部分。晚些時候,我發現大資料中“大”這一核心價值源自于能否用增加的内容揭示出所增加的背景環境。在你分析資料以探查其完整意義時,背景環境自然是越多越好。同樣的,當你嘗試着在自己的問題範疇中識别出所有的變量、關系、模式以找到更好的解決方案時,内容也是越多越好。總之,越來越多的内容加上越來越多的背景環境,通常會導緻資料也變得越來越多。
大資料的另一個價值在于,它們能夠糾正那些小規模資料所産生的錯誤。曾經有觀察過該問題的人說過,對于資料科學家而言,在訓練集中資料偏少意味着他們更容易受到多個模型風險的影響。首先,資料規模偏小可能會導緻使用者忽視關鍵的預測性變量。同時,使用者選擇沒有代表性的樣本導緻模型出現偏差的幾率變大。此外,使用者可能會找到一些虛假關系,如果使用者擁有能夠揭示實際發揮作用的基本關系的完整資料,那麼他們就能夠識别出這些虛假關系。
規模非常重要
所有的人都認為,一些資料類型和使用案例比能夠帶來新洞察力的資料更有幫助。
我近期偶然看到了一篇名為《大資料的預測模式:越大就越好嗎?》文章,文章對資料的一個特定範疇——稀少的細分行為資料進行了詳細闡述。在這方面,資料規模通常能夠提升預測成績。文章的作者junqué de fortuny、martens和provost稱:“這類資料集的一個重要問題是它們通常都比較稀少。對于任何給定的執行個體,絕大多數特征都沒有價值,或是價值沒有表現出來。”
最值得關注的是(作者通過引述豐富的研究來支援他們的論點)(+微信關注網絡世界),這類資料是許多以客戶分析為重點的大資料應用的核心。社交媒體行為資料、web浏覽行為資料、移動行為資料、廣告反應行為資料、自然語言行為資料都屬于這類資料。
作者認為,“實際上,對于大多數預測分析型的商業應用,例如金融業和電信業的定向市場營銷、信用評分、損耗管理等應用,用于預測分析的資料都非常相似。這些産品的特點都集中于個人的背景特征、地域特征和心理特征,以及諸如優先購買行為等一些通過統計總結出來的特定行為。”
“更大的行為資料集往往會更好”的關鍵原因非常簡單,作者認為“沒有大量的資料,一些顯著的行為可能就無法被有效地觀察到。”這是因為在零散的資料集中,行為被記錄的人可能隻會展示次數有限的行為。但是當你放眼整個人群時,每一種特定類型的行為你可能會觀察到至少一次,或者在特定的環境中觀察到多次。如果資料偏少,那麼所觀察的目标和觀察到的行為特征也就會偏少,這将導緻你會忽略許多東西。
預測模型所依靠的正是源行為資料集的豐富性。為了在未來的更多場景中預測更為精準,資料規模通常是越大越好。
當越大等同于越模糊時
盡管如此,該文的作者也提到了一些場景。在這些場景中,越大越好的假設不成立,那麼我們就不得不使用特定行為特征的預測價值。這時候,權衡取舍就成為了預測行為模型的基礎。
預測模式中每一個增加的行為特征,應該與所做的預測充分地聯系起來,以提升模型的學習收益和預測能力,克服不斷拉大的差異,即過度拟合和預測錯誤,因為這通常會産生更大的特征集。正如該文章作者所說的那樣,“大量不相關的特征隻是增加了差異和過拟合的機率,而沒有相應地提升學習到更好模型的機率。”
顯然當“大”妨礙到了擷取預測性洞察力時,越大并非越好。使用者不希望自己的大資料分析努力成為資料規模擴張的犧牲品。資料科學家也必須充分了解應該何時調整資料模型的大小,以适應手中的分析任務。
原文釋出時間為:2014年12月26日
本文作者:ibm大資料專家
本文來自雲栖社群合作夥伴至頂網,了解相關資訊可以關注至頂網。