一.分析所采用資料的來源有哪些?
1.國家相關部門統計資訊主要包括央行、銀監會、證監會、國家統計局、政府網、網際網路絡資訊中心釋出的資料統計資訊(如通過統計局釋出的資料得知春運的客流人數)
2.第三方機構統計資料,主要包括天貓大資料、搜數網、統計網、資料堂、淘寶指數、百度指數、艾瑞咨詢、知網資料、萬方資料等第三方機構釋出的資料統計資訊或研究報告。(如春節大資料:消費首破萬億 最佳伴手禮竟是教輔書?中的資料擷取)
二.大資料的呈現方式有哪些?
1.面積&尺寸可視化對同一類圖形(例如柱狀、圓環和蜘蛛圖等)的長度、高度或面積加以差別,來清晰的表達不同名額對應的名額值之間的對比。
如春節人口遷徙大資料報告!中

2.
地域空間可視化當名額資料要表達的主題跟地域有關聯時,我們一般會選擇用地圖為大背景。 這樣使用者可以直覺的了解整體的資料情況,同時也可以根據地理位置快速的定位到某一地區來檢視詳細資料
如
3.顔色可視化
通過顔色的深淺來表達名額值的強弱和大小,是資料可視化設計的常用方法,使用者一眼看上去便可整體的看出哪一部分名額的資料值更突出。
4.概念可視化通過将抽象的名額資料轉換成我們熟悉的容易感覺的資料時,使用者便更容易了解圖形要表達的意義。
5.圖形可視化在我們設計名額及資料時,使用有對應實際含義的圖形來結合呈現,會使資料圖表更加生動的被展現,更便于使用者了解圖表要表達的主題。
三.大資料的特點是什麼?對思維方式有何影響?
1.大量化
大資料的特征首先就展現為“大”,從先Map3時代,一個小小的MB級别的Map3就可以滿足很多人的需求,然而随着時間的推移,存儲機關從過去的GB到TB,乃至現在的PB、EB級别。随着資訊技術的高速發展,資料開始爆發性增長。社交網絡(微網誌、推特、臉書)、移動網絡、各種智能工具,服務工具等,都成為資料的來源。淘寶網近4億的會員每天産生的商品交易資料約20TB;臉書約10億的使用者每天産生的日志資料超過300TB。迫切需要智能的算法、強大的資料處理平台和新的資料處理技術,來統計、分析、預測和實時處理如此大規模的資料。
2.快速化
廣泛的資料來源,決定了大資料形式的多樣性。任何形式的資料都可以産生作用,目前應用最廣泛的就是推薦系統,如淘寶,網易雲音樂、今日頭條等,這些平台都會通過對使用者的日志資料進行分析,進而進一步推薦使用者喜歡的東西。日志資料是結構化明顯的資料,還有一些資料結構化不明顯,例如圖檔、音頻、視訊等,這些資料因果關系弱,就需要人工對其進行标注。
3.多樣化
大資料的産生非常迅速,主要通過網際網路傳輸。生活中每個人都離不開網際網路,也就是說每天個人每天都在向大資料提供大量的資料。并且這些資料是需要及時處理的,因為花費大量資本去存儲作用較小的曆史資料是非常不劃算的,對于一個平台而言,也許儲存的資料隻有過去幾天或者一個月之内,再遠的資料就要及時清理,不然代價太大。基于這種情況,大資料對處理速度有非常嚴格的要求,伺服器中大量的資源都用于處理和計算資料,很多平台都需要做到實時分析。資料無時無刻不在産生,誰的速度更快,誰就有優勢。
4.價值化
這也是大資料的核心特征。現實世界所産生的資料中,有價值的資料所占比例很小。相比于傳統的小資料,大資料最大的價值在于通過從大量不相關的各種類型的資料中,挖掘出對未來趨勢與模式預測分析有價值的資料,并通過機器學習方法、人工智能方法或資料挖掘方法深度分析,發現新規律和新知識,并運用于農業、金融、醫療等各個領域,進而最終達到改善社會治理、提高生産效率、推進科學研究的效果。
思維方式的變化
《大資料時代》作者舍恩伯格認為,大資料時代,人們的思維方式會發生如下三個變化:第一,人們處理的資料從樣本資料變成全部資料;第二,由于是全樣本資料,人們不得不接受資料的混雜性,而放棄對精确性的追求;第三,人類通過對大資料的處理,放棄對因果關系的渴求,轉而關注相關關系。
這樣我想起同樣出自舍恩伯格的理論:“執迷于精确性是資訊缺乏時代和模拟時代的産物。隻有5%的資料是結構化且能适用于傳統資料庫的。如果不接受混亂,剩下95%的非結構化資料都無法利用,隻有接受不精确性,我們才能打開一扇從未涉足的世界的窗戶”。就像流浪地球中MOSS所說
讓人類永遠保持理智,确實是一種奢求
星巴克的選址是基于大資料分析而形成的一套獨特的選址系統而決定的,效用相當明顯。但是很多伴随着星巴克的店,該旺還是旺,該倒還是倒。在西方混沌學看來經濟系統由千百萬計的個體群組織(大資料)的互相作用所決定,而每一個個體群組織又涉及到數以千計的商品和數以萬計的生産過程,是以,個體行為并非是一種孤立的存在,僅僅完備地認識個體的行為并不能使我們掌握整個經濟系統的演化狀态。
當然,這并不代表我們排斥大資料的重要價值,以及它的模型化運用,但是我們要充分重視商業世界的複雜性和随機性,破除單靠大資料得天下的迷思,也就是避免線性、簡單、實體的純計算機式思維方式,重視不可計量的、感性的、本質的、價值判斷的人腦思維方式,并在這二者間尋找到較佳的融合方式。
簡單的輸入輸出程式設計練習
源代碼如下
a = input('請輸入一個名字:')
b = input('請輸入另一個名字:')
c = input('再輸入一個名字:')
print('拿雷射筆射{}的兇手找到了,微網誌名是{},本名{}'.format(a,b,c))
輸出結果如下: