在大資料時代,一般都是通過什麼方法收集、分析和可視化資料的?
作為非平台營運商有沒有辦法收集到資料呢?假設說新浪微網誌每天有一億條更新的微網誌,那麼這些資料是不是隻有新浪才能收集,第三方是沒法收集的呢?
如果收集到了資料,一般是通過什麼分析軟體來分析呢?然後最後可視化輸出又是通過什麼軟體呢?
資料是平台營運商的重要資産,可能提供API接口允許第三方有限度地使用,但是顯然是為了增強自身的業務,與此目的抵觸的行為都會受到限制。
收集資料主要是通過計算機和網絡。凡是經過計算機處理的資料都很容易收集,比如浏覽器裡的搜尋、點選、網上購物、……其他資料(比如氣溫、海水鹽度、地震波)可以通過傳感器轉化成數字信号輸入計算機。收集到的資料一般要先經過整理,常用的軟體:Tableau和Impure是功能比較全面的,Refine和Wrangler是比較純粹的資料整理工具,Weka用于資料挖掘。
Hadoop是一個能夠對大量資料進行分布式處理的軟體架構。用于統計分析的R語言有個擴充R + Hadoop,可以在Hadoop叢集上運作R代碼。
還有很多可以用來在網頁上實作可視化輸出的架構或者控件。
大緻基于四種技術:Flash(Flex)或者JS(HTML5)或者Java或者ASP.NET(Silverlight)
1.Flash的有Degrafa、BirdEye、Axiis、Open Flash Chart
2.JS的有Ajax.org、Sencha Ext JS、Filament、jQchart、Flot、Sparklines、gRaphael、TufteGraph、Exhibit、PlotKit、ExplorerCanvas、MilkChart、Google Chart API、Protovis
3.ASP.NET的有Telerik Charts、Visifire、Dundas Chart
4.Java的有Choosel、google-visualization-java、GWT Chronoscope、JFreeChart
Java中比較常用的圖表繪制類庫是JFreeChart,它完全使用Java語言編寫,是為applications, applets, servlets 以及JSP等使用所設計。JFreeChart可生成餅圖(pie charts)、柱狀圖(bar charts)、散點圖(scatter plots)、時序圖(time series)、甘特圖(Gantt charts)等等多種圖表,并且可以産生PNG和JPEG格式的輸出,還可以與PDF和EXCEL關聯。
大資料時代,為什麼很多JAVA程式員轉型做JAVA大資料