天天看點

一些開源的資料挖掘系統/軟體

 data scientist

orange   

和 python開發,它的圖形庫是由跨平台的qt架構開發。

orange 是一個基于元件的資料挖掘和機器學習軟體套裝,它的功能即友好,又很強大,快速而又多功能的可視化程式設計前端,以便浏覽資料分析和可視化,基綁定了

rapidminer 

檔案記錄,并被rapidminer圖形化的使用者接口表現出來。rapidminer為主要的機器學習過程提供了超過500算子,并且,其結合了學習方案 和weka學習環境的屬性評估器。它是一個獨立的工具可以用來做資料分析,同樣也是一個資料挖掘引擎可以用來內建到你的産品中。(15年使用較多)

rapidminer是世界領先的資料挖掘解決方案,在一個非常大的程度上有着先進技術。它資料挖掘任務涉及範圍廣泛,包括各種資料藝術,能簡化資料挖掘過程的設計和評價。

功能和特點

免費提供資料挖掘技術和庫

100%用java代碼(可運作在作業系統)

資料挖掘過程簡單,強大和直覺

内部xml保證了标準化的格式來表示交換資料挖掘過程 

可以用簡單腳本語言自動進行大規模程序

多層次的資料視圖,確定有效和透明的資料

圖形使用者界面的互動原型

指令行(批處理模式)自動大規模應用

java api(應用程式設計接口)

簡單的插件和推廣機制

強大的可視化引擎,許多尖端的高維資料的可視化模組化 

400多個資料挖掘營運商支援

耶魯大學已成功地應用在許多不同的應用領域,包括文本挖掘,多媒體挖掘,功能設計,資料流挖掘,內建開發的方法和分布式資料挖掘

weka

件或關聯的,在那裡,每個資料點都被許多屬性标注。 weka 使用java的資料庫連結能力可以通路sql資料庫,并可以處理一個資料庫的查詢結果。它主要的使用者接品是explorer,也同樣支援相同功能的指令 行,或是一種基于元件的知識流接口。

weka的全名是懷卡托智能分析環境(waikato environment for knowledge analysis),同時weka也是紐西蘭的一種鳥名,而weka的主要開發者來自紐西蘭。

weka作為一個公開的資料挖掘工作平台,集合了大量能承擔資料挖掘任務的機器學習算法,包括對資料進行預處理,分類,回歸、聚類、關聯規則以及在新的互動式界面上的可視化。

如果想自己實作資料挖掘算法的話,可以看一看weka的接口文檔。在weka中內建自己的算法甚至借鑒它的方法自己實作可視化工具并不是件很困難的事情。

2005年8月,在第11屆acm sigkdd國際會議上,懷卡托大學的weka小組榮獲了資料挖掘和知識探索領域的最高服務獎,weka系統得到了廣泛的認可,被譽為資料挖掘和機器學習 曆史上的裡程碑,是現今最完備的資料挖掘工具之一(已有11年的發展曆史)。weka的每月下載下傳次數已超過萬次。

jhepwork是一套功能完整的面向對象科學資料分析架構。 jython宏是用來展示一維和二維直方圖的資料。該程式包括許多工具,可以用來和二維三維的科學圖形進行互動。

knime

地運作一些或全部的分析步驟,并以後面研究結果,模型 以及 可互動的視圖。 knime 由java寫成,其基于 eclipse 并通過插件的方式來提供更多的功能。通過以插件的檔案,使用者可以為檔案,圖檔,和時間序列加入處理子產品,并可以內建到其它各種各樣的開源項目中,比如:r 語言,weka, chemistry development kit, 和 libsvm.

knime (konstanz information miner) 是一個使用者友好,智能的,并有豐演的開源的資料內建,資料處理,資料分析和資料勘探平台。它給了使用者有能力以可視化的方式建立資料流或資料通道,可選擇性地運作一些或全部的分析步驟,并以後面研究結果,模型