天天看點

基于python3-sklearn,Flask 的回歸預測系統序什麼是回歸?#典型業務場景可能要有的功能資料準備自定義資料名額統計Flask頁面展示sklearn 回歸預測參考文獻

看到一副圖檔挺有意思,放在片頭

基于python3-sklearn,Flask 的回歸預測系統序什麼是回歸?#典型業務場景可能要有的功能資料準備自定義資料名額統計Flask頁面展示sklearn 回歸預測參考文獻

“傍晚小街路面上沁出微雨後的濕潤,和煦的西風吹來,擡頭看看天邊的晚霞,嗯明天又是一個好天氣。走到水果攤旁,挑了個根蒂蜷縮、敲起來聲音濁響的青綠西瓜,一邊滿心期待着皮薄肉厚瓤甜的爽落感,一邊愉快地想着,這學期狠下了工夫,基礎概念弄得很清楚,算法作業也是信手拈來,這門課成績一定差不了!”

上面的經驗是靠我們人類自身完成的,計算機能幫忙麼?機器學習正是這樣一門學科,它緻力于研究如何通過計算的手段,利用經驗來改善系統自身的性能。

現在各行各業強調使用大資料手段進行資料分析,大資料的上帝視角帶給我們的核心競争力是對于個體甚至群體行為的預測,那麼我們就來看看使用回歸類算法對于數值型的資料如何來進行預測

優點:結果易于了解,計算上不複雜。

缺點:對非線性的資料拟合不好。

适用資料類型:數值型和标稱型資料。

使用算法:使用回歸,可以在給定輸入的時候預測出一個數值,這是對分類方法的提升,因為這樣可以預測連續型資料而不僅僅是離散的類别标簽

回歸的一般方法:

(1)收集資料:采用任意方法收集資料;

(2)準備資料:回歸需要數值型資料,标稱型資料将被轉換成二值型資料;

(3)分析資料:繪出資料的可視化二維圖,有助于對資料做出了解和分析。在采用縮減法求得新回歸系數後,可以将新拟合線繪在圖上進行對比;

(4)訓練算法:找到回歸系數;

(5)測試算法:使用R2(相關系數的平方)或頂測值和資料的拟合度,來分析模型的效果;

使用算法:使用回歸,可以在給定輸入的時候預測出一個數值,這是對分類方法的提升,因為這樣可以預測出連續型資料而不僅僅是離散型的類别标簽

原理簡介

普通最小二乘法(ordinary least squares)

問題:如何知道sklearn拟合公式的參數結果是多少y=ax+b怎麼知道a,b?

線性回歸(Linear regression)是利用稱為線性回歸方程的最小二乘函數(最小化誤差平方和)對一個或多個自變量和因變量之間關系進行模組化的一種回歸分析。這種函數是一個或多個稱為回歸系數的模型參數的線性組合。隻有一個自變量的情況稱為簡單回歸,大于一個自變量情況的叫做多元回歸。

假設一路公交,在其始發站每小時會來很多人等車,坐車人數會和很多因素相關(天氣,是否節假日)。

為了友善排程人員預測下一個小時,或者當天的坐車人數,可以采用回歸算法制作基于時間的預測系統。

1.出現異常增量時候的預警,異常增量,概念的定義。

2.預測值和真實值的差别

history 表中記錄了所有公交卡曆史記錄

建表語句,從已經采集的資料中建構,主要為兩列

其中人的主要辨別為公交卡(id),我們從公交卡的記錄表history中将每小時坐車的人篩選出來,由于隻要數量,是以隻要group_by之後再 去重再count

基于python3-sklearn,Flask 的回歸預測系統序什麼是回歸?#典型業務場景可能要有的功能資料準備自定義資料名額統計Flask頁面展示sklearn 回歸預測參考文獻

參考代碼

python連結oracle 的簡單架構

計算一段時間的均值,最大,最小等名額

還有一個3js需要下載下傳

整個項目的目錄結果如下圖所示:

在windows上cmd中居然也有tree指令,使用tree /f顯示如下結構:

基于python3-sklearn,Flask 的回歸預測系統序什麼是回歸?#典型業務場景可能要有的功能資料準備自定義資料名額統計Flask頁面展示sklearn 回歸預測參考文獻

頁面html:

使用一天的資料繪制一個二次函數,儲存到本地作為一張圖檔

基于python3-sklearn,Flask 的回歸預測系統序什麼是回歸?#典型業務場景可能要有的功能資料準備自定義資料名額統計Flask頁面展示sklearn 回歸預測參考文獻

但是sklearn怎麼輸出二次函數的參數呢,我一直沒有找到

未完待續,将來将這個小項目共享出來

js檔案下載下傳位址:

1:

<a href="http://ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js" target="_blank">http://ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js</a>

2:2.js

<a href="http://cdnjs.cloudflare.com/ajax/libs/highstock/2.0.4/highstock.js" target="_blank">http://cdnjs.cloudflare.com/ajax/libs/highstock/2.0.4/highstock.js</a>

3:3.js

<a href="http://code.highcharts.com/modules/exporting.js" target="_blank">http://code.highcharts.com/modules/exporting.js</a>

大資料架構下的回歸預測

官方文檔

<a href="http://spark.apache.org/docs/latest/ml-classification-regression.html#regression" target="_blank">http://spark.apache.org/docs/latest/ml-classification-regression.html#regression</a>

中文翻譯

<a href="http://www.apache.wiki/display/Spark/ML+Pipelines" target="_blank">http://www.apache.wiki/display/Spark/ML+Pipelines</a>

python接口:

<a href="http://spark.apache.org/docs/latest/api/python/pyspark.ml.html#module-pyspark.ml.regression" target="_blank">http://spark.apache.org/docs/latest/api/python/pyspark.ml.html#module-pyspark.ml.regression</a>

spark mllib 全面介紹:

<a href="http://www.cnblogs.com/shishanyuan/p/4747761.html" target="_blank">http://www.cnblogs.com/shishanyuan/p/4747761.html</a>

python實作:

<a href="http://www.cnblogs.com/adienhsuan/p/5654481.html" target="_blank">http://www.cnblogs.com/adienhsuan/p/5654481.html</a>

學習筆記:

<a href="http://www.cnblogs.com/charlotte77/p/5518368.html" target="_blank">http://www.cnblogs.com/charlotte77/p/5518368.html</a>

機器學習實戰,第八章

周志華,機器學習