看到一副图片挺有意思,放在片头

“傍晚小街路面上沁出微雨后的湿润,和煦的西风吹来,抬头看看天边的晚霞,嗯明天又是一个好天气。走到水果摊旁,挑了个根蒂蜷缩、敲起来声音浊响的青绿西瓜,一边满心期待着皮薄肉厚瓤甜的爽落感,一边愉快地想着,这学期狠下了工夫,基础概念弄得很清楚,算法作业也是信手拈来,这门课成绩一定差不了!”
上面的经验是靠我们人类自身完成的,计算机能帮忙么?机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
现在各行各业强调使用大数据手段进行数据分析,大数据的上帝视角带给我们的核心竞争力是对于个体甚至群体行为的预测,那么我们就来看看使用回归类算法对于数值型的数据如何来进行预测
优点:结果易于理解,计算上不复杂。
缺点:对非线性的数据拟合不好。
适用数据类型:数值型和标称型数据。
使用算法:使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签
回归的一般方法:
(1)收集数据:采用任意方法收集数据;
(2)准备数据:回归需要数值型数据,标称型数据将被转换成二值型数据;
(3)分析数据:绘出数据的可视化二维图,有助于对数据做出理解和分析。在采用缩减法求得新回归系数后,可以将新拟合线绘在图上进行对比;
(4)训练算法:找到回归系数;
(5)测试算法:使用R2(相关系数的平方)或顶测值和数据的拟合度,来分析模型的效果;
使用算法:使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测出连续型数据而不仅仅是离散型的类别标签
原理简介
普通最小二乘法(ordinary least squares)
问题:如何知道sklearn拟合公式的参数结果是多少y=ax+b怎么知道a,b?
线性回归(Linear regression)是利用称为线性回归方程的最小二乘函数(最小化误差平方和)对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。
假设一路公交,在其始发站每小时会来很多人等车,坐车人数会和很多因素相关(天气,是否节假日)。
为了方便调度人员预测下一个小时,或者当天的坐车人数,可以采用回归算法制作基于时间的预测系统。
1.出现异常增量时候的预警,异常增量,概念的定义。
2.预测值和真实值的差别
history 表中记录了所有公交卡历史记录
建表语句,从已经采集的数据中构建,主要为两列
其中人的主要标识为公交卡(id),我们从公交卡的记录表history中将每小时坐车的人筛选出来,由于只要数量,所以只要group_by之后再 去重再count
参考代码
python链接oracle 的简单框架
计算一段时间的均值,最大,最小等指标
还有一个3js需要下载
整个项目的目录结果如下图所示:
在windows上cmd中居然也有tree命令,使用tree /f显示如下结构:
页面html:
使用一天的数据绘制一个二次函数,保存到本地作为一张图片
但是sklearn怎么输出二次函数的参数呢,我一直没有找到
未完待续,将来将这个小项目共享出来
js文件下载地址:
1:
<a href="http://ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js" target="_blank">http://ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js</a>
2:2.js
<a href="http://cdnjs.cloudflare.com/ajax/libs/highstock/2.0.4/highstock.js" target="_blank">http://cdnjs.cloudflare.com/ajax/libs/highstock/2.0.4/highstock.js</a>
3:3.js
<a href="http://code.highcharts.com/modules/exporting.js" target="_blank">http://code.highcharts.com/modules/exporting.js</a>
大数据框架下的回归预测
官方文档
<a href="http://spark.apache.org/docs/latest/ml-classification-regression.html#regression" target="_blank">http://spark.apache.org/docs/latest/ml-classification-regression.html#regression</a>
中文翻译
<a href="http://www.apache.wiki/display/Spark/ML+Pipelines" target="_blank">http://www.apache.wiki/display/Spark/ML+Pipelines</a>
python接口:
<a href="http://spark.apache.org/docs/latest/api/python/pyspark.ml.html#module-pyspark.ml.regression" target="_blank">http://spark.apache.org/docs/latest/api/python/pyspark.ml.html#module-pyspark.ml.regression</a>
spark mllib 全面介绍:
<a href="http://www.cnblogs.com/shishanyuan/p/4747761.html" target="_blank">http://www.cnblogs.com/shishanyuan/p/4747761.html</a>
python实现:
<a href="http://www.cnblogs.com/adienhsuan/p/5654481.html" target="_blank">http://www.cnblogs.com/adienhsuan/p/5654481.html</a>
学习笔记:
<a href="http://www.cnblogs.com/charlotte77/p/5518368.html" target="_blank">http://www.cnblogs.com/charlotte77/p/5518368.html</a>
机器学习实战,第八章
周志华,机器学习