高斯牛顿迭代法

转载：http://www.tqcto.com/article/code/302336.html#

本文将详解最小二乘法的非线性拟合，高斯牛顿迭代法。

1.原理

高斯—牛顿迭代法的基本思想是使用泰勒级数展开式去近似地代替非线性回归模型，然后通过多次迭代，多次修正回归系数，使回归系数不断逼近非线性回归模型的最佳回归系数，最后使原模型的残差平方和达到最小。

①已知m个点：

高斯牛顿迭代法

②函数原型：

高斯牛顿迭代法

其中：（m>=n）

高斯牛顿迭代法

③目的是找到最优解β，使得残差平方和最小：

高斯牛顿迭代法

残差：

高斯牛顿迭代法

④要求最小值，即S的对β偏导数等于0：

高斯牛顿迭代法

⑤在非线性系统中，

高斯牛顿迭代法

是变量和参数的函数，没有close解。因此，我们给定一个初始值，用迭代法逼近解：

高斯牛顿迭代法

其中k是迭代次数，

高斯牛顿迭代法

是迭代矢量。

⑥而每次迭代函数是线性的，在

高斯牛顿迭代法

处用泰勒级数展开：

高斯牛顿迭代法

其中：J是已知的矩阵，为了方便迭代，令

高斯牛顿迭代法

。

⑦此时残差表示为：

高斯牛顿迭代法

⑧带入公式④有：

高斯牛顿迭代法

化解得：

高斯牛顿迭代法

⑨写成矩阵形式：

高斯牛顿迭代法

⑩所以最终迭代公式为：

高斯牛顿迭代法

其中，Jf是函数f=（x，β）对β的雅可比矩阵。

2.代码

用java代码实现，解维基百科的例子：

https://en.wikipedia.org/wiki/Gauss%E2%80%93Newton_algorithm

①已知数据：

高斯牛顿迭代法

②函数模型：

高斯牛顿迭代法

③残差公式：

高斯牛顿迭代法

④对β求偏导数：

高斯牛顿迭代法

⑤代码如下：

public class GaussNewton {
    double[] xData = new double[]{, , , , , , };
    double[] yData = new double[]{, , , , , , };

    double[][] bMatrix = new double[][];//系数β矩阵
    int m = xData.length;
    int n = bMatrix.length;
    int iterations = ;//迭代次数

    //迭代公式求解，即1中公式⑩
    private void magic(){
        //β1,β2迭代初值
        bMatrix[][] = ;
        bMatrix[][] = ;

        //求J矩阵
        for(int k = ; k < iterations; k++) { 
            double[][] J = new double[m][n];
            double[][] JT = new double[n][m];
            for(int i = ; i < m; i++){
                for(int j = ; j < n; j++) {
                    J[i][j] = secondDerivative(xData[i], bMatrix[][], bMatrix[][], j);
                }
            }

            JT = MatrixMath.invert(J);//求转置矩阵JT
            double[][] invertedPart = MatrixMath.mult(JT, J);//矩阵JT与J相乘

            //矩阵invertedPart行列式的值：|JT*J|
            double result = MatrixMath.mathDeterminantCalculation(invertedPart);

            //求矩阵invertedPart的逆矩阵:(JT*J)^-1
            double[][] reversedPart = MatrixMath.getInverseMatrix(invertedPart, result);

            //求方差r(β)矩阵: ri = yi - f(xi, b)
            double[][] residuals = new double[m][];
            for(int i = ; i < m; i++) {
                residuals[i][] = yData[i] - (bMatrix[][] * xData[i]) / (bMatrix[][] + xData[i]);
            }

            //求矩阵积reversedPart*JT*residuals: (JT*J)^-1*JT*r
            double[][] product = MatrixMath.mult(MatrixMath.mult(reversedPart, JT), residuals);

            //迭代公式, 即公式⑩
            double[][] newB = MatrixMath.plus(bMatrix, product);
            bMatrix = newB;        
        }        
        //显示系数值
        System.out.println("b1: " + bMatrix[][] + "\nb2: " + bMatrix[][]);        
    }

    //2中公式④
    private static double secondDerivative(double x, double b1, double b2, int index){
        switch(index) {
            case : return x / (b2 + x);//对系数bi求导
            case : return - * (b1 * x) / Math.pow((b2+x), );//对系数b2求导
        }
        return ;
    }

    public static void main(String[] args) {
        GaussNewton app = new GaussNewton();
        app.magic();        
    }
}

运行，输出得到：

b1: 0.3618366954234483

b2: 0.5562654497238557

高斯牛顿迭代法

⑥其中用到的矩阵运算代码如下：

public class MatrixMath {

    /**
     * 矩阵基本运算：加、减、乘、除、转置
     */
        public final static int OPERATION_ADD = ;  
        public final static int OPERATION_SUB = ;  
        public final static int OPERATION_MUL = ;        

        /**
         * 矩阵加法
         * @param a 加数
         * @param b 被加数
         * @return 和
         */
        public static double[][] plus(double[][] a, double[][] b){
            if(legalOperation(a, b, OPERATION_ADD)) { 
                for(int i=; i<a.length; i++) {         
                    for(int j=; j<a[].length; j++) {  
                        a[i][j] = a[i][j] + b[i][j];  
                    }
                }   
            }
            return a;
        }

        /**
         * 矩阵减法
         * @param a 减数
         * @param b 被减数
         * @return 差
         */
        public static double[][] substract(double[][] a, double[][] b){
            if(legalOperation(a, b, OPERATION_SUB)) { 
                for(int i=; i<a.length; i++) {  
                    for(int j=; j<a[].length; j++) {  
                        a[i][j] = a[i][j] - b[i][j];  
                    }
                }       
            }
            return a;
        }       

        /**
         * 判断矩阵行列是否符合运算
         * @param a 进行运算的矩阵
         * @param b 进行运算的矩阵
         * @param type 运算类型
         * @return 符合/不符合运算
         */
        private static boolean legalOperation(double[][] a, double[][] b, int type) {  
            boolean legal = true;  
            if(type == OPERATION_ADD || type == OPERATION_SUB)  
            {  
                if(a.length != b.length || a[].length != b[].length) {  
                    legal = false;  
                }  
            }   
            else if(type == OPERATION_MUL)  
            {  
                if(a[].length != b.length) {  
                    legal = false;  
                }  
            }  
            return legal;  
        } 

        /**
         * 矩阵乘法
         * @param a 乘数
         * @param b 被乘数
         * @return 积
         */
        public static double[][] mult(double[][] a, double[][] b){
            if(legalOperation(a, b, OPERATION_MUL)) {
                double[][] result = new double[a.length][b[].length];
                for(int i=; i< a.length; i++) {  
                    for(int j=; j< b[].length; j++) {  
                        result[i][j] = calculateSingleResult(a, b, i, j);  
                    }
                }
                return result;
            }
            else
            {
                return null;
            }       
        }

        /**
         * 矩阵乘法
         * @param a 乘数
         * @param b 被乘数
         * @return 积
         */
        public static double[][] mult(double[][] a, int b) {  
            for(int i=; i<a.length; i++) {  
                for(int j=; j<a[].length; j++) {  
                    a[i][j] = a[i][j] * b;  
                }  
            }  
            return a;  
        }

        /**
         * 乘数矩阵的行元素与被乘数矩阵列元素积的和
         * @param a 乘数矩阵
         * @param b 被乘数矩阵
         * @param row 行
         * @param column 列
         * @return 值
         */
        private static double calculateSingleResult(double[][] a, double[][] b, int row, int column) {  
            double result = ;  
            for(int k = ; k< a[].length; k++) {  
                result += a[row][k] * b[k][column];  
            }  
            return result;  
        }  

        /**
         * 矩阵的转置
         * @param a 要转置的矩阵
         * @return 转置后的矩阵
         */
        public static double[][] invert(double[][] a){
            double[][] result = new double[a[].length][a.length];
            for(int i=;i<a.length;i++){
                for(int j=;j<a[].length;j++){  
                      result[j][i]=a[i][j];  
                  }  
              }  
            return result;
        }   

    /** 
     * 求可逆矩阵（使用代数余子式的形式） 
     */   
        /** 
         * 求传入的矩阵的逆矩阵 
         * @param value 需要转换的矩阵 
         * @return 逆矩阵 
         */  
        public static double[][] getInverseMatrix(double[][] value,double result){  
            double[][] transferMatrix = new double[value.length][value[].length];  
            //计算代数余子式，并赋值给|A|  
            for (int i = ; i < value.length; i++) {  
                for (int j = ; j < value[i].length; j++) {  
                    transferMatrix[j][i] =  mathDeterminantCalculation(getNewMatrix(i, j, value));  
                    if ((i+j)%!=) {  
                        transferMatrix[j][i] = -transferMatrix[j][i];  
                    }  
                    transferMatrix[j][i] /= result;   
                }  
            }  
            return transferMatrix;  
        }  

        /*** 
         * 求行列式的值
         * @param value 需要算的行列式 
         * @return 计算的结果 
         */  
        public static double mathDeterminantCalculation(double[][] value){  
            if (value.length == ) {  
                //当行列式为1阶的时候就直接返回本身  
                return value[][];  
            }

            if (value.length == ) {  
                //如果行列式为二阶的时候直接进行计算  
                return value[][]*value[][]-value[][]*value[][];  
            }  

            //当行列式的阶数大于2时  
            double result = ;  
            for (int i = ; i < value.length; i++) {         
                //检查数组对角线位置的数值是否是0，如果是零则对该数组进行调换，查找到一行不为0的进行调换  
                if (value[i][i] == ) {  
                    value = changeDeterminantNoZero(value,i,i);  
                    result*=-;  
                }  

                for (int j = ; j <i; j++) {  
                    //让开始处理的行的首位为0处理为三角形式  
                    //如果要处理的列为0则和自己调换一下位置，这样就省去了计算  
                    if (value[i][j] == ) {  
                        continue;  
                    }  
                    //如果要是要处理的行是0则和上面的一行进行调换  
                    if (value[j][j]==) {  
                        double[] temp = value[i];  
                        value[i] = value[i-];  
                        value[i-] = temp;  
                        result*=-;  
                        continue;  
                    }  
                    double  ratio = -(value[i][j]/value[j][j]);  
                    value[i] = addValue(value[i],value[j],ratio);  
                }  
            }           
            return mathValue(value,result);
        }  

        /** 
         * 计算行列式的结果 
         * @param value 
         * @return 
         */  
        private static double mathValue(double[][] value,double result){  
            for (int i = ; i < value.length; i++) {  
                //如果对角线上有一个值为0则全部为0，直接返回结果  
                if (value[i][i]==) {  
                    return ;  
                }  
                result *= value[i][i];  
            }  
            return result;  
        }  

        /*** 
         * 将i行之前的每一行乘以一个系数，使得从i行的第i列之前的数字置换为0 
         * @param currentRow 当前要处理的行 
         * @param frontRow i行之前的遍历的行 
         * @param ratio 要乘以的系数 
         * @return 将i行i列之前数字置换为0后的新的行 
         */  
        private static double[] addValue(double[] currentRow,double[] frontRow, double ratio){  
            for (int i = ; i < currentRow.length; i++) {  
                currentRow[i] += frontRow[i]*ratio;  
            }  
            return currentRow;  
        }  

        /** 
         * 指定列的位置是否为0，查找第一个不为0的位置的行进行位置调换，如果没有则返回原来的值 
         * @param determinant 需要处理的行列式 
         * @param line 要调换的行 
         * @param row 要判断的列 
         */  
        private static double[][] changeDeterminantNoZero(double[][] determinant,int line,int column){  
            for (int i = line; i < determinant.length; i++) {  
                //进行行调换  
                if (determinant[i][column] != ) {  
                    double[] temp = determinant[line];  
                    determinant[line] = determinant[i];  
                    determinant[i] = temp;  
                    return determinant;  
                }  
            }  
            return determinant;  
        }         

        /** 
         * 转换为代数余子式 
         * @param row 行 
         * @param line 列 
         * @param matrix 要转换的矩阵 
         * @return 转换的代数余子式 
         */  
        private static double[][] getNewMatrix(int row,int line,double[][] matrix){  
            double[][] newMatrix = new double[matrix.length-][matrix[].length-];  
            int rowNum = ,lineNum = ;  
            for (int i = ; i < matrix.length; i++) {  
                if (i == row){  
                    continue;  
                }  
                for (int j = ; j < matrix[i].length; j++) {  
                    if (j == line) {  
                        continue;  
                    }  
                    newMatrix[rowNum][lineNum++%(matrix[].length-)] = matrix[i][j];  
                }  
                rowNum++;  
            }  
            return newMatrix;  
        }  

        public static void main(String[] args) {  
            //double[][] test = {{0,0,0,1,2},{0,0,0,2,3},{1,1,0,0,0},{0,1,1,0,0},{0,0,1,0,0}};  
            double[][] test = {
                    {, -},  
                    {-, }
                };
            double result;  
            try {  
                double[][] temp = new double[test.length][test[].length];  
                for (int i = ; i < test.length; i++) {  
                    for (int j = ; j < test[i].length; j++) {  
                        temp[i][j] = test[i][j];  
                    }  
                }  
                //先计算矩阵的行列式的值是否等于0，如果不等于0则该矩阵是可逆的  
                result = mathDeterminantCalculation(temp);  
                if (result == ) {  
                    System.out.println("矩阵不可逆");  
                }else {  
                    System.out.println("矩阵可逆");  
                    //求出逆矩阵  
                    double[][] result11 = getInverseMatrix(test,result);  
                    //打印逆矩阵  
                    for (int i = ; i < result11.length; i++) {  
                        for (int j = ; j < result11[i].length; j++) {  
                            System.out.print(result11[i][j]+"   ");                       
                        }  
                        System.out.println();  
                    }  
                }  
            } catch (Exception e) {  
                e.printStackTrace();  
                System.out.println("不是正确的行列式！！");  
            }  
        }   
}

高斯牛顿迭代法

继续阅读

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

【分类算法】什么是分类算法定义分类与聚类分类过程方法

分类算法的评价指标

K-近邻算法以及图像分类应用

weka之NB算法

使用weka的select attribute

weka中分类器算法

在weka中集成自己的算法

【多变量线性回归】学习记录序思路实现终

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告