天天看點

R語言GLM包相關問題 PHP數組定義及比較 git pull 2016.08.04回顧

1、上午排查了風控系統的問題,重新計算金額和重跑模型需要整合!前端已經限制多次點選重跑模型按鈕!模型的SQL同時跑有可能會出現,找不到某個表的錯誤,因為調用表的時候,表可能被另外正在跑的SQL給DROP掉了,恰好會出現SQL找不到表錯誤!搞清楚了調用次序是re_model->lptrigger_fraud->model,傳征信的調用順序是parse->lptrigger_fraud->model。但是我發現日志中相同時間的可能次序不一樣(或者秒後還有毫秒被省略我無法看見)

2、php數組我以前一直以array()的形式建數組,比如$data = array('a','b','c'),昨天我才發現是可以直接建的$data = ['a','b','c'],而且可以直接把索引寫出來,比如$data['test'] = ['a','b','c'=>'haha'],這樣就直接建了一個名叫$data的關聯(混合?)數組,有一個key是test,python還不能這樣直接建,php這種方法要友善多了,我以前一直用array去建的,而且好像python并不能雜糅的寫,list就是list,dict就是dict,python雜糅的寫上面的例子就是data = ['a','b',{'c':'cc'}],需要用dict的{}包一下

3、更新了風控系統一個小邏輯

4、昨天還有很大部分時間在研究一些細節問題,關于R語言的GLM包輸出logistic模組化的結果的時候會輸出一個統計量Z的值,我不知道這個Z是什麼統計量,是用的什麼統計檢驗方法,後來查了很多資料,我搞清楚了這個統計檢驗方法叫做wald檢驗,是檢驗回歸系數的顯著性,原假設是系數等于0,p小于0.05拒絕原假設(顯著性水準0.05),至于這個檢驗方法的機制我不是很明白,需要一定的統計基礎,我看起比較打腦殼,我隻曉得現象就是,你不斷添加或删除變量,某系數的統計值都會發生變化,相應的p值也會發生變化,有可能開始顯著的變量再加入另外一個變量後就變得不顯著了!但是我用實際的資料集實驗了一下,觀察到的現象是(可能存在局部偏見)那些很顯著的變量随便怎麼加其他變量好像還是很顯著,而且p值變動很小,但是有些不那麼顯著的變量,有可能加進新變量後變化很大,是以我最重要可能是需要搞清楚變量間是如何互相影響的,而且我現在基本上确定了SAS的篩選變量的方法就是用統計檢驗按照一定的進入順序去篩選,而我現在使用的R的包是,用AIC這個名額去篩選出AIC最小的模型(最優子集),然而篩選出的最優子集可能某些變量實際上是不顯著的,是以AIC的機制可能也需要去了解!昨天同僚給我講了一下為什麼wald檢驗要用z-value或者用t-value,我聽起也是比較打腦殼,相關的統計學概念實在是記不清楚了,是以我要搞清楚,可能還需要自己一步步去看那些基本概念!

5、還有一點logistic本身是可解釋的,似乎某自變量變化一個機關,風險增大多少(系數)是可以解釋的?我不太确定,昨天偶然看到,然而我的自變量都woe編碼過的,這樣可行嗎?

6、github兩個人同時合作一個項目,我是直接用git pull把雲端同步到本地,但是我聽我朋友說,可以直接push,然後會提醒本地不是最新的而要求更新到最新的版本,下次可以試試

差不多,以上