(本文資料為虛構,僅供實驗)
很多農民因為缺乏資金,在每年耕種前會向相關機構申請貸款來購買種地需要的物資,等豐收之後償還。農業貸款發放問題是一個典型的資料挖掘問題。貸款發放人通過往年的資料,包括貸款人的年收入、種植的作物種類、曆史借貸資訊等特征來建構經驗模型,通過這個模型來預測受貸人的還款能力。
本文借助真實的農業貸款業務場景,利用回歸算法解決貸款發放業務。 線性回歸,是利用數理統計中回歸分析,來确定兩種或兩種以上變量間互相依賴的定量關系的一種統計分析方法,運用十分廣泛。本文通過農業貸款的曆史發放情況,預測是否給預測集的使用者發放他們需要的金額的貸款。
具體字段如下:
字段名
含義
類型
描述
id
資料唯一辨別符
string
人
name
使用者名
region
使用者所屬地區
從北到南排列
farmsize
擁有土地大小
double
土地面積
rainfall
降雨量
landquality
土地品質
土地品質數值越大越好
farmincome
收入
年收入
maincrop
種植作物
種植作物的種類
claimtype
貸款類型
兩種
claimvalue
貸款金額
資料截圖:
首先,實驗流程圖:
資料的輸入有兩部分,貸款訓練集用來進行回歸模型的訓練,共二百條資料,是曆史貸款資料,包括一些farmsize、rainfall等特征,claimvalue是貸款收回的金額。貸款預測集是今年申請貸款者,claimvalue是農民申請的貸款金額,共71人。我們通過已有的二百多條曆史資料,預測給七十一人中的哪些申請貸款人發放貸款。
将一些字元串類型的資料,根據他們的含義映射成數字。比如說region字段,我們将其中的north、middle、south按照從北到南的順序分别映射成0、1、2。然後通過類型轉換将字段轉換成double類型,這樣就可以進行下面的回歸計算了。
如下圖:
線性回歸元件對于曆史資料訓練并生成回歸模型,在預測元件中利用回歸模型對于預測集資料進行了預測。通過合并列元件将使用者id、預測值、申請的貸款值合并。預測值表示的是使用者的還貸能力(預期可以歸還的金額)。
通過回歸模型評估元件對于回歸模型進行評估。
通過過濾與映射元件篩選出可以獲得貸款的人,這裡的業務邏輯是針對每個客戶,如果他被預測得到的還款能力大于他申請貸款的金額,就對他發放貸款。
作者微信公衆号(與作者讨論):
往期文章:
<a href="https://yq.aliyun.com/articles/53862?spm=5176.100244.teamconlist.9.sxpb3b">【玩轉資料系列一】人口普查統計案例</a>
<a href="https://yq.aliyun.com/articles/54260?spm=5176.100244.teamconlist.7.sxpb3b">【玩轉資料系列二】機器學習應用沒那麼難,這次教你玩心髒病預測</a>
<a href="https://yq.aliyun.com/articles/57261?spm=5176.100244.teamconlist.3.sxpb3b">【玩轉資料系列三】利用圖算法實作金融行業風控</a>
<a href="https://yq.aliyun.com/articles/57718?spm=5176.100244.teamconlist.3.rpkvxw">【玩轉資料系列四】聽說啤酒和尿布很配?本期教你用協同過濾做推薦</a>