#50193 論文
一、資料處理
1.行的處理
1)從總的學校資訊表中選出包含候選學校的那些行
2)删除已經關閉的學校和遭受經濟危機的學校,依據HCM2和CURROPER
3)删除缺失值過半的那些行
2.列的處理
1)根據NPT4_PUB和NPT4_PRIV構造新的特征NetPrice,删除原來兩個特征
根據RET_FT4、RET_FTL4、RET_PT4、RET_PTL4構造新的特征RetentionRate
(我自己加的)因為PPTUG_EF、PCTPELL、PCTFLOAN幾個特征的缺失值較少,直接用均值填充缺失值
2)僅留下SAT和ACT分數的中點值,其他有關SAT4和ACT分數的特征1均删掉
3)根據下圖這些特征對學校進行聚類
找出最優聚類數為5,然後依據每個類的以下特征值的均值對缺失值進行填補
填補完後,将用來第一個圖用來聚類的特征删掉
3.将資料歸一化
二、計算ROI
ROI的計算公式如下
Output、Input、和Urgency的計算都用到了層次分析法
1.Output的計算
依賴于4個新構造的特征Salary After Graduation、Relation Rate、Repayment Ability 和Education Enhance Rate
1)研究了幾個和收入有關的特征後,發現用md_earn_wne_p6(好像這個資料要從題目給的那個網站下載下傳,但是發現似乎已經下載下傳不了。。)能夠解釋大部分,是以用這個表示SAG
2)研究一番後用RetentionRate表示RR
3)研究一番後用RPY_3YR_RT_SUPP來表示RA
4)用标準化後的md_earn_wne_p6減去SAT然後歸一化來表示EER
接下來用層次分析法比較這幾個直接的重要性,得出成對比較矩陣和權重,檢驗CI,然後相乘相加得到Output
對于缺失SAT的那些學校,另外比較其他3個的重要性然後得出權重,然後得到Output
2.Input的計算
用NetPrice這個特征當做Input,但是對于學費低的學校會導緻較高的ROI,是以做一個修正
3.Urgency的計算
這個因子主要是出于照顧那些最需要錢的學校
依據3個新構造的特征計算:Pell Grants、Federal Loan、Debt
1)用PCTPELL表示PG
2)用PCTFLOAN表示FL
3)研究後發現有關變量存在強關聯,用GRAD_DEBT_MDN_SUPP表示Debt
依然用層次分析法得出權重然後計算出Urgency
最後用公式計算出ROI
三、用灰色預測來預測未來5年的ROI
(前面幾年的學校資料沒找到,估計是題目過去太久已經不提供資料)
用之前幾年的學校資料計算出ROI,然後預測出接下來5年的ROI
四、投資政策
1.風險定義
根據現代現代投資組合理論
定義風險如下所示
其中μe是md_earn_wne_p6的均值,σe是md_earn_wne_p6的标準差
2.用混合整型線性規劃得出投資政策
用到的符号表如下
其中那個像S的東西是全部學校的集合
規劃模型為
3.加入時間考慮後的投資模型
題目說了是投資5年,是以按照不同年份給所選大學不同的投資可得到另一種模型
五、敏感性分析和模型有效性分析
1.針對前面規劃模型裡,在不同的最大可接受風險情況下計算不同的目标函數值(即最大ROI),畫圖分析發現一個比較好的最大可接受風險值
2.針對不同的給予捐助的學校數目,計算最大ROI,找出合适的學校數目
3.針對時間模型,給出4種投資政策,即第一年全部發完、每年發相等數量的錢、每年發不等數量的錢、每年不受限制的投資,計算了最大ROI和一個gap值(不清楚這個gap值是怎麼算的。。)