天天看點

2016年美賽C題論文學習筆記1

#50193  論文

一、資料處理

   1.行的處理

     1)從總的學校資訊表中選出包含候選學校的那些行

     2)删除已經關閉的學校和遭受經濟危機的學校,依據HCM2和CURROPER

     3)删除缺失值過半的那些行

   2.列的處理

     1)根據NPT4_PUB和NPT4_PRIV構造新的特征NetPrice,删除原來兩個特征

        根據RET_FT4、RET_FTL4、RET_PT4、RET_PTL4構造新的特征RetentionRate

        (我自己加的)因為PPTUG_EF、PCTPELL、PCTFLOAN幾個特征的缺失值較少,直接用均值填充缺失值

     2)僅留下SAT和ACT分數的中點值,其他有關SAT4和ACT分數的特征1均删掉

     3)根據下圖這些特征對學校進行聚類

2016年美賽C題論文學習筆記1

找出最優聚類數為5,然後依據每個類的以下特征值的均值對缺失值進行填補

2016年美賽C題論文學習筆記1

填補完後,将用來第一個圖用來聚類的特征删掉

    3.将資料歸一化

二、計算ROI

ROI的計算公式如下

2016年美賽C題論文學習筆記1

  Output、Input、和Urgency的計算都用到了層次分析法

  1.Output的計算

   依賴于4個新構造的特征Salary After Graduation、Relation Rate、Repayment Ability 和Education Enhance Rate

   1)研究了幾個和收入有關的特征後,發現用md_earn_wne_p6(好像這個資料要從題目給的那個網站下載下傳,但是發現似乎已經下載下傳不了。。)能夠解釋大部分,是以用這個表示SAG

   2)研究一番後用RetentionRate表示RR

   3)研究一番後用RPY_3YR_RT_SUPP來表示RA

   4)用标準化後的md_earn_wne_p6減去SAT然後歸一化來表示EER

   接下來用層次分析法比較這幾個直接的重要性,得出成對比較矩陣和權重,檢驗CI,然後相乘相加得到Output

   對于缺失SAT的那些學校,另外比較其他3個的重要性然後得出權重,然後得到Output

  2.Input的計算

   用NetPrice這個特征當做Input,但是對于學費低的學校會導緻較高的ROI,是以做一個修正

2016年美賽C題論文學習筆記1

  3.Urgency的計算

   這個因子主要是出于照顧那些最需要錢的學校

   依據3個新構造的特征計算:Pell Grants、Federal Loan、Debt

    1)用PCTPELL表示PG

2)用PCTFLOAN表示FL

3)研究後發現有關變量存在強關聯,用GRAD_DEBT_MDN_SUPP表示Debt

依然用層次分析法得出權重然後計算出Urgency

最後用公式計算出ROI

三、用灰色預測來預測未來5年的ROI

   (前面幾年的學校資料沒找到,估計是題目過去太久已經不提供資料)

用之前幾年的學校資料計算出ROI,然後預測出接下來5年的ROI

四、投資政策

1.風險定義

 根據現代現代投資組合理論

 定義風險如下所示

2016年美賽C題論文學習筆記1

其中μe是md_earn_wne_p6的均值,σe是md_earn_wne_p6的标準差

2.用混合整型線性規劃得出投資政策

用到的符号表如下

2016年美賽C題論文學習筆記1
2016年美賽C題論文學習筆記1

其中那個像S的東西是全部學校的集合

規劃模型為

2016年美賽C題論文學習筆記1

3.加入時間考慮後的投資模型

 題目說了是投資5年,是以按照不同年份給所選大學不同的投資可得到另一種模型

2016年美賽C題論文學習筆記1

五、敏感性分析和模型有效性分析

   1.針對前面規劃模型裡,在不同的最大可接受風險情況下計算不同的目标函數值(即最大ROI),畫圖分析發現一個比較好的最大可接受風險值

2.針對不同的給予捐助的學校數目,計算最大ROI,找出合适的學校數目

3.針對時間模型,給出4種投資政策,即第一年全部發完、每年發相等數量的錢、每年發不等數量的錢、每年不受限制的投資,計算了最大ROI和一個gap值(不清楚這個gap值是怎麼算的。。)

繼續閱讀