#50193 论文
一、数据处理
1.行的处理
1)从总的学校信息表中选出包含候选学校的那些行
2)删除已经关闭的学校和遭受经济危机的学校,依据HCM2和CURROPER
3)删除缺失值过半的那些行
2.列的处理
1)根据NPT4_PUB和NPT4_PRIV构造新的特征NetPrice,删除原来两个特征
根据RET_FT4、RET_FTL4、RET_PT4、RET_PTL4构造新的特征RetentionRate
(我自己加的)因为PPTUG_EF、PCTPELL、PCTFLOAN几个特征的缺失值较少,直接用均值填充缺失值
2)仅留下SAT和ACT分数的中点值,其他有关SAT4和ACT分数的特征1均删掉
3)根据下图这些特征对学校进行聚类
找出最优聚类数为5,然后依据每个类的以下特征值的均值对缺失值进行填补
填补完后,将用来第一个图用来聚类的特征删掉
3.将数据归一化
二、计算ROI
ROI的计算公式如下
Output、Input、和Urgency的计算都用到了层次分析法
1.Output的计算
依赖于4个新构造的特征Salary After Graduation、Relation Rate、Repayment Ability 和Education Enhance Rate
1)研究了几个和收入有关的特征后,发现用md_earn_wne_p6(好像这个数据要从题目给的那个网站下载,但是发现似乎已经下载不了。。)能够解释大部分,所以用这个表示SAG
2)研究一番后用RetentionRate表示RR
3)研究一番后用RPY_3YR_RT_SUPP来表示RA
4)用标准化后的md_earn_wne_p6减去SAT然后归一化来表示EER
接下来用层次分析法比较这几个直接的重要性,得出成对比较矩阵和权重,检验CI,然后相乘相加得到Output
对于缺失SAT的那些学校,另外比较其他3个的重要性然后得出权重,然后得到Output
2.Input的计算
用NetPrice这个特征当做Input,但是对于学费低的学校会导致较高的ROI,所以做一个修正
3.Urgency的计算
这个因子主要是出于照顾那些最需要钱的学校
依据3个新构造的特征计算:Pell Grants、Federal Loan、Debt
1)用PCTPELL表示PG
2)用PCTFLOAN表示FL
3)研究后发现有关变量存在强关联,用GRAD_DEBT_MDN_SUPP表示Debt
依然用层次分析法得出权重然后计算出Urgency
最后用公式计算出ROI
三、用灰色预测来预测未来5年的ROI
(前面几年的学校数据没找到,估计是题目过去太久已经不提供数据)
用之前几年的学校数据计算出ROI,然后预测出接下来5年的ROI
四、投资策略
1.风险定义
根据现代现代投资组合理论
定义风险如下所示
其中μe是md_earn_wne_p6的均值,σe是md_earn_wne_p6的标准差
2.用混合整型线性规划得出投资策略
用到的符号表如下
其中那个像S的东西是全部学校的集合
规划模型为
3.加入时间考虑后的投资模型
题目说了是投资5年,所以按照不同年份给所选大学不同的投资可得到另一种模型
五、敏感性分析和模型有效性分析
1.针对前面规划模型里,在不同的最大可接受风险情况下计算不同的目标函数值(即最大ROI),画图分析发现一个比较好的最大可接受风险值
2.针对不同的给予捐助的学校数目,计算最大ROI,找出合适的学校数目
3.针对时间模型,给出4种投资策略,即第一年全部发完、每年发相等数量的钱、每年发不等数量的钱、每年不受限制的投资,计算了最大ROI和一个gap值(不清楚这个gap值是怎么算的。。)