天天看点

2016年美赛C题论文学习笔记1

#50193  论文

一、数据处理

   1.行的处理

     1)从总的学校信息表中选出包含候选学校的那些行

     2)删除已经关闭的学校和遭受经济危机的学校,依据HCM2和CURROPER

     3)删除缺失值过半的那些行

   2.列的处理

     1)根据NPT4_PUB和NPT4_PRIV构造新的特征NetPrice,删除原来两个特征

        根据RET_FT4、RET_FTL4、RET_PT4、RET_PTL4构造新的特征RetentionRate

        (我自己加的)因为PPTUG_EF、PCTPELL、PCTFLOAN几个特征的缺失值较少,直接用均值填充缺失值

     2)仅留下SAT和ACT分数的中点值,其他有关SAT4和ACT分数的特征1均删掉

     3)根据下图这些特征对学校进行聚类

2016年美赛C题论文学习笔记1

找出最优聚类数为5,然后依据每个类的以下特征值的均值对缺失值进行填补

2016年美赛C题论文学习笔记1

填补完后,将用来第一个图用来聚类的特征删掉

    3.将数据归一化

二、计算ROI

ROI的计算公式如下

2016年美赛C题论文学习笔记1

  Output、Input、和Urgency的计算都用到了层次分析法

  1.Output的计算

   依赖于4个新构造的特征Salary After Graduation、Relation Rate、Repayment Ability 和Education Enhance Rate

   1)研究了几个和收入有关的特征后,发现用md_earn_wne_p6(好像这个数据要从题目给的那个网站下载,但是发现似乎已经下载不了。。)能够解释大部分,所以用这个表示SAG

   2)研究一番后用RetentionRate表示RR

   3)研究一番后用RPY_3YR_RT_SUPP来表示RA

   4)用标准化后的md_earn_wne_p6减去SAT然后归一化来表示EER

   接下来用层次分析法比较这几个直接的重要性,得出成对比较矩阵和权重,检验CI,然后相乘相加得到Output

   对于缺失SAT的那些学校,另外比较其他3个的重要性然后得出权重,然后得到Output

  2.Input的计算

   用NetPrice这个特征当做Input,但是对于学费低的学校会导致较高的ROI,所以做一个修正

2016年美赛C题论文学习笔记1

  3.Urgency的计算

   这个因子主要是出于照顾那些最需要钱的学校

   依据3个新构造的特征计算:Pell Grants、Federal Loan、Debt

    1)用PCTPELL表示PG

2)用PCTFLOAN表示FL

3)研究后发现有关变量存在强关联,用GRAD_DEBT_MDN_SUPP表示Debt

依然用层次分析法得出权重然后计算出Urgency

最后用公式计算出ROI

三、用灰色预测来预测未来5年的ROI

   (前面几年的学校数据没找到,估计是题目过去太久已经不提供数据)

用之前几年的学校数据计算出ROI,然后预测出接下来5年的ROI

四、投资策略

1.风险定义

 根据现代现代投资组合理论

 定义风险如下所示

2016年美赛C题论文学习笔记1

其中μe是md_earn_wne_p6的均值,σe是md_earn_wne_p6的标准差

2.用混合整型线性规划得出投资策略

用到的符号表如下

2016年美赛C题论文学习笔记1
2016年美赛C题论文学习笔记1

其中那个像S的东西是全部学校的集合

规划模型为

2016年美赛C题论文学习笔记1

3.加入时间考虑后的投资模型

 题目说了是投资5年,所以按照不同年份给所选大学不同的投资可得到另一种模型

2016年美赛C题论文学习笔记1

五、敏感性分析和模型有效性分析

   1.针对前面规划模型里,在不同的最大可接受风险情况下计算不同的目标函数值(即最大ROI),画图分析发现一个比较好的最大可接受风险值

2.针对不同的给予捐助的学校数目,计算最大ROI,找出合适的学校数目

3.针对时间模型,给出4种投资策略,即第一年全部发完、每年发相等数量的钱、每年发不等数量的钱、每年不受限制的投资,计算了最大ROI和一个gap值(不清楚这个gap值是怎么算的。。)

继续阅读