又到一年毕业季,刚毕业的你们,工作找得怎么样?
根据教育部发布的信息,2018年高校毕业生人数达到820万,超越2017年的795万,高校毕业人数创历史最高,根据人社部的毕业生数据,如果加上中职毕业生和17年尚未就业的学生数量,待就业的加在一起约有惊人的1500万。
图片来源 | pexels
如今就业形势如此严峻,假如学校能在大三甚至大二,对学生毕业去向进行科学预测,针对学生进行个性化指导,毕业时学生是否能不那么迷茫?
预测你的毕业去向
随着大数据时代的来临,对毕业去向进行预测是完全有可能的。
我们可以基于学生的在校数据,运用数据挖掘算法建立模型,用来预测学生未来的毕业去向是就业、出国深造、考研或是不能就业,从而帮助教师引导学生进行个性化的职业生涯规划。
有了这套模型,你的老师或许会在大二结束时就跟你说“学校毕业去向预测系统显示你毕业失业的可能性要大于周围同学,现在你就要在学习上要抓紧,另外要多多参加实践活动!”
当然,要实现这样的毕业去向预测,好的模型很重要。而一个好的模型,离不开两样东西:
一是数据。一个模型项目的成功很大程度上依赖于建模前期的特征提取,包括数据清洗、数据整合、变量归一化等。这部分花费的时间远大于选择模型和编写模型算法的时间。
通常学校的数据包括学生基本信息、图书馆刷卡信息、学生成绩信息等。理论上说,如果我们能获得的信息能覆盖学生生活的面越广,训练的模型的效果就会越好。
二是模型。对模型的要求可以总结为3点:
模型预测效果好;模型参数是稳定取“正确”的;模型结果容易理解。这3点看似简单,实则非常难,每个学校的情况不同,模型也会不同。
就业预测:提升模型
以就业预测为例,我们选用了集成学习中的提升模型。
集成学习是指使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单个学习器更好学习效果的一种机器学习方法。
集成学习目前大致分为两类:一类是个体学习器间存在强依赖关系、必须串行生成的序列化方法,代表是提升模型(Boosting);另一类是个体学习器间不存在强依赖关系、可同时生成的并行化方法,代表是Bagging和“随机森林”。
而我们选用的提升模型工作机制类似:先从初始训练集训练出一个基学习器,再根据学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直至基学习器数目达到事先指定的值N,最终将这N个基学习器进行加权结合。Boosting的思想可以参考下图1:
图 1
提升学习(Boosting)是一种机器学习的技术,可以用于回归和分类的问题,它每一步产生弱预测模型(如决策树),并加权累加到总模型中;常见的模型有:Adaboost和GBDT。
为了更直观的了解算法的过程,我们就Adaboost算法举一个简单的例子。
Adaboost算法思路是将基本分类器的线性组合作为强分类器,同时给分类误差率较小的基本分类器以大的权重值,最终的分类器是在线性组合的基础上进行Sign函数转换:
就往届10位学生(用X行代表他们的特征)就业的情况为训练集假设:就业成功,则标签(Y行表示)为1;未就业,标签为-1,
第一步,由于还未还是训练,所以给每一个学生的初始权重(W1行)都是1/10如下表:
表 1
第二步,根据误差率最低来选取阈值(x可选2.5、5.5、8.5),如阈值选x=2.5,即x>2.5 则预测y=-1;x<2.5则预测y=1,具体结果见表1的G1行,显然x为6、7、8的预测结果与实际不符。误差率ε1=0.1*3=0.3。也可以选取其他值,但是x=2.5时误差率最低。
第三步,计算G1模型的权重系数=0.611,构建的分类器为f1(x)=0.611G1(x)
第四步,根据W1、α1、yi组成的公式更新权重,并做归一化处理,即所有权重值加起来等于1。跟新后如表2,第一轮分错的权重为变大。
表 2
第五步,同第一轮一样我们通过计算误差率来选取阈值,这次我们选取x=8.5,故基本分类器为:
X<8.5时 G2(x)=1 而 X>8.5时 G2(x)=-1
预测结果见表2 G2行而这次x为3、4、5的预测错误,误差率为ε2=0.058*3=0.174
计算G1模型的权重系数=1.120,构建的分类器为f2(x)=0.611G1(x)+1.120G2(x),这么预测结果为两个基本分类器的加权和,如G1(x)预测为-1,G2(x)预测为1,这时将f2(x)=-0.611+1.120=0.509>0代入sign函数(如图2),则预测结果为1,全部结果见表3 f2(x)行。
第六步,继续更新权重、选取阈值计算误差率构建分类器,最终的分类器f3(x)=0.611G1(x)+1.120G2(x)+1.631G3(x),在训练集上的0个分类错误;结束循环。
这样训练出的模型就学到就业与未就业同学之间特征的区别,可以把在校同学的行为特征输入模型用来预测,为学生管理提供科学支撑。
表 3
图 2
当然,实际的模型不会像例子中那样简单,经过几轮计算就能把准确率提的很高,并且训练数据的准确率很高有可能出现过拟合,所以模型的训练也是一个复杂繁琐的工作。
总的来说,搭建一个好的毕业去向预测模型,加上尽可能全面的学生在校数据,能够对学生未来毕业去向进行科学预测,进而帮助学校进行个性化指导,让学生在毕业季时不再为未来而迷茫!