免费算命高考去向免费算高考命运

频道：免费日期：2022-03-30 06:31:21 浏览：3

又到一年毕业季，刚毕业的你们，工作找得怎么样？

根据教育部发布的信息，2018年高校毕业生人数达到820万，超越2017年的795万，高校毕业人数创历史最高，根据人社部的毕业生数据，如果加上中职毕业生和17年尚未就业的学生数量，待就业的加在一起约有惊人的1500万。

图片来源 | pexels

如今就业形势如此严峻，假如学校能在大三甚至大二，对学生毕业去向进行科学预测，针对学生进行个性化指导，毕业时学生是否能不那么迷茫？

预测你的毕业去向

随着大数据时代的来临，对毕业去向进行预测是完全有可能的。

我们可以基于学生的在校数据，运用数据挖掘算法建立模型，用来预测学生未来的毕业去向是就业、出国深造、考研或是不能就业，从而帮助教师引导学生进行个性化的职业生涯规划。

有了这套模型，你的老师或许会在大二结束时就跟你说“学校毕业去向预测系统显示你毕业失业的可能性要大于周围同学，现在你就要在学习上要抓紧，另外要多多参加实践活动！”

当然，要实现这样的毕业去向预测，好的模型很重要。而一个好的模型，离不开两样东西：

一是数据。一个模型项目的成功很大程度上依赖于建模前期的特征提取，包括数据清洗、数据整合、变量归一化等。这部分花费的时间远大于选择模型和编写模型算法的时间。

通常学校的数据包括学生基本信息、图书馆刷卡信息、学生成绩信息等。理论上说，如果我们能获得的信息能覆盖学生生活的面越广，训练的模型的效果就会越好。

二是模型。对模型的要求可以总结为3点：

模型预测效果好；模型参数是稳定取“正确”的；模型结果容易理解。这3点看似简单，实则非常难，每个学校的情况不同，模型也会不同。

就业预测：提升模型

以就业预测为例，我们选用了集成学习中的提升模型。

集成学习是指使用一系列学习器进行学习，并使用某种规则把各个学习结果进行整合，从而获得比单个学习器更好学习效果的一种机器学习方法。

集成学习目前大致分为两类：一类是个体学习器间存在强依赖关系、必须串行生成的序列化方法，代表是提升模型（Boosting）；另一类是个体学习器间不存在强依赖关系、可同时生成的并行化方法，代表是Bagging和“随机森林”。

而我们选用的提升模型工作机制类似：先从初始训练集训练出一个基学习器，再根据学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器数目达到事先指定的值N，最终将这N个基学习器进行加权结合。Boosting的思想可以参考下图1：

图 1

提升学习（Boosting）是一种机器学习的技术，可以用于回归和分类的问题，它每一步产生弱预测模型（如决策树），并加权累加到总模型中；常见的模型有：Adaboost和GBDT。

为了更直观的了解算法的过程，我们就Adaboost算法举一个简单的例子。

Adaboost算法思路是将基本分类器的线性组合作为强分类器，同时给分类误差率较小的基本分类器以大的权重值，最终的分类器是在线性组合的基础上进行Sign函数转换：

就往届10位学生（用X行代表他们的特征）就业的情况为训练集假设：就业成功，则标签（Y行表示）为1；未就业，标签为-1，

第一步，由于还未还是训练，所以给每一个学生的初始权重（W1行）都是1/10如下表：

表 1

第二步，根据误差率最低来选取阈值（x可选2.5、5.5、8.5），如阈值选x=2.5，即x>2.5 则预测y=-1；x<2.5则预测y=1，具体结果见表1的G1行，显然x为6、7、8的预测结果与实际不符。误差率ε1=0.1*3=0.3。也可以选取其他值，但是x=2.5时误差率最低。

第三步，计算G1模型的权重系数=0.611，构建的分类器为f1(x)=0.611G1(x)

第四步，根据W1、α1、yi组成的公式更新权重，并做归一化处理，即所有权重值加起来等于1。跟新后如表2，第一轮分错的权重为变大。

表 2

第五步，同第一轮一样我们通过计算误差率来选取阈值，这次我们选取x=8.5,故基本分类器为：

X<8.5时 G2(x)=1 而 X>8.5时 G2(x)=-1

预测结果见表2 G2行而这次x为3、4、5的预测错误，误差率为ε2=0.058*3=0.174

计算G1模型的权重系数=1.120，构建的分类器为f2(x)=0.611G1(x)+1.120G2(x)，这么预测结果为两个基本分类器的加权和，如G1(x)预测为-1，G2(x)预测为1，这时将f2(x)=-0.611+1.120=0.509>0代入sign函数（如图2），则预测结果为1，全部结果见表3 f2(x)行。

第六步，继续更新权重、选取阈值计算误差率构建分类器，最终的分类器f3(x)=0.611G1(x)+1.120G2(x)+1.631G3(x)，在训练集上的0个分类错误；结束循环。

这样训练出的模型就学到就业与未就业同学之间特征的区别，可以把在校同学的行为特征输入模型用来预测，为学生管理提供科学支撑。