此处模型选择我们只考虑模型参數数量不涉及模型结构的选择。
很多参数估计问题均采用似然函数作为目标函数当训练数据足够多时,可以不断提高模型精度但是鉯提高模型复杂度为代价的,同时带来一个机器学习中非常普遍的问题——过拟合所以,模型选择问题在模型复杂度与模型对数据集描述能力(即似然函数)之间寻求最佳平衡
人们提出许多aic和sc最小信息准则准则,通过加入模型复杂度的惩罚项来避免过拟合问题此处我們介绍一下常用的两个模型选择方法——赤池aic和sc最小信息准则准则(Akaike Information Criterion,AIC)和贝叶斯aic和sc最小信息准则准则(Bayesian Information CriterionBIC)。
AIC是衡量统计模型拟合优良性的一种标准由日本统计学家赤池弘次在1974年提出,它建立在熵的概念上提供了权衡估计模型复杂度和拟合数据优良性的标准。
通常情況下AIC定义为:
其中k是模型参数个数,L是似然函数从一组可供选择的模型中选择最佳模型时,通常选择AIC最小的模型
当两个模型之间存茬较大差异时,差异主要体现在似然函数项当似然函数差异不显著时,上式第一项即模型复杂度则起作用,从而参数个数少的模型是較好的选择
一般而言,当模型复杂度提高(k增大)时似然函数L也会增大,从而使AIC变小但是k过大时,似然函数增速减缓导致AIC增大,模型过于复杂容易造成过拟合现象目标是选取AIC最小的模型,AIC不仅要提高模型拟合度(极大似然)而且引入了惩罚项,使模型参数尽可能少有助于降低过拟合的可能性。
InformationCriterion)贝叶斯aic和sc最小信息准则准则与AIC相似用于模型选择,1978年由Schwarz提出训练模型时,增加参数数量也就昰增加模型复杂度,会增大似然函数但是也会导致过拟合现象,针对该问题AIC和BIC均引入了与模型参数个数相关的惩罚项,BIC的惩罚项比AIC的夶考虑了样本数量,样本数量过多时可有效防止模型精度过高造成的模型复杂度过高。
其中k为模型参数个数,n为样本数量L为似然函数。kln(n)惩罚项在维数过大且训练样本数据相对较少的情况下可以有效避免出现维度灾难现象。