【4.5.2】验证曲线--绘制验证曲线

August 17, 2018 sklearn 阅读量：次

在我们在示例中看到的简单的一维问题中，很容易看出估计器是否存在偏差或方差。然而，在高维空间中，模型可能变得非常难以可视化。因此，使用验证曲线与学习曲线描述的工具通常很有帮助

为了验证模型，我们需要评分函数（参见模型评估：量化预测的质量，Model evaluation: quantifying the quality of predictions），例如分类器的准确性。选择估计器的多个超参数的正确方法当然是网格搜索或类似方法（参见调整估计器的超参数，Tuning the hyper-parameters of an estimator），其选择在验证集或多个验证集上具有最大分数的超参数。请注意，如果我们根据验证分数优化超参数，则验证分数会有偏差，而不再是对泛化的良好估计。为了得到对泛化的正确估计，我们必须在另一个测试集上计算得分。

在此图中，您可以查看SVM的训练分数和验证分数，以获取内核参数gamma的不同值。对于非常低的伽玛值，您可以看到训练分数和验证分数都很低。这被称为欠配合。 gamma的中值将导致两个分数的高值，即分类器表现得相当好。如果gamma太高，则分类器将过度拟合，这意味着训练分数良好但验证分数较差。

然而，绘制单个超参数对训练分数和验证分数的影响有时是有帮助的，以确定估计量是否过度拟合或不适合某些超参数值。

如果训练分数和验证分数都很低，则估算器将不合适。
如果训练分数高且验证分数低，则估计器过度拟合，否则其工作得很好。

通常不可能获得较低的训练分数和较高的验证分数。所有三种情况都可以在下面的图中找到，我们在数字数据集上改变SVM的参数 $ \gamma$ 。

代码：

print(__doc__)

import matplotlib.pyplot as plt
import numpy as np

from sklearn.datasets import load_digits
from sklearn.svm import SVC
from sklearn.model_selection import validation_curve

digits = load_digits()
X, y = digits.data, digits.target

param_range = np.logspace(-6, -1, 5)
train_scores, test_scores = validation_curve(
    SVC(), X, y, param_name="gamma", param_range=param_range,
    cv=10, scoring="accuracy", n_jobs=1)
train_scores_mean = np.mean(train_scores, axis=1)
train_scores_std = np.std(train_scores, axis=1)
test_scores_mean = np.mean(test_scores, axis=1)
test_scores_std = np.std(test_scores, axis=1)

plt.title("Validation Curve with SVM")
plt.xlabel("$\gamma$")
plt.ylabel("Score")
plt.ylim(0.0, 1.1)
lw = 2
plt.semilogx(param_range, train_scores_mean, label="Training score",
             color="darkorange", lw=lw)
plt.fill_between(param_range, train_scores_mean - train_scores_std,
                 train_scores_mean + train_scores_std, alpha=0.2,
                 color="darkorange", lw=lw)
plt.semilogx(param_range, test_scores_mean, label="Cross-validation score",
             color="navy", lw=lw)
plt.fill_between(param_range, test_scores_mean - test_scores_std,
                 test_scores_mean + test_scores_std, alpha=0.2,
                 color="navy", lw=lw)
plt.legend(loc="best")
plt.show()

validation_curve函数实例

import numpy as np
from sklearn.model_selection import validation_curve
from sklearn.datasets import load_iris
from sklearn.linear_model import Ridge

np.random.seed(0)
iris = load_iris()
X, y = iris.data, iris.target
indices = np.arange(y.shape[0])
np.random.shuffle(indices)
X, y = X[indices], y[indices]

train_scores, valid_scores = validation_curve(Ridge(), X, y, "alpha",
                                              np.logspace(-7, 3, 3))
print train_scores           

print valid_scores

结果：

>>> train_scores           
array([[ 0.94...,  0.92...,  0.92...],
       [ 0.94...,  0.92...,  0.92...],
       [ 0.47...,  0.45...,  0.42...]])
>>> valid_scores           
array([[ 0.90...,  0.92...,  0.94...],
       [ 0.90...,  0.92...,  0.94...],
       [ 0.44...,  0.39...,  0.45...]])

参考资料

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn