天天看点

Sklearn ValueError: This solver needs samples of at least 2 classes in the data, but the data

sklearn报错: ValueError: This solver needs samples of at least 2 classes in the data, but the data contains only one class: 0.0

博主是在使用sklearn.learning_curve()这个函数时出现了这个问题,使用的estimator是Logistic regression,在网上一查,有很多人都报了同样的错,虽然使用案例不同,但是几乎都是因为使用了Logistic regression而报错。接下来会介绍有效的解决办法。

先来看看我之前错误的示范吧:

train_sizes, train_scores, test_scores = learning_curve(estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_sizes, verbose=verbose) #请注意X,y
           

请注意上面使用的是X,y。报错想说我们使用的这两个变量有问题。what?我们心想,X不就是特征,y是标签吗,这都会错?!

于是,在stackoverflow上找到了有效解决该问题的方法:

from sklearn.utils import shuffle

X_shuffle, y_shuffle = shuffle(X, y)
           

再将转换后的变量替换原来的变量重新训练,就可以了成功达到预期效果了!

这是因为在未shuffle(洗牌)之前,如果做了CV导致可能出现数据集中只有一个class。而shuffle过后,打乱了数据,减小了上述情况的可能性(也就是说如果数据集极度不均衡,即使shuffle过后仍然可能跳出上述的bug)