关于不平衡数据集的总结汇总

1. 从样本分布看问题根源

链接中通过例子重点分析unbalanced dataset的分布问题

往往由于现实因素限制，我们得到数据集中正负样例比例相差悬殊，可能导致如下情况：

如上图所示，尽管正负样例的实际分布不同（虚线部分），但由于采样比例悬殊（实线部分），若模型仅仅追求高Accuracy，模型则倾向于给出predict=1的结果。

不过，若正负样例的实际分布相差较大，就算数据集不平衡，模型也可能得到较好的分辨能力：

若想从根本上解决不平衡数据集问题，还是需要采集更多负样本。

基本思路如下：

从上文图2中可以发现，如果能创建出新特征，使各类样本的分布尽可能分离，也有可能提升分类器性能。

在面对不平衡数据集时需要选择合适的指标，

Accuracy, AUC 的结果不能真实反映分类器性能，关注PR曲线等能更好理解分类器在对不同类别样本的分类能力。

参考资料：