搜索
写经验 领红包
 > 育儿

三分钟了解oc曲线的前世今生是什么(oc曲线的概念)

导语:三分钟了解ROC曲线的前世今生

ROC曲线:受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线)

ROC曲线最早是运用在军事上。相传二战期间,雷达兵的任务之一,观察否有敌机来袭。理论上讲,只要有敌机来袭,雷达屏幕上就会出现相应的信号,但是如果有飞鸟出现在雷达区域时,雷达屏幕上有时也会出现信号。这种情况令雷达兵烦恼不已:如果过于谨慎,凡是有信号就确定为敌机,显然会增加误报风险;如果凡是信号都认为飞鸟,又会增加漏报的风险。每个雷达兵都有自己的标准,有的雷达兵比较谨慎,容易出现误报;有的雷达兵则比较胆大,容易出现漏报。

为了研究每个雷达兵预报的准确性,管理者汇总雷达兵的预报特点,特别是他们漏报和误报的概率,并将这些概率画到一个二维坐标里面。这个二维坐标的纵坐标为敏感性,即在所有敌机来袭的事件中,每个雷达兵准确预报的概率。而横坐标则特1-特异性,表示了在所有非敌机来袭信号中,雷达兵预报错误的概率。由于每个雷达兵的预报标准不同,且得到的敏感性和特异性的组合也不同。将这些数据汇总后发现他们刚好在一条曲线上,这条曲线就是我们所说的ROC曲线。

考虑一个二分类问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被 预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True negative),正类被预测成负类则为假负类(false negative)。

列联表如下表所示,1代表正类,0代表负类。

分类结果以列联表形式

从列联表引入两个新名词。

1,真正类率(true positive rate ,TPR), 计算公式为TPR=TP/ (TP+ FN),刻画的是分类器所识别出的 正实例占所有正实例的比例。,

2,假正类率(false positive rate, FPR),计算公式为FPR= FP / (FP + TN),计算的是分类器错认为正类的负实例占所有负实例的比例。还有一个真负类率(True Negative Rate,TNR),也称为specificity,计算公式为TNR=TN/ (FP+ TN) = 1 - FPR。

受试者工作特征曲线就是以假阳性概率(False positive rate也就是Fall-out)为横轴,真阳性(True positive rate也就是召回率recall)为纵轴所组成的坐标图,和受试者在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。

ROC曲线上的每一个点对应于一个threshold(阈值),对于一个分类器,每个threshold下会有一个TPR和FPR。

在逻辑回归中如下

逻辑回归模型检测,生成roc曲线

生成的图像如下:

roc曲线图,AUC的面积代表模型的好坏

下面的AUC面积决定模型的好坏,ROC曲线越靠近左上角,试验的准确性就越高。最靠近左上角的ROC曲线的点是错误最少的最好阈值,其假阳性和假阴性的总数最少。

本文内容由快快网络小凡创作整理编辑!