文章中常见的ROC曲线图
01:ROC曲线图怎么用?
1)评价某个或多个指标(比如建立的模型或多个关键基因)对两类测试者(如患者和正常人)分类及诊断的效果。通过绘制某个指标或多个指标的ROC曲线并计算各自的AUC,就可以知道哪个指标的分类/诊断效果更好;(划重点:这是ROC曲线在目前生信文章里主要的作用,也是用的多的功能哦)
2)寻找佳的指标阈值(也就是cutoff值)使得分类效果佳。
02:ROC曲线图怎么看?
先介绍几个小概念:
真阳性率(TPR):所有实际为阳性的样本被正确地判断为阳性的个数与所有实际为阳性的样本个数之比(也就是真的是真的),TPR又称为Sensitivity(灵敏度);
假阳性概率(FPR):所有实际为阴性的样本被错误地判断为阳性的个数与所有实际为阴性的样本个数之比(即假的误认为是真的,被误报了),FPR等于1-Specificity(特异度);
Specificity(特异度):所有实际为阴性的样本被正确地判断为阴性的个数与所有实际为阴性的样本个数之比(也就是假的是假的),Specificity又称为真阴性率(TNR);
约登指数(Youden Index):也称正确指数,其反映了区分真正的患者与非患者的总能力。Youden index = Sensitivity + Specificity − 1=TRP-FRP,范围取值介于0-1之间,约登指数越大,表示分类模型性能越好。约登指数大值也就对应着该方法的佳诊断临界值,即cutoff值;
AUC(Area under Curve):ROC 曲线下的面积,介于 0.1 和 1 之间,作为数值可以直观的评价模型的预测准确性,AUC值越大预测准确率越高。
坐标轴:
横坐标1-Specificity(FPR)是特异性,即假阳性率(False Positive Rate, FPR)
纵坐标Sentivity(TPR) 是敏感性,即真阳性率(True Positive Rate, TPR)
ROC曲线图是反映敏感性与特异性之间关系的曲线,X轴越接近零准确率越高,Y轴越大代表准确率越好。
AUC判断预测性能:
理论上来说如果AUC值越接近于1,说明曲线下方面积越大,表明预测模型的准确率越高,反之则说明预测模型的准确率较低。如果曲线越接近左上角,即横坐标越小,纵坐标越大,表明预测预测模型的准确率越高。
AUC =1,是完 美的分类器,该模型至少存在一个阈值,可以将正负样本完 美的划分开
0.5 < AUC < 1,优于随机猜测,数值越大,分类器越好
AUC = 0.5,相当于随机猜测,模型没有预测价值
AUC < 0.5,比随机猜测要差,然而若反向预测,该模型也可优于随机猜测
03:怎么绘制ROC曲线?
使用SPSS软件或MedCale软件都可以绘制ROC曲线,对比两种软件,MedCale软件绘制ROC更专业一站式结果比较全面,本文主要介绍下MedCale软件的操作方法,感兴趣的同学可以自行学下SPSS软件的操作方法。
整理数据并导入MedCale
可以将SPSS中的数据直接复制到MedCale中,在上面一行填写变量名称;或者原始数据在Excel中,可以用MedCalec直接打开Excel文件。
数据说明:A列gold是金标准判断规则,1是阳性,0是阴性。B列method1代表使用新方法诊断的连续变量,目的是绘制新方法1的ROC曲线并找到佳截断值cut-off值。
执行操作程序
在标签栏中选择Statistics—ROC curves—ROC curve analysis-主对话框设置:在Variable一栏中选择我们研究的变量(method1),Classification variable一栏中选择诊断结局(gold),其他可以按原始设置→OK。
结果解读
可读AUC=0.947和特异度为91.11%、灵敏度90.91%、约登指数是0.8203,对应的截断值cut-off为108.9。