Net Reclassification Improvement (NRI)とIntegrated Discrimination Improvement (IDI)

どうも、お久しぶりです。中口です。

いきなりですが、診断精度の有用性の検討をした研究って多いですよね。

C統計量

　これは、ROC曲線（Receiver Operatorating Characteristic curve)の曲線下面積の事ですね。下の図のようなROC曲線があって、曲線の下の部分の面接がC統計量であり、AUC(曲線下面積)です。これは広くしられています。

f:id:Takuma_AI:20200818091837p:plain

(この画像↑でいうと、線の下側がAUCです。このROC曲線では4つの予測モデルですよね。)

　これまでは、2つの予測モデルがあった場合、どちらの方が精度が高いのか比較する場合は、このC統計量を使ってきました。しかしながら、C統計量は臨床的関連性の欠如と、C統計量の小さな変化の解釈が難しく、この指標は良い指標ではないと言われるようになりました。↓

pubmed.ncbi.nlm.nih.gov

Net Reclassification Improvement (NRI)、Integrated Discrimination Improvement (IDI)

　C統計量はあまり良い指標ではないという流れがある事は説明しました。では、どのように予測・診断モデルの比較をすればよいのか？という事で、C統計量とは別の指標として、NRIとIDIが出てきました。NRIとIDIは、予測モデルが予測したいイベントをどれだけ分けられるか？というもののようです。という事で、予測モデルの比較には、NRIとIDIを使えばいいじゃない！と思いがちです。

　NRIとIDIの理論もよろしくないことが理論上証明されております。Hilden and Gerds（2013）らは、NRI統計が大きくバイアスされる可能性があることを示しております。↓

A note on the evaluation of novel biomarkers: do not rely on integrated discrimination improvement and net reclassification index

　特に問題になるのは、モデルが実際に予測パフォーマンスを向上させない場合でも、テストデータで評価すると、NRI値が正になるため、トレーニングデータにモデルがオーバーフィットすると予測パフォーマンスが向上する傾向があるという事実です。ちょっと難しいですよね。つまり、NRIやIDIでp値が0.05未満でも、本当かどうかは分からないですよということのようです。一応、引用文献を載せておきます。

www.ncbi.nlm.nih.gov

この論文の結論では、真陽性と偽陽性の使用を推奨するとしておりますね。混合行列（感度や尤度など）、NRI、IDI、C統計量など様々な要因を考慮する必要がありそうです。

最近は、新たな指標として、Decision Curve Analysis（DCA）という指標もあるようです。疾患を見逃す重さと、過診断する重さは違うでしょ！という内容のようですね。癌検査の領域では使用されているみたいです。

DCAに関連した論文を載せておきます。（次回あたりにまた記事に残しておきたいと思いますが。。。）

pubmed.ncbi.nlm.nih.gov

www.ncbi.nlm.nih.gov

Decision Curve Analysis（DCA）に関する論文は増加傾向にあるようです。

f:id:Takuma_AI:20200818093722p:plain