Продолжение про оценку классификаторов

Во-первых, обнаружил серьезную ошибку в старой своей статье по сравнению классификаторов. Позор и cтыдоба. Ошибку исправил, а заодно решил добавить кое-что полезное, что тогда не написал.

Признаюсь честно - большую часть образовательных статей я пишу не только чтобы поделиться с окружающими знаниями, но и чтобы самому не забыть. К сожалению регулярно бывает, что те знания, которыми я давно не пользуюсь, совершенно выветриваются из головы.

Статью про сравнение классификаторов я написал как раз как напоминание самому себе. Недавно я понял, что стоит туда кое-что добавить. Во-первых, это формулы еще двух часто используемых характеристик:

Specifity = TN / (TN + FP) * 100% = TN / Nn * 100% = nTN;
Accuracy = (TP + TN) / (TP + TN + FP + FN) * 100% = (TP + TN) / (Np + Nn) * 100%;

Specifity, как и nTN измеряет долю верно классифицированных "отрицательных" случаев. Accuracy (еще известная как Success rate) измеряет долю всех верно классифицированных случаев среди всего тестового набора.

Во-вторых я решил выложить excel-файл, которым пользуюсь, когда хочу одни характеристики перевести в другие. Часто бывает что в одной статье дается nTP, nFP, а в другой Precision и Recall - вот и сравнивай... Чтобы переводить одно в другое, я и сделал себе вспомогательный файл. Возможно, это кому-то ещё пригодится (качайте тут). Если найдете в нем ошибку - пишите.