Перейти к содержанию
EugenSV1

FN и FP - как правильно считать ?

Recommended Posts

EugenSV1

Подскажите, как правильно считать FN и FP. И какие значения считаются приемлимыми?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
broker

существует такая терминология, применительно к обучению :)

true positivs - это классификация письма как spam без последующего переопределения.

true negative - это ham, тоже без переопределения.

false positive - это ошибочное зачисление хорошего письма в spam.

false negative - сооответственно ошибочное зачисление spam в ham.

spam - письма спамного характера для обучения

ham-письма не спамного характера для обучения

false positive должно стремится к нулю, так как это реальные ложные срабатывания системы, на деле составляет от 0.001%

false negative-по идее тоже должно стремится 0.. так как говоря по русски это уровень пропуска СПАМА.. на деле измеряется в % от разницы с общего кол-ва и обнаруженных и находится в пределах от 1 до 30%

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
EugenSV1

OK - это общие понятия, и они мне известны

Попробую объяснить суть моего вопроса на примере.

Допустим, я получаю всего 15 000 сообщений в сутки

Из них система фильтрования помечает как мусор 14 000

Из этих 14 000

помечено правильно - 13 990

помечено ошибочно - 10

Доходит до пользователей - 1000 сообщений

800 - полезных

200 - мусора

Как считается FP - как 10/15000 или как 10/(10+800)

(0.0007 или 0.01)

Как считается FN - как 200/15000 или как 200/(200+13990)

Добавлено спустя 53 минуты 3 секунды:

Уже сам нашёл:

http://wiki.apache.org/spamassassin/MeasuringAccuracy

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
alk
Как считается FP

Очевидно, что как:

10/(10+800)

Потому что считается процент от ham'а.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
EugenSV1

Спасибо. Будем настраивать дальше.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

×