AGAVA Antispam Gateway - новый корпоративный антиспам

Июнь 11, 2006

Я согласен, что многие его используют, но есть продукты и без байеса, тот же Спамтест, теперь уже Антиспам Касперского. Ашманов неоднократно говорил, что они не будут внедрять байес по причине его возможной "переобучаемости", вы об этом правильно написали ниже.

Ашманов ничего не внедрит, т.к. продал Спамтест. Они исследовали байеса (и разочаровались) на примере оного в SpamAssassin'e, а это все равно что судить об автомобилестроении, испытывая инвалидную коляску. У них и против SPF/Sender-ID вначале возражения были, однако ж используют его все их клиенты.

Ашманов очень вовремя продал проект, т.к. тупиковость этого направления совершенно очевидна: для таких больших клиентов как mail.ru вообще нет большой нужды в таком продукте как SpamTest, т.к. при миллионах ящиков более эффективны детекторы массовых рассылок (на базе частоты писем и на базе спам-ловушек) - как только соотв. западные продукты выйдут на российский рынок (т.е. расставят спам-ловушки и в рунете , они это покажут. А корпоративные клиенты легко убеждаются в преимуществах байеса над эвристическими правилами спамтеста. Кстати, DCC-фильтры и спам-ловушки тоже основаны на статистическом подходе, хотя и не на байесе, конечно

"Переобучаемость" как раз более свойственна эвристическим фильтрам, настраиваемым вручную - поиграйте с коэффициентами. А байес делает при обучении "резких поворотов" - работа байесовой базы в чем-то напоминает работу человеческого мозга (база - аналог багажа опыта). Проблема только в том, что, тоже как и человеку, байесу нужен толковый учитель, не противоречивый

Кстати, о том, что аккуратность статистических фильтров значительно выше аккуратности человеческой ручной фильтрации, были уже научные исследования на Западе. А сейчас идет интересный эксеримент SpamOrHam.org, который статистически (с участием большого числа людей покажет, что TREC Public Spam Corpus содержит массу ошибок - как раз из-за недооценки статистического подхода к проблеме.

В общем, спорить о том, применимы ли статистические фильтры (байес в частности) даже не интересно. Они УЖЕ практически вытеснили первое поколение фильтров - основанных на правилах, а не на статистике. Поспорить можно о том, какой из статистических методов более эффективен, или удобнее в использовании, и т.д. А не о факте применимости.

Добавлено спустя 19 минут 1 секунду:

А есть категория отсылателей , кому абсолютно не важно ответят или нет и более того им ответа не надо.

Кому не требуется прочтения его письма - НЕ ПИШЕТ ПИСЕМ!

А "детская технология проталкивания" доказала свою жизнеспособность многолетней практикой. AAG - не первый в мире продукт, где это используется.

технология..и пахнет новой угрозой под названием ФИШИНГ сообщений 550 от антиспама АГАВА.
Представляете, приходит вам письмо с фразой:

Вы тут письмо послали, но оно не дошло КЛИКНИТЕ по ссылочке..

А там Троянчик..

В общем.. неразумная штука.

Троянов бояться - в Сеть не ходить. Если человек кликает по любой присланной ему ссылке, то он попадется на любое письмо. Агавой больше или меньше - никак не влияет. Вот разошлите миллион писем "вы зарегистрировались на форуме anti-malware.ru, нажмите на URL для чтения ваших сообщений" - и тысячу кликов на этом урле получите, причем независимо от того, куда этот урл ведет.

А если человек только что посылал письмо на anti-malware.ru и тут же (в течении 2 минут) получил отлуп "ваше письмо в anti-malware.ru посчиталось спамом, чтобы протолкнуть нажмите на http://anti-malware.ru/MailClassify/ваш@email.eml", то у большинства хватит ума понять, что это про его письмо, и нужно что-то сделать.

И, напомню, это проталкивание - не метод борьбы со спамом в AAG! ) Методом там является байес. А проталкивание дает шанс тому одному из 100 000 или миллиона писем, на которое он ложно сработает. Т.е. тем письмам, которые в обычных спам-фильтрах просто МОЛЧА ТЕРЯЮТСЯ. Поэтому обсуждать здесь нужно не "хорошо или плохо наличие проталкивания", а "почему другие спам-фильтры не предоставляют НИКАКОГО механизма проталкивания".

Если у вас есть идея, как еще (без проталкивания?) можно уменьшить риск ложных срабатываний (которые случаются абсолютно во всех спам-фильтрах), то мы все будем очень рады послушать. И может быть в свою очередь покритиковать

Июнь 11, 2006

Еще хотел спросить, сейчас много говорят о фишинге, планируется ли добавить в продукт фильтры фишинговых рассылок (фильтрация по URL теле письма в первую очередь)?

Для фишинга не нужны отдельные уникальные методы фильтрации. Для AAG это обычный спам. Даже если фишер полностью скопирует текст соответствующего легитимного письма, то все же часть заголовков и собственно урл будут иными (отсутствующими в базе байеса, либо уже засветившиеся при обучении в спаме), что сильно повлияет на байесову оценку, и железно отправит в спам.

Кстати, AAG и вирусы может фильтровать как обычный спам. Антивирус предлагается опционально - специализированный антивирус (в AAG это Dr.WEB) и экономит ресурсы, и точность работы антивируса (в отношении вирусов) все же выше, чем у антиспамов. А вот против неизвестных антивирусу (новых) вирусов антиспам очень помогает.

SURBL для ловли конкретно урлов фишинга прикруть, конечно, не проблема для любого антиспама. Но это только увеличит число ложных срабатываний - что, например, делать, если вы хотите переслать товарищу пример фишингового сайта (вы оба специалисты по безопасности), а фильтр вашего товарища сработает на урл фишера.

А Байес дает композитную оценку - это в чем то похоже на "веса правил" (или коэффициенты) в эвристических фильтрах типа SpamAssassin, но намного точнее - веса автоматически назначаются для каждого слова, и не от балды, как в правилах SA, а на основе реальной статистики их использования в письмах до этого.

Если фильтрация по языку сообщения?

Есть. Тот же байес!

Если вы не хотите читать корейские письма - отправьте пару корейских писем в спам - и байес тут же начнет фильтровать письма по этому языку. Причем вам даже не потребуется выяснять, чем именно корейские письма отличаются от русских - какая строка там в content-type, mime-кодировании, и т.д.

По-моему, такие вопросы от непонимания принципа статистической фильтрации. Байес обучается как человек - на образцах. Когда вы видите корейское или там японское письмо - вы сразу думаете "это что-то дальневосточное", не применяя для этого вывода никаких формальных правил, а только свой опыт - вам когда-то в детстве на вопрос "а что это за картинки из палочек" мама ответила "а это японские иероглифы, сынок". Точно также работает байес. Если хотите, вы можете натаскивать его не на "спам-не спам", а на "Толстой-Достоевский", и он сможет отличать Толстого от Достоевского - и при этом тоже не нужно будет изучать, какими особенностями речи и стиля эти писатели отличаются.

Июнь 12, 2006

Честно говоря, я не собирался вступать в обсуждение Agava AntiSpam, просто потому что это конкурирующий продукт, который я до сих пор не видел и ничего про него не знаю. Но раз происходит обратное, обсуждение СпамТеста/Kaspersky Anti-Spam, то про KAS и связанное с ним я высказаться вполне могу.

Ашманов ничего не внедрит, т.к. продал Спамтест. Они исследовали байеса (и разочаровались) на примере оного в SpamAssassin'e, а это все равно что судить об автомобилестроении, испытывая инвалидную коляску.

Это абсолютно неверно. Мы тестировали как популярные продукты, так и свои реализации что чистого Баейсовского метода, что Фишера. Разочарования тоже не было, потому что свое отношение к обучаемым методам классификации в серверных приложениях было сформировано еще раньше, тестировали исключительно для проверки своих предположений, которые подтвердились.

В персональных антиспамах методы с обучением являются дешевым способом получить хоть какой-то фильтр, в общем-то, даже у кого-то работает. Однако я уже несколько раз наблюдал забавную картину: некий пользователь (с блогом) устанавливает себе фильтр с обучением, количество спама у него резко уменьшается и он в своем блоге пишет, что, допустим, две недели назад поставил фильтр и теперь у него все хорошо. А месяца через 4 появляется другой пост: как все плохо, нормальную почту отправляет в спам и т.д. После чего он удаляет фильтр, ставит какой-нибудь новый, обучает две недели и радостно сообщает миру, что наконец обрел счастье

Кроме того, чем плох метод Фишера, который сейчас реализован в SpamAssassin'е? Его показатели вполне приличные.

(в скобках замечу про автомобилестроение: у нас работают профессиональные прикладные лингвисты, для которых задачи классификации текстов являются насущным хлебом)

Ашманов очень вовремя продал проект, т.к. тупиковость этого направления совершенно очевидна

Скажите, TrendMicro или Brigthmail тоже следует тупиковому направлению? Вообще говоря, очевидна именно востребованность продукта. Ситуация такова, что вопрос о том, нужен ли антиспам, практически не задается, клиенты озадачены выбором продукта. Торговое преимущество в одном методе с обучением в серверных приложениях, на мой взгляд, сомнительное.

Причины продажи продукта сам Игорь уже сформулировал: http://www.spamtest.ru/weblog.html?weblogid=29897

для таких больших клиентов как mail.ru вообще нет большой нужды в таком продукте как SpamTest

Эта утверждение более чем странное. Mail.Ru использует Спамтест (Антиспам Касперского) на своих серверах вот уже несколько лет и мы собираемся вскоре внедрять туда третью версию KAS (тех. релиз которого запланирован на июль). И я пока что ничего не слышал о том, что эта работа не нужна, скорее, наоборот (при том, что DCC на mail.ru есть). У Вас есть иная информация?

при миллионах ящиков более эффективны детекторы массовых рассылок (на базе частоты писем и на базе спам-ловушек) - как только соотв. западные продукты выйдут на российский рынок (т.е. расставят спам-ловушки и в рунете Smile, они это покажут. А корпоративные клиенты легко убеждаются в преимуществах байеса над эвристическими правилами спамтеста. Кстати, DCC-фильтры и спам-ловушки тоже основаны на статистическом подходе, хотя и не на байесе, конечно

Тут совсем все смешалось.

Во-первых, DCC и Баейесовские методы это принципиально различные методы, несмотря на использование внутри статистики (а еще математики, сложение чисел тоже везде внутри используется...) DCC это сигнатурный формальный метод (то есть, выявляющий формальный признак массовости), а Байес --- метод классификации с обучением. Это абсолютно разные методы.

Во-вторых, западные продукты уже в России. Правда, самый крупный вендор подобного решения (и владеющий патентом на его использование в США), commtouch, все больше ищет локальный продукт, куда можно интегрировать его RPD, а не продает сам. Похожая технология реализована в Спамообороне (но там для пополнения базы шинглов используется собственная почтовая система Яндекса). Ну и в KAS 3.0 включена технология UDS для повышения скорости реации спамлаба на ситуацию в интернете.

В-третьих, корпоративным клиентам нужна стабильность работы продукта. Я уже много раз говорил, что разработчики антиспам-решения на базе методов с обучением, перекладывают ответственность за работу фильтра с себя на пользователя. Вот, к примеру, случится ложное срабатывание, что делать корпоративному клиенту? Обратиться к разработчикам? Так те ему резонно заметят, что фильтр работает так, как он его обучил (Толстого с Достоевским распознавать, к примеру), а если ложное срабатывание случилось, то отправитель мог нажать на кнопку и протолкнуть. Обучили сами, сами на кнопку не нажали --- кругом виноваты. А с другой стороны --- действительно, что могут сделать разработчики? После того, как фильтр попал к клиенту, он разработчиками не управляется. Как я уже написал выше, я обсуждаемый продукт не тестировал. Однако, на месте корпоративного клиента, я бы думал именно о чем-нибудь в этом духе, это следствие использования технологии с обучением.

В общем, спорить о том, применимы ли статистические фильтры (байес в частности) даже не интересно. Они УЖЕ практически вытеснили первое поколение фильтров - основанных на правилах, а не на статистике. Поспорить можно о том, какой из статистических методов более эффективен, или удобнее в использовании, и т.д. А не о факте применимости.

Кто конкретно и кого вытеснил? Все известные мне фильтры двигаются в сторону использования большого количества доступных методов. Но метод с обучением на сервере более чем странен. Вообще, обратите внимание на крупных вендоров серверных антиспамов: нет у них методов с обучением. Потому что, совершенно непонятно, кто должен обучать и что после этого с результатом обучения делать, если вдруг что сломается.

Обучение есть у производителей appliance-решений ("железок"), но оно там появляется отдельное для каждого пользователя. И появится оно там может тогда, когда производитель железки туда же поместил и почтовые ящики пользователей. Тогда обучение происходит либо через веб-интерфейс, либо через какой-нибудь плагин к аутлуку, который вешает кнопку в интерфейс аутлука.

Правда, Вы могли опять объединить формальный метод определения массовых рассылок и метод с обучением в одну группу "статистических методов". Но тогда Вы вводите читателей в заблуждение, потому что, во-первых, детекторы массовых рассылок никого не вытеснили, а дополнили и, во-вторых, не имеют отношения к обучению.

AAG - не первый в мире продукт, где это используется.

Не первый. Но нет массовости использования (по причинам, которые выше приводились)--- а если бы она была, то что помешало бы спамерам заходить на урл, если он был указан в тексте reject'а? Спрограммировать это достаточно просто.

что, например, делать, если вы хотите переслать товарищу пример фишингового сайта (вы оба специалисты по безопасности), а фильтр вашего товарища сработает на урл фишера.

Это частный случай. А что им делать, если один другому захочет переслать вирус? Очевидно, специалисты по безопасности о фильтрах забывать не должны и усложнение им работы вряд ли можно считать недостатком.

Если хотите, вы можете натаскивать его не на "спам-не спам", а на "Толстой-Достоевский", и он сможет отличать Толстого от Достоевского - и при этом тоже не нужно будет изучать, какими особенностями речи и стиля эти писатели отличаются.

Кстати, интересный тезис. Можете попробовать? Обучить на полном собрании сочинений Л.Н. Толстого и Достоевского, а потом, к примеру, проверить классификацию их переписки? Интересно, что получится.

Я, правда, думаю, что классификатор, основанный на токенах-словах, не заметит разницы между двумя наборами русских слов а речь и стиль лежат за пределами частнотностей употребления конкретных слов, как мне кажется.

Июнь 12, 2006

Есть. Тот же байес! Smile Если вы не хотите читать корейские письма - отправьте пару корейских писем в спам - и байес тут же начнет фильтровать письма по этому языку. Причем вам даже не потребуется выяснять, чем именно корейские письма отличаются от русских - какая строка там в content-type, mime-кодировании, и т.д.

Замечательно, что можно обучить, в этом никто не сомневался, но я думаю гораздо удобнее просто поставить галочки "принимать письма только на русским и английском языке". Согласитесь, это гораздо проще, чем обучать на двух китайских, японских, корейских, арабских и т.д. письмах :-)

SURBL для ловли конкретно урлов фишинга прикруть, конечно, не проблема для любого антиспама. Но это только увеличит число ложных срабатываний - что, например, делать, если вы хотите переслать товарищу пример фишингового сайта (вы оба специалисты по безопасности), а фильтр вашего товарища сработает на урл фишера.

Для специалистов по безопасности можно сделать возможность не использовать этот RBL, это не тянет на причину отказа от антифишинга. Вообще фишинг было бы полезно сделать из маркетинговых соображений, эта угроза набирает обороты и наличие такой фичи было бы еще одним плюсом.

Июнь 13, 2006

Мы тестировали как популярные продукты' date=' так и свои реализации что чистого Баейсовского метода, что Фишера. Разочарования тоже не было, потому что свое отношение к обучаемым методам классификации в серверных приложениях было сформировано еще раньше, тестировали исключительно для проверки своих предположений, которые подтвердились.[/quote']
Тестировали ведь разработчики [старого фильтра]? А нужно было независимое тестирование провести, или хотя бы обзоры почитать.

В персональных антиспамах методы с обучением являются дешевым способом получить хоть какой-то фильтр' date=' в общем-то, даже у кого-то работает. Однако я уже несколько раз наблюдал забавную картину: некий пользователь (с блогом) устанавливает себе фильтр с обучением, количество спама у него резко уменьшается и он в своем блоге пишет, что, допустим, две недели назад поставил фильтр и теперь у него все хорошо. А месяца через 4 появляется другой пост: как все плохо, нормальную почту отправляет в спам и т.д.[/quote']
Заведу себе блог, где расскажу, как _4 года назад_ перевел наш сервер со SpamAssassin'а на байеса (в SA байеса тогда еще не было), и ни разу ни я, ни кто из наших пользователей об этом не пожалел. Вот сегодня мне пролезло только одно спам-письмо невиданной ранее тематики про общину беременных женщин (байес подумал, "а вдруг хозяину интересно", и пропустил , а зашел в свою папку спам IMAP'ом - более 4000 писем, больше 1000 из них пролистал для проверки - ложных срабатываний ни одного.

И тут же в том же блоге расскажу, как на соседнем компьютере программа "mail.ru агент" ежеминутно пиликает о новой почте, сейчас говорит о 1800 новых письмах. Уверен, что среди них всего несколько по делу, остальное спам. Так вы говорите, СпамТест на mail.ru стоит? Плохо стоит, значит

Но моё высказывание в блоге будет частным мнением, мало что говорящим об общей картине. Кто-то байеса обучить не может, а у кого-то в свежезаведенный ящик на mail.ru ни одного спам-письма не приходит. И это уже меняет статистику... Вот тут мы подходим к самому главному - почему я так упорно не отделяю байеса от других _статистичеких_ методов. Потому что один-два-десять блогов - ни о чем не говорят. И также 5-10-20-100 лингвистов в сумме (даже лучших в мире лингвистов, работающих в СпамТесте) - тоже очень мало. Если бы эти лингвисты крутили свои коэффициенты (одни и те же) и правила голосованием - толку было бы больше, т.к. тут уже погрешность одного лингвиста хоть как бы _статистически_ сглаживалась работой других. Или, представьте, на сайте del.icio.us было не 100 000 участников, а 20 - можно было бы на основании поиска по этому сайту судить о _реальной_ "закладочной популярности" того или иного сайта? Или по логу одного часа работы веб-сайта делать глобальные выводы о его посещаемости? Статистические методы потому и статистические, что начинают надежно работать только когда есть обширный материал для статистических расчетов. Вася Пупкин, владелец больших и малых блогов, за две недели или даже за 4 месяца скормит своему фильтру несколько сотен, ну может быть тысяч писем, сделав при том ошибки классификации в 5% случаев, да и не-спам писем у него за эти месяцы будет всего сотня. Нельзя судить ни о чем по таким тестам. Это не статистика, а баловство. Нужно взять многолетние архивы спама и не-спама (желательно со своего сервера, или в крайнем случае выпросить у ваших лингвистов) - сотни тысяч или миллионы писем обоих классов, и обучить на них байеса (или фишера, маркова, хи-квадрат, выносливого супер-лингвиста - в общем кого хотите) - вот тогда стат.методы будут работать железно. И 99.99%/0.0001% будет не предел. Тогда и при ложных срабатываниях еще можно будет поспорить, кто здесь более прав - ты сегодняшний, или ты же в тысяче таких же случаев до этого (твой байес) - может это ты сегодня ложно сработал

(в скобках замечу про автомобилестроение: у нас работают профессиональные прикладные лингвисты' date=' для которых задачи классификации текстов являются насущным хлебом)[/quote']
Я в курсе. Но сотня самых талантливых лингвистов могут ничего не смыслить в математике (конкретно статистике) и по простоте душевной (и по несчастию своему) пользоваться не самыми оптимальными инструментами, которые им предложили программисты или навязали начальники. Я абсолютно уверен, что если бы у вас стат.методы использовались шире (теми же лингвистами), то не было бы такого к-ва спама в наших inbox'ах на mail.ru. Честное слово, на это (спам в mail.ru и пр.) просто больно смотреть, и искренне жаль ваших лингвистов, и вообще впустую потерянного времени миллионов людей. На нашем сервере проблема спама была практически полность снята еще 4 года назад, и у многих наших клиентов, поставивших байеса по нашему совету - тоже. И с тех пор качество его работы только повышалось - ни с какими проблемами "переобучения" и т.п. мы не сталкивались. И вообще стат.методы стали ядром интернета - "социальные сети" туда же можно отнести, поисковые машины, и т.п. Все связано и работает по сходному принципу - при больших выборках из данных прямо "искусственный интеллект" прёт

Ашманов очень вовремя продал проект' date=' т.к. тупиковость этого направления совершенно очевидна[/quote']
Скажите' date=' TrendMicro или Brigthmail тоже следует тупиковому направлению?[/quote'] Хороший вопрос! Brightmail хоть и не байес, но _статистический_ фильтр. А "законы больших чисел" (а не маленьких групп лингвистов) везде работают хорошо.
Ситуация такова' date=' что вопрос о том, нужен ли антиспам, практически не задается, [/quote']Согласен, сомневаются в необходимости антиспама только те, кто пользуется почтой эпизодически (и не помнят своих адресов . Остальным антиспам безусловно нужен.
клиенты озадачены выбором продукта. Торговое преимущество в одном методе с обучением в серверных приложениях' date=' на мой взгляд, сомнительное.[/quote']Возражение в стиле "кибернетика - продажная девка империализма". Статистический фильтр - это не "один метод с обучением". Даже если бы в каком-то продукте использовался "голый байес в одиночку", то даже такой фильтр был бы тысячей методов (по среднему количеству слов или иных статистически анализируемых элементов одного письма). Посмотрите на формулу байеса и сравните той с формулой, в которую в итоге подставляются в СпамТесте страдания ваших лингвистов - уверен, там очень похожий полином. Разница только в том, что 20 лингвистов ошибутся в конкретном члене намного сильнее, чем элементарная (но большая статистика предыдущих классификаций по этой конкретной характеристике письма.
Причины продажи продукта сам Игорь уже сформулировал: http://www.spamtest.ru/weblog.html?weblogid=29897

Читал. При всем уважении к Игорю - я не верю' date=' что там указаны все причины. И даже в то, что указаны главные. И вообще, этот его пост о маркетинге, а мы тут пытаемся говорить о технологиях
для таких больших клиентов как mail.ru вообще нет большой нужды в таком продукте как SpamTest

Эта утверждение более чем странное. Mail.Ru использует Спамтест (Антиспам Касперского) на своих серверах вот уже несколько лет и мы собираемся вскоре внедрять туда третью версию KAS (тех. релиз которого запланирован на июль). И я пока что ничего не слышал о том' date=' что эта работа не нужна, скорее, наоборот (при том, что DCC на mail.ru есть). У Вас есть иная информация?[/quote']

Использует потому, что никто другой просто не взялся за поддержку столь масштабного проекта. И может быть и не возьмется никто (и Агава не возьмется). За мужество, конечно, СпамТесту честь и хвала. Но это опять не о технологиях фильтрации. Это отдельная опера о технологиях техподдержки крупных контор и критически важных приложений. Там на первый план выходят вопросы масштабирования софта, а также скорости и стабильности реакции поддержки и т.п. Те вопросы, которые в среднестатистической конторе с её сотней ящиков никогда не возникнут. Соответственно нужен совсем другой подход. Кстати, именно поэтому Ашманов в том посте говорит о своей монополии "у больших". Потому как больше нигде их монополии нет, даже заметного присутствия нет. Из того же поста видно, что СпамТест даже со SpamAssassin'ом не берется тягаться. Т.е. фактически львиная доля корпоративных клиентов - средние и мелкие котнторы - СпамТесту не по зубам. Не потому что он дорогой - нет, не дороже самого почтового сервера этих контор. Просто методы работы (бизнеса) несовместимы. Может быть Касперским будет по зубам - поживем, увидим

Тут совсем все смешалось.
Во-первых' date=' DCC и Баейесовские методы это принципиально различные методы, несмотря на использование внутри статистики (а еще математики, сложение чисел тоже везде внутри используется...) DCC это сигнатурный формальный метод (то есть, выявляющий формальный признак массовости), а Байес --- метод классификации с обучением. Это абсолютно разные методы.[/quote']

Ключевая фраза "использование внутри статистики" - именно по этому принципиальному признаку я отношу их к одному большому классу - статистические фильтры. Разница между DCC (их тоже несколько видов, DCC их называют просто для сокращения и "в память" о первом примененном методе сравнения писем без пересылки их содержимого, о той первой "социальной сети" обучателей фильтра и байесом только в том, какие именно характеристики писем участвуют в стат.расчетах. Каким-то разновидностям таких фильтров образцы спама и не-спама присылают сами пользователи (байес, исходный DCC и все прочие продукты и сервисы, где есть кнопка "пожаловаться на спам"), каким-то фильтрам образцы спама шлют сами спамеры (миллионы "подставных" ящиков-ловушек), и т.д. Эти письма можно очень многими методами обрабатывать статистически, и собственно только способом "выжимки" писем они и отличаются - кто-то IP подсчитывает, а кто-то тексты парсит и слова в базу кладет, а кто-то всего понемногу. Тут, кстати, даже разные байесы друг от друга сильно отличаются. Например, SpamProtexx, насколько мне известно, какую-то стат.информацию берет даже из бинарных аттачей. А ведь есть и байесы, которые MIME не декодируют и даже слова не выделяют, а в качестве слов используют как-то иначе выделяемые цепочки байт. Потому если разные байесовы фильтры обучить на одних и тех же выборках, то их последующая классификационная работа может временами не совпадать (если интересно, расскажу о реальном годичном опыте использования двух разных байесов одновременно - тоже дает пищу для размышления .

СпамТест - тоже обучаемый (лингвистами! фильтр. Но воинствующе-антистатистический Могу проиллюстрировать разницу: каталоги сайтов типа яндексового YaCa, Yahoo, OpenDirectory и т.п. создаются людьми - редакторами-специалистами, типа ваших лингвистов. Можно доверять описаниям, которые они пишут (или одобряют), и другие плюсы у такого подхода. Но, таковых редакторов сотни (у яндекса даже меньше). Могут ли они объять необъятное? О то ж. Эти каталоги не охватывают и 1% сайтов. Да, может быть, они охватывают 80% заслуживающих внимания сайтов, но этого мало. Так же и СпамТест - фильтрует 90%, вроде бы много, но если у меня 2000 спам-писем в день, то значит СпамТест пропустит аж 200 в день !!

Статистические альтернативы ручному подходу наполнения каталогов мы хорошо знаем - это поисковые машины и "социальные" сервисы типа del.icio.us. Поисковики охватывают десятки процентов Сети (т.е. больше чем 1% . А del.icio.us охватывает 99.9% интересного этой аудитории (участвующей в "обучении" сервиса своими закладками) контента, в т.ч. самого свежего, не найденного даже поисковиками (авторы постят).

Во-вторых' date=' западные продукты уже в России. Правда, самый крупный вендор подобного решения (и владеющий патентом на его использование в США), commtouch, все больше ищет локальный продукт, куда можно интегрировать его RPD, а не продает сам. Похожая технология реализована в Спамообороне (но там для пополнения базы шинглов используется собственная почтовая система Яндекса). Ну и в KAS 3.0 включена технология UDS для повышения скорости реации спамлаба на ситуацию в интернете.[/quote']
Когда Commtouch будет в России - они мне напишут (потому что я тот партнер, которого они ищут), или я захочу им написать, прочитав их выгодное предложение в рупорах рунета, или когда наши клиенты (многие тысячи установленных почтовых серверов) попросят об интеграции с их сервисом. А пока они не в России, а в узких кругах особо приближенных Впрочем как и отечественная Спамооборона

В-третьих' date=' корпоративным клиентам нужна стабильность работы продукта. Я уже много раз говорил, что разработчики антиспам-решения на базе методов с обучением, перекладывают ответственность за работу фильтра с себя на пользователя. Вот, к примеру, случится ложное срабатывание, что делать корпоративному клиенту? Обратиться к разработчикам? Так те ему резонно заметят, что фильтр работает так, как он его обучил[/quote']
Правильно, правильно. Представления о спаме у клиентов очень разные, поэтому на них и нужно перекладывать ДОобучение фильтра (так же как на них перекладывают настройку софта!!!). Мне нравится один пример из жизни, присланный клиентом - в его конторе спам о горящих турах не считается спамом, а очень даже интересен, т.к. они туроператоры. В СпамТесте есть опция "пропускать спам о туризме"? А? Лингвистов СпамТеста просить? Белые списки заполнять (жуть!, просто невозможно представить конторского админа за таким занятием - точнее, представить-то можно, но результат врядли их обрадует). А в байесе это элементарно - скормить ему папку "предложения любимых конкурентов", и через минуту он уже ЗНАЕТ, что такое "письма для путешественников" ЛУЧШЕ свеженанятого для сортировки спама секретаря

Кто конкретно и кого вытеснил? Все известные мне фильтры двигаются в сторону использования большого количества доступных методов.

Ключевое слово здесь - "большое". Статистика - это и есть большое к-во методов. 100 лингвистов - маленькое.
Но метод с обучением на сервере более чем странен. Вообще' date=' обратите внимание на крупных вендоров серверных антиспамов: нет у них методов с обучением.[/quote']
Значит СпамТест вы крупным ведором не считаете? Или чем там лингвисты занимаются, как не обучением фильтра?

Потому что' date=' совершенно непонятно, кто должен обучать и что после этого с результатом обучения делать, если вдруг что сломается. [/quote']
А что вы делаете, если в результате _ваших_ настроек (или просто неумышленной порчи - стёрли нужный файл) ломается ваш Windows? Себя вините или в MS звоните? А если Linux поломал (или не сумел установить) ваш админ? Ему по голове стучите или Линусу Торвальдсу?

В отношениях поставщик-потребитель всегда какая-то часть ответственности ложится на потребителя (в случае софта в лицензии обычно пишут, что вообще вся . Если покупатель как-то "сильно переучил" байеса, то ему нужно восстановить один файл - байесову базу - к состоянию на момент установки (при этом он фильтрует с качеством, сравнимым со СпамТестом, или лучше), и более ответственно подходить к его обучению (нужно считать Байеса своим сотрудником - приходит он к тебе "бакалавром с опытом", а дальше как ты его обучишь, так он и будет работать). Вот и всё.

Кстати' date=' интересный тезис. Можете попробовать? Обучить на полном собрании сочинений Л.Н. Толстого и Достоевского, а потом, к примеру, проверить классификацию их переписки? Интересно, что получится.
Я, правда, думаю, что классификатор, основанный на токенах-словах, не заметит разницы между двумя наборами русских слов а речь и стиль лежат за пределами частнотностей употребления конкретных слов, как мне кажется.[/quote']

Я согласен попробовать с Толстым и Достоевским. Если вы оплатите мне вебманями соответствующий простой ($5000 хватит), то выполню тесты и пришлю результаты работы и программы (чтобы вы могли проверить). Если байес не сможет отличить Толстого от Достоевского, я верну вам деньги с процентами (как если бы ссуду брал на этот срок . Если сможет, то я оставлю ваши деньги себе, а вы обогатитесь верой в стат-методы. Спец-версий байесов я писать не буду - попробую существующие, в т.ч. AAG. Предложение действительно в течение месяца (потом буду сильнее занят, сумма увеличится .

Предупреждаю, что Толстого от моих клиентов и друзей мой байес уже умеет отличать - Толстой, увы, записался в спамеры (несколько спам-писем с приписками из "Войны и мира" прорывались в inbox, пришлось пожертвовать искусством и отправить эти письма в спам, байес мою волю усвоил).

И еще, напомню, _статистические_ инструменты установления авторства уже давно существуют, и сносно работают. Был даже какой-то онлайновый инструмент в рунете несколько лет назад - вроде бы не очень удачный. Нашей задачей в эксперименте (если мы за него возьмемся) будет выяснение - годится ли для этой работы обычный байес с почтовым уклоном.

И еще, раз уж заговорил о "других статистиках": гугловый переводчик, который берет призовые места на конкурсах автопереводчиков - тоже статистический. Яндексовая орфография - тоже. Всемирный тренд лингвистики в статистику налицо Техника в конечном итоге имитирует природу (мышление тоже статистический процесс).

Заканчиваю. Раздразнили вы меня любимой темой

Добавлено спустя 14 минут 58 секунд:

Для специалистов по безопасности можно сделать возможность не использовать этот RBL' date=' это не тянет на причину отказа от антифишинга. Вообще фишинг было бы полезно сделать из маркетинговых соображений, эта угроза набирает обороты и наличие такой фичи было бы еще одним плюсом.[/quote']
Да, пожалуй, Агаве стоит где-то на сайте дописать "защита от спама, вирусов И фишинга". Раз вирусный спам выделили в отдельную категорию "вирусы", то можно и фишинг выделить. Ну, чтобы через поисковик находилось по фразе "защита от фишинга"

Кстати, RBL - тоже имеет отношение к статистике Одним из наиболее эффективных классических DNSBL (среди общедоступных) является cbl.abuseat.org. Потому что не сердитые админы сабмитят туда IP спамеров (как во многих RBL) и не сами владельцы RBL записывают туда "врагов интернета", а спамеры сами себя записывают, отправляя письма в ловушки этого RBL. Поэтому 1) он намного оперативнее и эффективнее "ручных" фильтров, 2) ложные срабатывания крайне редки, т.к. единственный способ попасть туда невинному IP - это проспамиться с этого IP, т.е. он все-таки не невинный, а может быть невинно пострадавший - например, NAT-шлюз, из подшефной сети которого кто-то проспамился (через IP NAT'а). И точно также автоматически (и без выкупов! по первому требованию исключают оттуда IP (фактически аналог "проталкивания" в AAG! . Так что и в RBL автоматическия статистика побеждает старомодные ручные режимы.

Добавлено спустя 23 минуты 33 секунды:

Не первый. Но нет массовости использования (по причинам' date=' которые выше приводились)--- а если бы она была, то что помешало бы спамерам заходить на урл, если он был указан в тексте reject'а? Спрограммировать это достаточно просто.[/quote']
А что мешает спамерам регистрировать почтовые ящики на вебмэйлах и учетные записи на форуме? Правильно - "обратный тест Тьюринга" (CAPTCHA) - "введи число с картинки", "напиши, что я сказал", javascript "сколько будет 2+3 (5)" и т.д. и т.п. Как только появилось оружие (авторегистрилки), появился и щит. И дальше будут гоняться (щит и меч) до посинения. До тех пор пока спамеры искусственный интеллект не изобретут! Тогда спамерские и антиспамерские инструменты начнут вести высокоинтеллектуальные споры, пока не превзойдут (статистически) своих создателей, и не договорятся самостоятельно поделить рынок спам-услуг и антиспам-продуктов, чтобы не утруждаться спорами впредь Людей они, конечно, начнут считать старыми версиями спам-софта, неспособными ответить на их сложные вопросы. Т.е. люди не смогут пройти тестов CAPTCHA, и начнут вытесняться из переписки как старый спам-софт (ничего личного, им и "в голову не прийдет", что это были люди), дискриминация по уровню интеллекта Дальше прогнозировать не берусь.

В случае AAG щит в лице CATCHA [пока] не нужен - как раз по указанной вами причине - нет массовости (статистически заметного применения проталкивания). И слава Богу - можно [пока] пользователей не утруждать разгадыванием кривых картинок. Ведь их не каждый может разобрать - бывает что "чукча не читатель, чукча писатель" На нашем сервере регистрируются даже "попытки проталкивания" (заходы на страницу) - на случай, если человек не дочитал до кнопки "протолкнуть" или забыл её нажать (наша страница проталкивания более многословна, чем в Агавовском AAG на скриншоте).

Июнь 13, 2006

Мне нравится один пример из жизни, присланный клиентом - в его конторе спам о горящих турах не считается спамом, а очень даже интересен, т.к. они туроператоры. В СпамТесте есть опция "пропускать спам о туризме"? А? Лингвистов СпамТеста просить? Белые списки заполнять (жуть!, просто невозможно представить конторского админа за таким занятием - точнее, представить-то можно, но результат врядли их обрадует). А в байесе это элементарно - скормить ему папку "предложения любимых конкурентов", и через минуту он уже ЗНАЕТ, что такое "письма для путешественников" ЛУЧШЕ свеженанятого для сортировки спама секретаря

как ни странно есть.. есть такая закладка

Но позвольте Вас спросить с чем ВЫ БОРЕТЕСЬ? и плз дайте определение СПАМА.

Июнь 13, 2006

> В СпамТесте есть опция "пропускать спам о туризме"?
как ни странно есть.. есть такая закладка

Отлично! Занчит вам уже задавали такой вопрос Но на любую произвольную тематику все же закладки не предусмотреть, согласитесь.

Но позвольте Вас спросить с чем ВЫ БОРЕТЕСЬ? и плз дайте определение СПАМА.

Я лично ни с чем не борюсь, всю нежелательную почту поборол еще 4 года назад (писал выше). Борются наши клиенты. У каждого своё разумение о том, что бы он хотел фильтровать. А мы (и Агава и прочие "стат.вендоры" даем им инструменты, которые помогают им фильтровать именно то, что они хотят фильтровать (или просто классифицировать). А не то, что считается спамом по Закону или что хотят фильтровать лингвисты.

Кстати, мне тут подсказали в дополнение к теме "о проталкивании" - поставщикам антиспамов без проталкивания (с молчаливой недоставкой писем) можно пришить статью "нарушение связности сети". Мнение спорное, но есть и такое... Как минимум в лицензии нужно хорошо оговаривать, на кого ложится ответственность за недоставленные письма.

Июнь 13, 2006

Борются наши клиенты. У каждого своё разумение о том, что бы он хотел фильтровать.

мне кажется такой подход очень симпатичен спамерам.

Июнь 14, 2006

Главное, что он симпатичен клиентам. Их почта, им и решать.

Июнь 15, 2006

См. на http://sysadmin.mail.ru/pforum/viewtopic.php?p=67626#67626 сравнительный тест 6 серверных антиспамов (gmail.com, hotmail.com, yahoo.com, mail.ru, yandex.ru, байеса SpamProtexx из AAG) на одном и том же реальном спам-письме, взятом из почты на gmail.com. Только яндексовая Спамооборона и SpamProtexx отфильтровали этот спам. Опять подтвердилось "родство" статистических фильтров (Спамообороны и Байеса), хоть и основанных на различных стат.признаках и формулах. А лингвисты СпамТеста (работающего на mail.ru) наверное спят, и их хваленый OCR видно не сработал, хотя картинки неискаженные.

Конечно, по одному тестовому письму делать выводы рано, но и масштабную рассылку тестового спама тоже не запустишь - в черные списки попадешь. Приходится тестировать одиночными выстрелами.

Июнь 19, 2006

Тестировали ведь разработчики [старого фильтра]? А нужно было независимое тестирование провести' date=' или хотя бы обзоры почитать. [/quote']
Неужели от перехода из одной компании в другую разработчики сильно изменяются? К примеру, я как разрабатывал KAS еще с тех пор, когда он был только библиотекой контентной фильтрации, так и до сих пор им занимаюсь. Независимого тестирования у нас, как у разработчиков фильтра, получиться никак не может по определению. И, честно говоря, я не вижу сейчас того, кто мог бы регулярно проводить полноценные независимые тестирования антиспам фильтров. Это тяжелая работа, выполнять ее на энтузиазме не получится.

(За рекомендацию почитать обзоры, большое спасибо. Вот уж чего сделать мы бы никогда не догадались...)

Вася Пупкин' date=' владелец больших и малых блогов, за две недели или даже за 4 месяца скормит своему фильтру несколько сотен, ну может быть тысяч писем, сделав при том ошибки классификации в 5% случаев, да и не-спам писем у него за эти месяцы будет всего сотня.[/quote']
Я все-таки не понимаю: какая нужна квалификация пользователя для того, чтобы получить хорошее распознавание спама без ложных срабатываний?

Тогда и при ложных срабатываниях еще можно будет поспорить' date=' кто здесь более прав - ты сегодняшний, или ты же в тысяче таких же случаев до этого (твой байес) - может это ты сегодня ложно сработал[/quote']
Вот-вот, я ровно об этом и писал в предыдущем посте. То есть, клиент, который поставил себе фильтр с обучением, обучал его, получил ложное срабатывание... но это не ложное срабатывание, потому что он сам так наобучал. Вы знаете, я давно уже, естественно в шутку, предлагал ввести в документации на продукт конструктивное определение спама: спам это то и только то, что KAS определил как спам, тогда 100% определение спама и 0% ложных срабатываний нам гарантированы. Как я вижу, я не одинок с подобными предложениями

Все связано и работает по сходному принципу - при больших выборках из данных прямо "искусственный интеллект" прёт

А потом будет восстание машин' date=' порабощение человека и полная матрица...

Brightmail хоть и не байес, но _статистический_ фильтр. А "законы больших чисел" (а не маленьких групп лингвистов) везде работают хорошо.

У Brigtmail'а два года тому назад было 4 лаборатории, в каждой из которых работало по 12 человек одновременно. Сколько сейчас --- не знаю, думаю что их количество только увеличилось.

И вообще' date=' этот его пост о маркетинге, а мы тут пытаемся говорить о технологиях[/quote']
Ппоэтому меня удивляет, что Вы связываете причины продажи спамтеста с, по Вашему мнению, технологическим проигрышем и при этом не верите самому продавцу.

СпамТест - тоже обучаемый (лингвистами! Smile фильтр.

Нет' date=' конечно же. Методы с обучением основаны на использовании экспертов, и процесс обучения есть как раз ручная классификация текстов экспертами в предметной области. Подчеркиваю --- классификации.

Другой подход --- использование вместо экспертов инженеров знаний, то есть не только специалистов в предметной области, но и специалистов в построении баз знаний (в данном случае --- классификации документов).

Первый подход дешевле: не нужны инженеры знаний, используются простые, "грубые" алгоритмы. Однако, в пограничных случаях дает сбои, подвержен трудноисправляемым (точнее, труднонаходимым) ошибкам в классификации документам самим экспертом.

Второй подход дороже, нужно воспитывать "двойных" специалистов: в предметной области и в инженерии знаний. Однако, более точен и более управляем.

Спамтест --- пример второго подхода. Обучения в нем нет.

Так же и СпамТест - фильтрует 90%, вроде бы много, но если у меня 2000 спам-писем в день, то значит СпамТест пропустит аж 200 в день !!

То есть, не пропустит 1800? И не допустит ложных срабатываний?

Мне нравится один пример из жизни' date=' присланный клиентом - в его конторе спам о горящих турах не считается спамом, а очень даже интересен, т.к. они туроператоры. В СпамТесте есть опция "пропускать спам о туризме"? [/quote']
Как тут уже написали, есть. И она там есть, потому что KAS, по сути своей, не бинарный классификатор, а классификатор по иерархическому рубрикатору, в котором внутри имеется большое количество разных категорий, относительно которых письмо классифицируется. Эта же его особенность позволяет использовать модифицированный вариант того же движка в другом продукте дочерней компании ЛК, в фильтре конфиденциальной информации.

А что вы делаете' date=' если в результате _ваших_ настроек (или просто неумышленной порчи - стёрли нужный файл) ломается ваш Windows? Себя вините или в MS звоните? А если Linux поломал (или не сумел установить) ваш админ? Ему по голове стучите или Линусу Торвальдсу? [/quote']
У продуктов обычно существует служба технической поддержки. Ровно для подобных случаев.

более ответственно подходить к его обучению (нужно считать Байеса своим сотрудником - приходит он к тебе "бакалавром с опытом"' date=' а дальше как ты его обучишь, так он и будет работать). Вот и всё.
[/quote']

Если плохо обучит, то плохо будет работать? Или как?

Если вы оплатите мне вебманями соответствующий простой ($5000 хватит)' date=' [/quote']
Странное какое-то предложение, честно говоря. Нет, не буду оплачивать.

Дальше прогнозировать не берусь.

Вы совершенно правильно описали проблемы с картинками и решением дифференциальных уравнений за 3 секунды. Хочу только добавить, что некоторое время назад, для регистрации почтовых ящиков в бесплатных почтовых системах, спамеры использовали порнографические сервера. Ну то есть, ходит человек, рассматривает, а потом ему вдруг вместо ожидаемого подсовывают картинку (свежевзятую с почтовой системы) и просят ввести нарисованную там фразу

В общем, давайте я подведу итог, почему в серверном решении методов с обучением мы не применяем:

1. продукт выходит из под контроля разработчиков.

2. усложняется поддержка.

3. черевато ложными срабатываниями из-за неверного обучения.

У отказа от обучения тоже есть, конечно, свои минусы. Главный минус обсуждается в соседней ветке про KAS 2.0: качество распознавания зависит от серверов обновлений и если они по каким-то причинам недоступны, то detection rate падает, что вызывает естественное недовольство. Над этим мы работаем и вообще думаем о постоянном канале загрузки обновлений на сервера клиентов. Однако, эти неприятности влияют на detection rate, а не false positives.

Июнь 19, 2006

определение спама: спам это то и только то, что KAS определил как спам, тогда 100% определение спама и 0% ложных срабатываний нам гарантированы.

Отлично, иронично

Вы как разработчик знаете, что у чистого продукта, работающего в режиме SPAM DET HARD (no RBL & DNS) действительно 0% ложных срабатываний, но при этом обнаружение не выше 70-80%.

Для добирания оставшихся 30% используются технологии DNS проверок, которые и генерят огромные кол-ва ложных срабатываний.

Объективно - сама технология СПАМ тест способна отфильтровать 70-80% спама.

(где-то выше про это писалось)

и кстати говоря - это минус эвристики, эвристика никогда не поспеет вовремя.

А вот RBL - в некотором приближении есть проактивная технология обнаружения спама, точнее признаков спама.

Обучение.

Если посмотреть в прошлое, на деклариуемый вред от спамных рассылок, то мы вспомним главный - ТРАТА ВРЕМЕНИ ПОЛЬЗОВАТЕЛЕМ.

Я считаю, что корпоративный пользователь НЕ ДОЛЖЕН ни секунды тратить на разбор СПАМА, на обучение Антиспама.. максимум он должен заботится о белом списке. Вся остальная работа должна быть возложена на администратора.

На примерах типа Билайна видно, насколько огромны траты человеко часов.

Июнь 19, 2006

Тестировали ведь разработчики [старого фильтра]? А нужно было независимое тестирование провести' date=' или хотя бы обзоры почитать. [/quote']
Неужели от перехода из одной компании в другую разработчики сильно изменяются? К примеру, я как разрабатывал KAS

Я имел в виду, что разработчики, сравнивая _свой_ продукт с каким-то чужим не могут быть на 100% объективны. Если вы признаете, что байес лучше многих используемых вами методов, то последуют какие-то неприятные последствия - если не для вас, то для ваших ближайших коллег (той же уважаемой Анне Власовой и её подопечным). Мне как _не_ разработчику спам-фильтров оценивать чужие разработки намного проще: если какой-то спам-фильтр начинает работать лучше другого, то мы просто делаем еще один plugin для нашего сервера и подписываем еще один договор - и наши пользователи получают возможность приобщиться к новым достижениям фильтрации. Кстати, виндовый Спамтест обещался уже пару лет назад, может хоть KL форсирует это.

Я все-таки не понимаю: какая нужна квалификация пользователя для того' date=' чтобы получить хорошее распознавание спама без ложных срабатываний? [/quote']
Лингвистом ему быть не нужно Ему достаточно знать, что он хочет читать, а что нет, и быть в этом своем решении достаточно последовательным.

Вот-вот' date=' я ровно об этом и писал в предыдущем посте. То есть, клиент, который поставил себе фильтр с обучением, обучал его, получил ложное срабатывание... но это не ложное срабатывание, потому что он сам так наобучал. Вы знаете, я давно уже, естественно в шутку, предлагал ввести в документации на продукт конструктивное определение спама: спам это то и только то, что KAS определил как спам, тогда 100% определение спама и 0% ложных срабатываний нам гарантированы. Как я вижу, я не одинок с подобными предложениями [/quote']
Очень большая разница. Там клиент расхлебывает свои собственные ошибки, а вы предлагаете _ваши_ ошибки считать не ошибками клиентам.

Все связано и работает по сходному принципу - при больших выборках из данных прямо "искусственный интеллект" прёт

А потом будет восстание машин' date=' порабощение человека и полная матрица... [/quote']

"Порабощение и полная матрица" уже есть, только восстаний для этого не требовалось. Как вы думаете, клетки вашего организма считают себя порабощенными? А ведь пашут как проклятые на вас А их составные части - на них. И мы как рабы пашем на Человечество, хотя и считаем себя свободными. А в сумме, статистически - все-таки пашем. Т.е. чтобы получить из нас "матрицу" - не нужно засовывать нас в какие-то жуткие агрегаты (как в том фильме) - напротив, в "свободном" состоянии мы боле эффективны. Вот так.

У Brigtmail'а два года тому назад было 4 лаборатории' date=' в каждой из которых работало по 12 человек одновременно. Сколько сейчас --- не знаю, думаю что их количество только увеличилось.[/quote']
У Агавы тоже число "антиспам-сотрудников" увеличилось. И что? Это еще один довод в пользу статистики :-))))

Нет' date=' конечно же. Методы с обучением основаны на использовании экспертов, и процесс обучения есть как раз ручная классификация текстов экспертами в предметной области. Подчеркиваю --- классификации.
Другой подход --- использование вместо экспертов инженеров знаний, то есть не только специалистов в предметной области, но и специалистов в построении баз знаний (в данном случае --- классификации документов).[/quote']

Что-то я разницы не заметил. В обоих случаях машина обучается людьми классификации документов. Только что в первом случае пользователь сам решает, что ему нужно, а что нет. А во втором случае - какой-то внешний инженер знаний (как в Китае - спец.службы решают, что можно китайцам в интернете смотреть

Первый подход дешевле: не нужны инженеры знаний' date=' используются простые, "грубые" алгоритмы.[/quote']
Очень похожие статистические "грубые алгоритмы" работают в наших головах. Т.н. "нейронные сети" - прямое подобие байесова метода (это мы несколько месяцев назад выяснили в дискуссии со специалистами по нейронным сетям). В голове, конечно, не байес, и не нейронные сети в чистом виде, но без сомнения статистический алгоритм. У каждой клетки "груьый алгоритм", а в сумме они дают функцию, позволяющую нам с вами вести эту беседу.

Однако' date=' в пограничных случаях дает сбои, подвержен трудноисправляемым (точнее, труднонаходимым) ошибкам в классификации документам самим экспертом.[/quote']Почему же? В некоторых байесовых фильтрах есть функция раскраски письма, чтобы наглядно посмотреть, какие слова в какие классы отнесены - очень помогает, когда есть "вопросы к фильтру".
Второй подход дороже' date=' нужно воспитывать "двойных" специалистов: в предметной области и в инженерии знаний. Однако, более точен и более управляем. [/quote'] © KAS. Kитайский Aнти Sпам. Конечно, спецслужбы содержать дороже, чем заниматься "самоцензурой". Но всем ли пользователям нужна внешняя цензура?
Спамтест --- пример второго подхода. Обучения в нем нет.

Тоже полезная для запоминания цитата Другими словами "наши цензоры безгрешны' date=' и повлиять на их оценки дообучением фильтра вы не можете".
Так же и СпамТест - фильтрует 90%' date=' вроде бы много, но если у меня 2000 спам-писем в день, то значит СпамТест пропустит аж 200 в день !! [/quote']
То есть, не пропустит 1800? И не допустит ложных срабатываний?

Если СпатТест (и вообще фильтры) не ставить вообще, то ложных срабатываний (фильтров) тем более не будет, т.к. некому срабатывать! :-))
Но фильтры ставят и для того, чтобы уменьшить число ложных срабатываний _человека_. Когда человек ищет иголку в стоге сена - нужные письма среди всех 2000 спам-писем, или среди 200 спам-писем, пропущенных СпамТестом-KAS - он может по ошибке вместе со спамом удалить и искомые не-спам письма.

Байес из этих 2000 спам-писем пропустит пользователю, допустим, 1-2 письма (да и те с каким-то очередным интересным изыском спамеров - как сегодня с пачкой анекдотов, приложенным к рекламе мебели - мне про Жириновского понравилось , при столь же низком уровне ложных срабатываний, как в СпамТесте. Зато уровень ложных срабатываний человека-читателя этим снизится на порядки. Повторюсь, на Западе уже проводились исследования, которые однозначно показали, что стат.фильтры занчительно _надежнее_ человека в рутине классификации.

Как тут уже написали' date=' есть. И она там есть, потому что KAS, по сути своей, не бинарный классификатор, а классификатор по иерархическому рубрикатору, в котором внутри имеется большое количество разных категорий, относительно которых письмо классифицируется. Эта же его особенность позволяет использовать модифицированный вариант того же движка в другом продукте дочерней компании ЛК, в фильтре конфиденциальной информации. [/quote']
Неужели Вы не знаете, что прп.Байес свою теорему не для спам-фильтров сочинял (400 лет назад! ?! Она использовалась в частности для оценки вероятности гипотез. А гипотез не обязательно две То, что спам-фильтры используют обычно только два класса - это, конечно, их недостаток. Но у некоторых байесовых спам-фильтров этого недостатка нет - например, PopFile может классифицировать по произвольному числу классов. У меня, например, он сортирует почту по девяти классам ("корзинам"). А почт.клиент Thunderbird по этим оценкам раскрашивает письма в inbox'е.

А что вы делаете' date=' если в результате _ваших_ настроек (или просто неумышленной порчи - стёрли нужный файл) ломается ваш Windows? Себя вините или в MS звоните? А если Linux поломал (или не сумел установить) ваш админ? Ему по голове стучите или Линусу Торвальдсу? [/quote']
У продуктов обычно существует служба технической поддержки. Ровно для подобных случаев.

И что она вам ответит в "ровно подобном случае"? ;-))

более ответственно подходить к его обучению (нужно считать Байеса своим сотрудником - приходит он к тебе "бакалавром с опытом"' date=' а дальше как ты его обучишь, так он и будет работать). Вот и всё.
[/quote']

Если плохо обучит' date=' то плохо будет работать? Или как?[/quote']
Да, верно. Изначально SpamProtexx приходит к пользователю обученным изготовителем (и работает при этом на уровне KAS-Спамтеста или скорее лучше), а потом пользователь имеет возможность его доучить - от этого он станет работать еще лучше, или хуже, это уже зависит от учителя. Хотя знания опытного "выпускника" сильно испортить сложно, но все же при достаточной настойчивости можно

Если вы оплатите мне вебманями соответствующий простой ($5000 хватит)' date=' [/quote']
Странное какое-то предложение, честно говоря. Нет, не буду оплачивать.

ОК, тем более что предложение было не моё, а ваше. А я лишь назвал стоимость, которую возьму за направление вас на путь истинный Я-то от этого эксперимента новых знаний не приобрету, с какой стати мне просто так время терять.

что некоторое время назад' date=' для регистрации почтовых ящиков в бесплатных почтовых системах, спамеры использовали порнографические сервера. Ну то есть, ходит человек, рассматривает, а потом ему вдруг вместо ожидаемого подсовывают картинку (свежевзятую с почтовой системы) и просят ввести нарисованную там фразу [/quote']
Молодцы! Проблема только в том, что посетителей порно-сайтов, ответивших правильно на этот вопрос, не хватит на проталкивание всего спама. Разве что сначала роботов так пристрастить к порно, что они будут ради этого самообучаться надписи расшифровывать для спамеров

В общем' date=' давайте я подведу итог, почему в серверном решении методов с обучением мы не применяем:
1. продукт выходит из под контроля разработчиков.

2. усложняется поддержка.

3. черевато ложными срабатываниями из-за неверного обучения.[/quote']

Ладно, останемся при своих точках мнения, как обычно А будущее нас рассудит. Посмотрим, кто будет фильтровать спам через 5 лет - статистические фильтры или Анна Власова.

Добавлено спустя 5 минут 3 секунды:

Я считаю' date=' что корпоративный пользователь НЕ ДОЛЖЕН ни секунды тратить на разбор СПАМА, на обучение Антиспама.. максимум он должен заботится о белом списке. Вся остальная работа должна быть возложена на администратора.[/quote']
По умолчанию в AAG так и сделано - дообучением спам-фильтра занимается администратор - в его веб-интерфейсе две папки, и его задача отмечать в них те письма, которые попали "не туда" (байес при этом обучается, и в случае ложного срабатывания письмо доставляется получателю). Больше ничего ему знать и уметь не требуется.

Июнь 19, 2006

Кстати, виндовый Спамтест обещался уже пару лет назад, может хоть KL форсирует это.

Так уже есть реализация антиспама под Windows в Kaspersky Security for Microsoft Exchange.

Изначально SpamProtexx приходит к пользователю обученным изготовителем (и работает при этом на уровне KAS-Спамтеста или скорее лучше), а потом пользователь имеет возможность его доучить - от этого он станет работать еще лучше, или хуже, это уже зависит от учителя. Хотя знания опытного "выпускника" сильно испортить сложно, но все же при достаточной настойчивости можно

А насколько он предобученный уже идет и на каком спаме?

Просто я считаю что минусы как раз персональных фильтров в том. что их нужно долго учить, чтобы додиться какого-то успеха.

Разрабочик может ускорить пройесс обучив его на архиве 100% спама.

Потом можно еще дать возможность скачивать предобученные конфигурации, сделать несколько штук на выбор. Я такого еще не видел ни у кого, так что дарю идею :-)

Июнь 29, 2006

Так уже есть реализация антиспама под Windows в Kaspersky Security for Microsoft Exchange.

Уже на базе спамтестового движка?

А насколько он предобученный уже идет и на каком спаме?
Просто я считаю что минусы как раз персональных фильтров в том. что их нужно долго учить, чтобы додиться какого-то успеха.

Разрабочик может ускорить пройесс обучив его на архиве 100% спама.

Потом можно еще дать возможность скачивать предобученные конфигурации, сделать несколько штук на выбор. Я такого еще не видел ни у кого, так что дарю идею :-)

И в персональном Spamprotexx, и в серверном AAG в комплект включена обученная база. Не знаю подробностей про персональную версию, но AAGшная версия обучалась на реальном спаме/не_спаме последних 15 месяцев. В качестве учителя был не человек, а более опытный другой робот (3х-летний байес), человек вмешивался только в конфликтных ситуациях, когда оценки двух фильтров не совпадали, или когда оба одинаково ошибались . Сотни тысяч, если не миллионы сообщений (спам идет на "засвеченные" еще 10 лет назад адреса, т.е. известные всем существующим спамерам . Дообучение требуется именно для тонкой подгонки под специфику конкретного предприятия. Хотя спам всем идет практически один и тот же, но у каждого своё понятие о спаме.

"Обучать на архиве 100% спама" нельзя. Нужно показать байесу сопоставимый объем не-спама. Вы сможете отличить белое от черного, если ни разу в жизни не видели белое, а всю жизнь смотрели только на черное?

Июнь 29, 2006

Уже на базе спамтестового движка?

Да, с совсем немного усеченным функционалом, насколько я знаю.

"Обучать на архиве 100% спама" нельзя. Нужно показать байесу сопоставимый объем не-спама. Вы сможете отличить белое от черного, если ни разу в жизни не видели белое, а всю жизнь смотрели только на черное?

Согласен, но в качестве белых писев вполне подойдут письма, которые у юзера есть в аутлуке, в том числе папке Исходящие, и продукт сразу таким образом будет работать.

Март 4, 2009

9 июня 2006го года я здесь написал (выше на второй странице):

"Когда Commtouch будет в России - они мне напишут (потому что я тот партнер, которого они ищут)"

Не знаю, читали ли это там, но Commtouch действительно вышел со мной на связь - почти три года спустя! - около месяца назад Протестировал, хороший сервис, будем работать (plugin для Eserv). К сожалению подробности всего - под NDA, поэтому ничего тут обсуждать не могу.

Март 4, 2009

Ответы:

1. Автор антивируса Dr.Web?

Игорь Данилов

2. Новый продукт Dr.Web, обеспечивающий комплексную защиту от самых опасных вирусов и других вредоносных программ, спама и интернет-угроз?

Dr.Web Security Space

3. Назовите не менее трех бесплатных утилит, которые предлагает компания

ООО "Доктор Веб"?

Dr.Web CureIt!

Dr.Web LiveCD

Dr.Web LinkChecker для IE

Dr.Web LinkChecker для Mozilla

Dr.Web LinkChecker для Opera

Дешифровщик от Trojan.Encoder

4. Компонент Dr.Web Security Space и Антивируса Dr.Web 5.0 для Windows,

ответственный за самозащиту?

«Atlansys Bastion Pro»

5. Вредоносная программа, эпидемия которой началась в конце 2008 года и

продолжается до сих пор. Для избавления от нее ООО "Доктор Веб" рекомендует

скачать патчи, указанные в информационных бюллетенях Microsoft, отключиться

от Интернета и просканировать компьютер скаченной утилитой Dr.Web CureIt.

Win32.HLLW.Shado w.based

6. Название интернет-сервиса, разработанного специалистами компании

ООО "Доктор Веб", для антивирусной и антиспам-защиты абонентов провайдеров,

предоставляющих доступ в Интернет?

Dr. Web AV-Desk

7. Название продукта Dr.Web, в состав которого входит криптограф?

«Dr.Web Бастион для Windows»

8. Какой функции, имеющейся в модуле Родительского контроля Dr.Web, *нет ни

у кого из конкурентов?

Отключение модуля Родительского контроля Dr.Web

9. Один из крупнейших российских банков, который на протяжении долгого

времени использует антивирусные и антиспам-продукты Dr.Web?

ВТБ24

10. Какой лицензии, имеющейся у Dr.Web, больше нет ни у одного другого

антивирусного продукта?

Лицензия Управления ФСБ России по Москве и Московской области на проведение работ, связанных с использованием сведений, составляющих государственную тайну.

Март 4, 2009

4. Компонент Dr.Web Security Space и Антивируса Dr.Web 5.0 для Windows,
ответственный за самозащиту?

«Atlansys Bastion Pro»

Правда? А мне всегда казалось, что за самозащиту отвечает Dr.Web SelfPROtect... :blink:

7. Название продукта Dr.Web, в состав которого входит криптограф?
«Dr.Web Бастион для Windows»

А вот здесь уже как раз таки «Atlansys Bastion Pro» (система криптографической защиты). "Бастион" -- это всего лишь имя бандла Dr.Web + «Atlansys Bastion Pro».

P.S. А причём тут, кстати, ответы викторины к топику "Ответ в AGAVA Antispam Gateway - новый корпоративный антиспам"?? :blink:

Март 5, 2009

Про Бейс, а то мы как то отдалились от темы, извините что на английском, как ваша система борется с этими недостатками Бейса:

Bayesian spam filtering is susceptible to Bayesian poisoning, a technique used by spammers in an attempt to degrade the effectiveness of spam filters that rely on Bayesian filtering. A spammer practicing Bayesian poisoning will send out emails with large amounts of legitimate text (gathered from legitimate news or literary sources). Spammer tactics include insertion of random innocuous words that are not normally associated with spam, thereby decreasing the email's spam score, making it more likely to slip past a Bayesian spam filter.

Another technique used to try to defeat bayesian spam filters is to replace text with pictures. The whole text of the message, or some part of it, is replaced with a picture where the same text is "drawn". The spam filter is usually unable to analyse this picture, which would contain the sensitive words like "Viagra". However, since many users disable the display of pictures in their mail clients for security reasons, the spammer might reach fewer targets. Also, a picture's size in bytes is bigger than the equivalent text's size, so the spammer needs more bandwith to send messages including pictures. Finally, some filters are more inclined to decide that a message is spam if it has mostly graphical contents.

Я в свое время опирался на исследование вот этих ребят об эффективности атак основывающихся на отравлении Бейса и для себя решил Бейс никогда не использовать (исследование 2005 года, но вряд ли что-то с тех пор кардинально поменялось в алгоритме, математика все таже ):

http://www.ceas.cc/papers-2005/125.pdf

Привожу здесь их заключение(извините еще раз,что на Английском):

Conclusion

By adding a relatively small number of easily found words, an attacker can get 50% of currently blocked spam past a

typical spam filter. While current good word attacks may be less sophisticated, any weakness of current spam filters

will eventually be exploited. Active attacks are the most effective, but good words can still be found without issuing

a single query. This means that no spam filter is safe. The only remedy we know of is frequent retraining: if we

cannot prevent attacks, we can still seek to limit their impact. Future work includes characterizing other spam attacks

(e.g., word obfuscation); exploring the relative vulnerability of other types of spam filters; finding better defenses

against good word attacks; assessing the effectiveness of retraining in more varied scenarios; and further analyzing

the effect of priors on the feature weight distributions of naive Bayes and maxent filters.

Меткий вопрос задал глубоко мной уважаемый Кирилл Керценбаум, звучал вопрос так:

В каком формате они хранятся(письма, классифицированные как спам)? База данных или физически? Это проблема многих антиспамов, где письма хранятся физически на диске и поиск осуществлять очень быстро становится невозможно.

Вы скорее всего все это на диске храните, что не есть хорошо.

Насчет того, какие методы фильтрации лучше или хуже - это все словоблудие. Все методы хороши, если они работают в конкретном случае. Эвристики не умрут в ближайшее время, устойчивые сигнатуры тоже... Бейс умирает - это все мое imho.

Представителям Agava.

Приемущества одного продукта над другим может показать только детальное тестирование на одинаковом потоке, так что показывайте что вы лучше в тестах, а не оперируйте кучей терминов,вся глубина значений которых вам не всегда понятна. А вообще чем больше фильтров, хороших и разных, тем лучше для клиента. Ничего против вас не имею. Просто если постите сообщения на специализированном форуме, готовьтесь к критике, иногда очень тяжелой

Войти

AGAVA Antispam Gateway - новый корпоративный антиспам

Recommended Posts

ac 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

ac 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

alk 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Сергей Ильин 1538

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

ac 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

broker 30

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

ac 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

broker 30

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

ac 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

ac 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

alk 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

broker 30

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

ac 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Сергей Ильин 1538

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

ac 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Сергей Ильин 1538

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

ac 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

My(aPo4eK 15

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

K_Mikhail 807

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

spamolov 20