Наивная байесовская эффективность фильтрации спама

Насколько эффективна наивная байесовская фильтрация для фильтрации спама?

Я слышал, что спамеры легко обходят их, добавляя лишние слова, не связанные со спамом. Какие методы программирования вы можете использовать с байесовскими фильтрами, чтобы предотвратить это?

12.12.2008 04:44:08
4 ОТВЕТА

Пол Грэм был парнем, который действительно представил идею использования байесовской фильтрации спама в сети в целом с его оригинальной статьей «План для спама» , еще в августе 2002 года. Затем, его последующее наблюдение через год или около того привело к появлению многих проблем. это быстро возникло. Это все еще отличные работы по этой теме.

Во второй статье Грэм упоминает об использовании CRM114 , который работает с гораздо более широким набором шаблонов, чем просто слова, разделенные пробелом. CRM114 - это круто, но без особой помощи при внедрении системы фильтрации спама.

Есть инструменты с открытым исходным кодом для фильтрации байесовского спама, такие как Death2Spam и SpamProbe .

Я считаю, что ничего не работает, как фильтрация почты через учетную запись Gmail. Хорошей охоты.

7
16.03.2010 11:02:10
Преимущество Google заключается в том, что они могут извлекать электронные письма из почтовых ящиков пользователей после их получения. Они также могут видеть много данных, и когда спаммер запускает фильтры Google, предыдущее отправленное ими электронное письмо также может быть удалено. Это намного сложнее сделать на маленьком почтовом сервере.
jcoffland 16.03.2016 02:11:42

Я думаю, что для победы над спамом, о котором вы упомянули, важен не метод обучения, а то, какие функции вы тренируете. Я использую OSBF-Lua от Fidelis Assis, который является очень успешным фильтром: он продолжает побеждать в конкурсах на спам-фильтры. Он использует байесовское обучение, но я думаю, что настоящая причина его успеха - три принципа:

  • Он тренируется не на отдельных словах, а на редких биграммах : пара слов, разделенных от 0 до 4 словами «все равно». Спаммеры должны где-то размещать свои сообщения, а редкие биграммы очень хорошо разглашают их. Он даже находит спам вложения!

  • Он проводит дополнительное обучение заголовкам сообщений, потому что спамерам сложно их замаскировать. Пример: сообщение, которое отправляется из вашей сети и никогда не проходит через ретранслятор вне сети, вероятно, не является спамом.

  • Если спам-фильтр имеет низкую достоверность своей классификации, он запрашивает информацию от человека. (На практике это добавляет поле заголовка, говорящее «пожалуйста, обучите меня этому сообщению»; человек может игнорировать запрос.) Это означает, что, поскольку спаммеры развивают новые методы, ваш фильтр развивается, чтобы соответствовать.

Эта комбинация методов чрезвычайно эффективна.

Отказ от ответственности: я работал с Fidelis над рефакторингом некоторого программного обеспечения, чтобы его можно было использовать для других целей, таких как классификация обычной почты на группы или, возможно, однажды, чтобы обнаружить спам в комментариях блога и других местах.

5
12.12.2008 06:06:19

Вы правы, наивные байесовские фильтры подвержены байесовскому отравлению .

1
12.12.2008 06:27:12

Я использую Popfile, чтобы не только сортировать спам, но и сортировать свою электронную почту по категориям, и я нахожу ее чрезвычайно эффективной. Используются наивные байесовские фильтры.

1
5.02.2009 17:38:08