FuzzyOcr – Plugin spamassassin de reconnaissance de caractères

Logo FuzzyOCR

Le FuzzyOcr Plugin est une arme assez efficace pour lutter contre les pourriels contenant des images. Il se base sur la reconnaissance optique de caractères pour rechercher des mots clefs dans ces images. Vous pouvez spécifier vous même les listes des mots à retrouver. Ce greffon possède aussi quelques optimisations pour le traitement des fichiers images volontairement corrompus.

Le fonctionnement de base du greffon, tel qu’il est décrit sur la page web de présentation recouvre les étapes suivantes :

  1. Recherche les images dans les différentes parties du message,
  2. Recherche du score du mail, afin d’éviter de scanner les messages déjà taggé par spamassassin comme spam, ce qui évite l’utilisation de ressources inutilement.
  3. Chaque image est analysée pour identifier son format (GIF, PNG, JPEG),
  4. Suivant le format d’image détecté, différents outils sont appelés pour convertir l’image au format PNM,
  5. Le programme de reconnaissance optique de caractères gocr et/ou ocrad est appelé pour extraire le texte du fichier PNM,
  6. Les chaînes de caractères obtenues sont scrutées à la recherche de mots prédéfinis, les scores sont calculés et les résultats sont transmis à spamassassin.

L’ayant mis en place il y a peu, j’ai fais un howto d’installation, largement inspiré de celui présent sur le wiki de FuzzyOCR, mais ça pourrait toujours servir à ceux qui ne parle pas anglais 😉

Howto FuzzyOcr

Author: Pierre-Yves Dubreucq

Passioné par les logiciels libres depuis 2001, je suis VP Bare Metal (Dedibox) chez Scaleway. Je tiens ce blog depuis 13 ans avec beaucoup moins d'assiduité malheureusement qu'à ses débuts, mais bon, le temps est une denrée rare.

Share This Post On

Submit a Comment

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *