Catégories
Technique

Comment fonctionnent les logiciels antispam filtrant le contenu ?

De nombreux critères entrent en jeu dans le choix d’un antispam, de classer un message en boîte de réception ou en boîte spam. Ces critères sont répartis en deux catégories : le comportement de l’expéditeur (assimilé à sa « réputation ») et le contenu du message.Quand nous parlons du comportement de l’expéditeur, nous abordons souvent des principes techniques, comme la façon dont est faite le tracking, l’historique d’envoi des adresses IP, les enregistrements SPF, les reverses des DNS, la stabilité dans le temps du volume d’envoi et les taux de mauvaises adresses, le respect des bonnes pratiques lors de la transaction SMTP, la réputation du domaine expéditeur et de tracking… Cependant parfois tout cela peut être parfaitement géré et le mail passe en spam. Dans ce cas c’est le contenu du message en lui même qu’il faut regarder.

En effet, il y a autant de critères entrant en jeu lors de l’analyse du contenu, et certains sont très complexes. Donc si vous envoyez des messages que les destinataires veulent recevoir, que vous êtes sûr que les aspects techniques sont corrects et que vous avez une réputation décente, une analyse du contenu peut être nécessaire pour optimiser la délivrabilité.

L’objectif à respecter est que vos emails aient l’air « respectables », qu’ils soient envoyés correctement  et qu’ils se différencient des spam, virus, mails de phishing, etc… Et ce, pas uniquement pour contenter les antispams filtrant le contenu, mais également pour inspirer confiance, honnêteté et compétence aux destinataires.

Pour résumer, les antispams se basant sur le contenu font la différence entre un spam et un mail légitime grâce à la façon dont est tournée le message. Certains spammeurs tentent de cacher leur identité et parfois même leur contenu (avez vous déjà reçu les mails avec des blancs entre chaque lettre ? Par exemple « v i a g r a »).

La qualité du code source du message est également importante. Un raccourci communément admis chez les fabriquants de solutions antispam est que les mails personnels (écrits dans un client messagerie type Outlook) ainsi que les mails marketing faits par des pros dans des logiciels spécialisés (Dreaweaver par exemple) sont biens écrits et respectent les normes en vigueur (RFC, …). A l’inverse, les spammeurs travaillent de façon artisanale et visent le volume plutôt que la qualité de leur message.

Voici une liste non exhaustive des choses à prendre en compte :

Format MIME

En théorie un mail doit contenir une version HTML et une version texte, le tout encapsulé au format multipart.

Attention, cette affirmation n’est pas à prendre à la lettre. Si la version texte est différente de la version HTML, la délivrabilité va être à l’inverse fortement réduite. Mieux vaut ignorer ce critère si l’on obtient de mauvais résultats (courant chez Orange).

Encodage des caractères

Les spammeurs tentent d’empêcher les filtres antispam d’analyser leur contenu. Un moyen courant de faire cela est d’utiliser un encodage base64 (destiné à des pièces jointes) alors qu’il s’agit de simple texte. Les mails s’affichent correctement car les clients messagerie gèrent la chose, mais le filtre de contenu des antispams ne pourra pas faire d’analyse sémantique.
Leur réaction dans ce cas est souvent de cataloguer d’office le message en spam.

Ce type de comportement n’est parfois pas malveillant. Pour un développeur cela va plus vite de tout encoder en base64 pour ne pas avoir à se soucier de trouver le meilleur encodage pour chaque partie du mail.

Cependant aux yeux des filtres de contenu et des administrateurs de messagerie cela donnera une image plutôt d’incompétent, ou de malhonnête.

Images

Une autre moyen de déjouer l’analyse des antispams est d’utiliser des images. Le cas d’école consiste à n’utiliser qu’une seule grosse image dans le moindre texte.

Bien sûr ce type de messages passe mal les filtres à spam, car un minimum de texte « normal » est nécessaire dans un mail :

– un lien de désinscription
– le pavé avec les coordonnées de l’annonceur pour être en adéquation avec la plupart des législations

Codage HTML

Un mail illisible avec des images ou des liens cassés n’est pas en général envoyé par un annonceur sérieux. Chaque image doit avec sa balise ALT pour que les gens n’affichant pas les images voient de quoi il en retourne, d’une part, mais également pour les filtres qui de leur point de vue vont trouver le message plus intelligible.

D’une façon générale, le code HTML doit être correct.

Phishin

Certains messages essayant de faire du phising vont comporter du code de ce style : <a href= »http://phisher.ru »>Ma-Banque.com</a>, pour faire croire au destinataire qu’il va visiter sa banque alors que le lien va le diriger vers un site malveillant.

Bien entendu les antispams vont très fortement pénaliser ce type de message. Malheureusement les mails envoyés via une plateforme de routage professionnelle peuvent être impactés.
Afin de vous fournir des statistiques, les routeurs remplacent vos liens par des liens vers leur plateforme de tracking.

Evitez donc les URL dans vos messages partant de chez un routeur, ou alors désactivez le tracking.
Sinon cela donnera par exemple <a href= »http://www.eml-srv.com/tracking?id=45454515151″>http://www.votre-url-initiale.com</a>
Certains antispams vont bloquer les messages contenant un lien de ce type. C’est le cas de Wanadoo / Orange depuis quelques semaines apparemment.

Le fond et la forme

Même si l’ensemble de vos destinataires attendent votre newsletter avec impatience, certaines tournures peuvent vous poser plus de problèmes que d’autres. « Avoir l’air d’un spammeur » est très pénalisant. Si vraiment vous devez utiliser des mots comme « Paypal », « VISA », « Viagra », « Pharmacy » ou « Porn » dans votre newsletter, attendez vous à devoir passer pas mal de temps à optimiser le reste …

La réputation des domaines expéditeur et des pages d’arrivée

Si deux mails se ressemblent et que destinataire en signale un comme spam il est fortement probable que le second passe en spam chez lui.

La détection de « la similarité » de deux mails est complexe. Ainsi une méthode courante et simple est de se baser sur « l’empreinte ou la signature » d’un message. D’autres considérations peuvent entrer en jeu, mais parfois cela se résume à se baser sur les noms de domaine utilisés par le message.

Les noms de domaine sont utilisés à deux endroits : dans l’email de l’expéditeur (et / ou de réponse) ainsi que dans les liens présents dans le mail. Des systèmes de listes publiques répertoriant les domaines qui spamment existent (www.uribl.com par exemple) et sont utilisées par certains antispams.

Traduction libre. Retrouver la version originale de cet article de Fiddly Trivia sur wordtothewise.com

Besoin d’une solution tout un ? Découvrez notre plateforme emailing.