
Le rôle des noms de domaines et URLs dans les cyber attaques
Dans l’univers du filtrage web, il existe un maillon stratégique que l’on connaît peu et qui pourtant conditionne la qualité d’une politique de sécurité : la base de classification des sites web. Chez Olfeo, c’est Andrea Bassani et son équipe qui assurent cette mission essentielle. Il nous ouvre les portes d’un service méconnu mais central, dont la rigueur et les choix méthodologiques font aujourd’hui la singularité de l’offre Olfeo.
1 – Andrea, quel est ton rôle chez Olfeo et celui de ton équipe ?
Je suis chez Olfeo depuis 11 ans et je dirige aujourd’hui le Service Classification, une équipe entièrement dédiée à l’analyse du contenu des sites web et des applications SaaS. Notre mission est de classifier chaque contenu selon sa nature et son niveau de risque, pour alimenter la base de données utilisée à la fois par notre solution SSE et notre offre OEMdestinée aux éditeurs de cybersécurité et réseaux.
Notre travail repose sur un équilibre subtil entre analyse automatisée (algorithmes, scoring, détection sémantique) et vérification humaine manuelle. Ce double regard est indispensable : l’IA peut faire émerger des tendances et des probabilités, mais seule une analyse humaine permet de trancher sur les cas ambigus, les contextes culturels ou les subtilités juridiques locales.
Chaque jour, notre équipe traite des centaines de sites, dont beaucoup ne sont pas évidents à classer à cause de contenus difficiles à consulter.
C’est un métier exigeant, qui nécessite rigueur, veille constante, mais aussi curiosité. On explore des pans entiers du web, parfois méconnus, et on en apprend beaucoup sur les usages numériques dans le monde entier. Un exemple amusant est un comparatif entre certains sites internet de banques comme au Japon où les illustrations graphiques des sites sont souvent en adéquation avec le culture du pays (Mangas, Kawaii…).
2 – Quelle est la particularité de la base de données Olfeo par rapport à celles d’autres acteurs du marché ?
La majorité des fournisseurs de bases d’URL revendiquent des volumes gigantesques, avec des centaines de millions de domaines. Mais la taille d’une base est loin d’être le seul gage de qualité. Ce qui compte, c’est la pertinence du classement, la cohérence des règles de décision, et la capacité à reconnaître correctement les sites réellement visités.
Chez Olfeo, nous avons fait le choix de prioriser les sites les plus visités dans les zones géographiques où nous opérons. Résultat : nous avons un taux de reconnaissance de 99,7%. Cela signifie que, dans presque tous les cas, lorsqu’un utilisateur accède à un site web, celui-ci est déjà classifié dans notre base. Et ceci, sans atteindre les volumes de sites sur lesquels communiquent les fournisseurs alternatifs.
De même, nous nous concentrons sur la catégorisation juste des sites. Si le classement est erroné, c’est comme une erreur dans un système d’apprentissage automatique : il entraîne des décisions biaisées, compromet les politiques d’accès, et dégrade la confiance dans le système. C’est pourquoi, chez Olfeo, chaque site est vérifié par un humain, même lorsqu’il a été analysé automatiquement. Ce niveau de rigueur est indispensable pour garantir la sécurité tout en respectant les usages métiers.
Un exemple qui illustre cela se trouve dans le traitement fin des sous-domaines. Sur les plateformes ouvertes comme les hébergeurs de blogs, forums ou pages personnelles, beaucoup d’éditeurs classent le domaine principal une fois pour toutes. Dans ce cas, nous analysons chaque sous-domaine indépendamment. Pourquoi ? Parce que chacun est souvent géré par un individu différent, avec des intentions différentes – du blog professionnel à la page d’hameçonnage.
Ce niveau de précision est indispensable pour limiter les faux positifs comme les faux négatifs, qu’un classement automatique pourrait engendrer. Et il est rendu possible parce que notre base est pensée pour être fiable, manœuvrable, interprétable. Pas simplement massive.
3 – Comment définissez-vous les critères de classification ?
Notre méthodologie repose sur une échelle de risque structurée. Nous analysons le contenu d’un site à travers plusieurs prismes : légalité, moralité, mais aussi impact potentiel sur la sécurité des utilisateurs. Quand un site présente un contenu mixte – une partie informative et une autre douteuse – nous retenons la catégorie la plus à risque. Cela permet de garantir une politique de filtrage prudente, sans zones grises, tout en protégeant au mieux les utilisateurs.
Nous avons également un système actif de reclassement : les sites changent, les usages évoluent, et notre base doit rester synchronisée. Nous traitons les demandes de reclassement avec une grande réactivité, qu’elles viennent de clients, d’éditeurs partenaires ou de nos propres outils de veille.
Nous ne cherchons pas à classer tous les sites existants : 30 à 40 % du web est constitué de pages sans valeur ou à faible trafic. Nous concentrons nos efforts là où ils ont le plus d’impact. Et le résultat obtenu avec le chiffre de reconnaissance de 99,7% nous donne raison.
4 – Quels sont les vrais critères de qualité pour juger une base de filtrage ?
Très souvent, on voit des comparatifs qui affichent le volume de sites classés comme unique critère. Mais ce chiffre est trompeur. Voici les vrais critères à considérer pour évaluer une base de classification web :
- Taux de reconnaissance : la base couvre-t-elle efficacement les sites réellement visités par les utilisateurs ?
- Taux de catégorisation juste : les sites sont-ils correctement classés, y compris dans les cas complexes ?
- Granularité : les sous-domaines des plateformes de blog et domaines d’hébergeurs, sont-ils traités individuellement ?
- Politique de sécurité : en cas de doute, est-ce la sécurité qui prime ?
- Réactivité du support : peut-on signaler une erreur et obtenir un reclassement rapide ?
- Adaptation culturelle et géographique : la base prend-elle en compte les spécificités et les textes de lois locales ?
Une bonne base n’est pas figée. Elle doit être vivante, évolutive et interprétable. Elle doit aussi s’inscrire dans une approche plus large, capable de faire remonter les anomalies, et de justifier ses décisions.
5 – Pourquoi ce niveau d’exigence est-il si crucial aujourd’hui ?
Parce qu’aujourd’hui, la surface d’attaque numérique ne cesse de s’élargir. Les menaces passent de plus en plus par le web – que ce soit via des pages malveillantes, des sites de phishing, des campagnes de désinformation ou simplement des contenus inadaptés.
Notre base est utilisée dans des contextes critiques : écoles, entreprises, administrations, hôpitaux. Un faux négatif, c’est un site dangereux qui passe. Un faux positif, c’est une ressource légitime bloquée inutilement et une perte de temps pour la DSI qui doit traiter l’utilisateur mécontent. Dans les deux cas, cela nuit à l’efficacité de la politique de sécurité.
Et au-delà des aspects techniques, il y a une question de confiance. Nos clients s’appuient sur nous pour prendre des décisions automatisées, sensibles, parfois invisibles. Cette confiance se construit par la transparence, la rigueur et la qualité de nos classements.
6 – Un mot de conclusion ?
Si je devais résumer :
👉 Ce n’est pas la taille de la base qui fait toute sa valeur, c’est sa qualité.
👉 Ce n’est pas l’automatisation seule, mais l’interaction entre IA et expertise humaine qui garantit la pertinence.
👉 Ce n’est pas le volume de sites classés, mais la justesse des décisions qui compte.
Chez Olfeo, notre mission est de construire une base qui soit un outil de confiance pour nos clients, un pilier technique solide mais aussi un reflet fidèle de la réalité du web.


