Blog
Le Blog

Le problème Scunthorpe: les limites du filtrage web à base de catégorisation automatique

Actualités cyber
Le 19 décembre 2023

Le filtrage de contenus ou le filtrage web existe depuis plus de 20 ans et permet de sécuriser efficacement le trafic web des collaborateurs.

Or devant le grand nombre de sites internet – en 2023, on parle de près de 2 milliards de sites web dans le monde, la catégorisation des URLs peut être problématique, à la fois pour la justesse de la catégorisation mais aussi pour maintenir une information à jour dans la durée (un URL peut voir le site associé ou son contenu changer au fil des années et par conséquent changer de catégorie).

Une catégorisation automatique, basée sur l’analyse sémantique du contenu semble donc être une solution à la fois efficace et qui passe à l’échelle. C’est par ailleurs une approche adoptée par la plupart des acteurs de filtrage web dans le monde, avec à la clé des situations cocasses que nous allons voir dans cet article.

Le problème de Scunthorpe

Le problème de Scunthorpe tire son nom d’une ville éponyme au Royaume-Uni. En 1996, cette localité est devenue célèbre malgré elle en raison de la politique de filtrage automatisé mise en place par certains services en ligne, notamment les filtres anti-spam et les contrôles parentaux. Le problème était que le filtre censurait le terme « Scunthorpe » en raison de la séquence de lettres « c-u-n-t » qu’il contenait, considérée comme offensante (on vous laisse regarder la traduction).

Cela a eu des conséquences comiques, mais aussi problématiques pour les habitants de Scunthorpe qui rencontraient des difficultés à communiquer en ligne ou à s’inscrire sur certains sites.

Parmi d’autres situations amusantes, on peut citer le site officiel de la ville de Bitche en Moselle qui a été censuré entre mars et avril 2021 par Facebook à cause de sa ressemblance avec un mot anglais signifiant quelque chose de différent.

De même, des courriers électroniques contenant le mot « specialist » fréquent dans les CV ont été filtrés et donc dirigés vers la boîte spam car ils contenaient la chaîne de caractères Cialis, qui correspond à une marque de médicament traitant les troubles érectiles (Tadalafil pour ceux qui demandent pour un ami) et dont le commerce est souvent utilisé par les spammeurs. À noter que les mots « socialiste » ou « socialisme » ont aussi été bloqués par le même filtre.

Les défis de la catégorisation automatique des contenus

Le Problème de Scunthorpe est un exemple illustrant les défis complexes auxquels sont confrontées les solutions de filtrage à catégorisation automatisée. Ces solutions, souvent basées sur des algorithmes de correspondance de motifs, cherchent à bloquer les termes ou le contenu jugés inappropriés. Cependant, ils peuvent également générer des faux positifs, censurant involontairement des termes innocents qui contiennent des séquences de lettres ou de caractères potentiellement problématiques.

L’utilisation d’expressions régulières, une méthode courante dans le développement des systèmes de catégorisation automatisés, peut entraîner des erreurs lorsque des termes apparemment offensants sont présents dans des mots inoffensifs. Mais les nuances de la langue, les jeux de mots, et les contextes culturels peuvent facilement échapper aux algorithmes. De même, le langage évolue constamment, rendant la mise à jour des filtres un défi permanent. Avec de plus en plus d’anglicismes ou mélanges de langues dans le même contenu, les analyseurs automatiques ont fort à faire pour distinguer les contenus illégitimes des contenus pertinents.

Distinguer le contenu légitime avec une sémantique laissant entendre un contenu illégal

Peu de métiers ont le niveau d’exigence que celui des personnes soignantes. Médecins, infirmières, personnels auxiliaires, ils ont en commun un besoin d’accès immédiat à l’information pertinente qui peut sauver des vies. Ils ont également la particularité d’évoluer dans un champ lexical pouvant suggérer un contenu illicite ou dont la consultation est encadrée par la loi (médicaments, composés chimiques, drogues, maladies, toxicomanie, maladies, suicide etc.).

Dans ces conditions, le responsable IT ou le RSSI de ces établissements, a la difficile tâche de devoir mettre en place des solutions de filtrage aux contenus illicites mais sans pénaliser le travail des soignants. Notre expérience dans le domaine des établissements de santé montre que les solutions retenues ne donnent pas toujours entière satisfaction.

Trop souvent, les équipes font face à des sites bloqués alors que la consultation de ses contenus est nécessaire pour la réalisation de leur travail. On nous remonte trop souvent des scénarios où des solutions « système D » sont mises en place pour outrepasser les solutions de filtrage : utilisation d’équipements ou connexions internet personnels, mise en place d’une box internet indépendante etc. Ces solutions peuvent résoudre les problèmes mais exposent les organisations à des risques juridiques et de sécurité importants.

La raison principale de ces difficultés repose au cœur même des solutions de filtrage : la base de données des sites (ou URLs) et leur catégorisation. La plupart des solutions de filtrage utilisent des bases de données globales avec une catégorisation unique et commune aux pays, sans prendre en compte les spécificités culturelles, juridiques et linguistiques des pays. De même, en se limitant à une catégorisation automatique à base d’analyse sémantique des sites internet, il est impossible de faire la différence entre un site traitant de la vente de marijuana illégale et un site vendant des produits thérapeutiques à usage légal pour les établissements de santé.

L’opérateur humain: seule solution pour limiter les faux positifs

La seule approche donnant satisfaction et limitant les faux positifs aujourd’hui implique une validation de la catégorisation du site par un opérateur humain, aidé bien sûr par un premier pré-classement automatique – à base d’IA ou non.

Ce choix permet de s’assurer que les sites légitimes sont accédés par les équipes sans impact sur leur travail tout en bloquant les sites à contenu illicite.