Certains moteurs de recherche affichent plus facilement des résultats pédophiles que Google

Publié le

Qwant et Bing ne partagent pas le même moteur de recherche, mais certaines pages sont encore générées entièrement et uniquement grâce à la technologie de Microsoft. Bien que minoritaire en France, Bing est tout de même utilisé quotidiennement pour des millions de requêtes, toutes aussi anodines les unes que les autres. Mais une différence de traitement avec Google et les autres moteurs pourrait bien favoriser les recherches autour de thématiques illégales, comme la pédophilie. Et avec la complicité involontaire de Free…

Des résultats de recherche explicites

Lorsque nous avons effectué une recherche sur le moteur Qwant, nous étions loin de nous douter que les résultats affichés allaient nous emmener ailleurs, vers un territoire d’habitude foulé sur le dark web et ses turpitudes. La recherche initiale est pourtant bien innocente, puisque cela concerne un simple jeu vidéo mobile. Sur Qwant, la recherche retourne une liste de résultats, dont en premier lieu la page de téléchargement d’un gros fichier, hébergé chez Free. Un fichier qui porte le nom du jeu en question. Ces pages ne sont pas censées être indexées par les moteurs de recherche, et d’ailleurs ne le sont pas par Google.

 

exemple de résultat de recherche, sur une requête généraliste

 

Free propose un service d’hébergement web ou ftp, limité à 10Go et illimité dans le temps, pour peu que le fichier soit téléchargé au moins une fois par mois. Ce service est utilisé pour le partage de fichiers licites et, bien entendu, illicites. Malgré un panneau d’avertissement, nombreux sont les internautes qui y hébergent des fichiers de musique, séries, films, livres et autres sans l’aval des ayant-droits. Une véritable aubaine, même si ces dernières années des services plus spécifiques ont vu le jour et écarté Free de la liste des hébergeurs plébiscités.

Curieux, nous voulons savoir si d’autres pages de téléchargement de fichiers sont indexées sur le moteur. La réponse est oui. Mais cela ne s’arrête pas là. Car le premier résultat nous laisse penser qu’il s’agit d’une vidéo à caractère pédophile-nous ne l’avons pas visionné, comme aucun des autres fichiers rencontrés- ce qui est bien entendu répréhensibles à de multiples égards.

 

 

Comment se fait-il que Free ait négligé de ne pas indexer ces pages sur tous les moteurs de recherche? Et surtout, y’a t’il seulement un système de modération qui repère, supprime et signale les contenus de cet ordre? Malgré l’avertissement, il semble que le FAI se base sur les avertissements des visiteurs et les remontées utilisateurs plutôt que par la surveillance.

Les autres résultats remontent des liens supprimés mais d’autres sont sans équivoque. D’autres liens aussi sont regroupés sur des pages Pastebin ou apparaissent sur des réseaux sociaux, des moteurs de recherche ou des forum “spécialisés”, comme “Cutie Garden”, un site où sont exposés des jeunes enfants dans des situations ordinaires mais largement commentées par des adultes, sans équivoque.

On en retrouve également dans des meta-moteurs du dark web, souvent liés à des mot-clés explicites et ouvertement pédophiles. Bien que la plupart soient périmés et servent d’appât pour les “habitués”, le fait que ces résultats apparaissent plus facilement que sur Google peut poser quelques questions sur le moteur, notamment s’il doit jouer un rôle de modérateur (ce que fait déjà Google en écartant certains contenus “extrémistes” de ses résultats) et à quel degré.

Ceci étant dit, le fait que ces pages remontent est surtout dû à une erreur technique: Les pages de téléchargement de fichiers n’ont pas vocation à être exposées au public et les liens qui y mènent sont partagés dans des cercles restreints ou sur des sites spécialisés. L’on imagine pas partager publiquement la page de téléchargement de ses vidéos de vacances, de photos personnelles ou de documents confidentiels. Et pourtant, c’est bien ce qui se passe avec les pages Free, et certainement d’autres (Turbobit par exemple).

En première page

Lorsque l’on effectue une recherche sur le web, les moteurs de recherche s’efforcent via des algorithmes complexes d’afficher les meilleurs résultats possibles pour une requête. Pour aider les moteurs à “visiter” les sites, un ensemble de règle est édité, afin que le “crawler”, le robot qui passe en revue toutes les pages, soit efficace et ne se perde pas en chemin. Il est donc possible d’indiquer le chemin idéal au robot, mais aussi de lui bloquer l’accès à certaines pages, qui ne seront pas indexées par le moteur. Généralement, une page que l’on ne souhaite pas indexer dans Google se voit attribuer un caractère spécifique, le “noindex”, pour indiquer que l’on ne souhaite pas la voir indexée dans les pages de résultat.

Une règle non écrite et dénoncée récemment par Google d’ailleurs, veut que les pages qui ne doivent pas être visitées par le “crawler” soient indiquées dans un fichier, appelé “robots.txt”, placé à la base du domaine et accessible par tous. Par exemple, Google possède son robots.txt, et le moins que l’on puisse dire, c’est qu’il est fourni:

 

 

 

 

Sauf que, sauf que…Les autres moteurs de recherche ont depuis bien longtemps laissé tomber ce système pour ne prendre en compte que les paramètres d’indexation au niveau de la page. Et c’est le cas de Bing, qui n’a jamais tenu compte de ces paramètres.

 

Tableau indicatif de la prise en compte des directives de désindexation par Google et Bing. Source Abondance.com

 

Pour la majorité des sites, seul le regard de Google compte et bien souvent les seuls paramétrages appliqués le sont pour faire plaisir au Goliath de Mountain View, au détriment de Bing et des sites utilisant cette technologie, comme Yahoo ou Qwant…

Nettoyage impossible?

Est-il seulement possible de procéder à un nettoyage par le vide de ces pages? Le système de contrôle repose beaucoup sur les signalements de la part d’internautes. L’inertie et le volume de pages à supprimer sont tels qu’il est quasiment impossible de seulement connaître l’étendue des pages indexées, de s’assurer de leur contenu illicite et de les signaler. 

En revanche, chacun peut signaler sur la plateforme dédiée Internet-Signalement les contenus pédopornographiques ou présupposés. Ils seront examinés et éventuellement retirés dès que leur caractère illégal sera avéré. En revanche, pour les contenus tendancieux et qui ne tombent pas sous le coup de la loi, les unités spéciales de lutte pourront s’en servir comme “Honeypot”* pour la surveillance et repérer les profils d’éventuels délinquants.

Mise au point: La position de Qwant

Nous avons reçu ce jour un message de la part de Qwant nous indiquant sa position sur la question et les mesures qui sont prises pour lutter contre l’apparition de tels contenus:

“Qwant ne tolère dans ses résultats aucun contenu de nature pédopornographique et agit systématiquement pour supprimer de tels résultats dès que nous en avons connaissance. Hélas de tels contenus peuvent dans de rares cas apparaître du fait de l’indexation automatisée de l’ensemble du Web, et nous encourageons nos utilisateurs à nous les signaler pour nous permettre d’agir dans les meilleurs délais. Nous travaillons sur les méthodes appropriées pour mieux les identifier proactivement et éviter leur apparition.”

Nous rappelons que les contenus à caractère pédopornographique n’apparaissent pas directement dans les résultats de recherche, mais que des pages qui permettent de télécharger toute sorte de contenus sont indexées, facilitant le partage de contenus illégaux ou soumis au droit à la propriété intellectuelle.

 

 

* Littéralement “pot de miel”, il s’agit de contenus laissés volontairement pour attirer des visiteurs et observer leur comportement avant d’éventuellement les traquer.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Autres articles sur le même sujet